Licenciatura
Engenharia Informática
Área Científica
Ciências Informáticas
Duração
Semestral
Unidade Curricular
Ciência de Dados
ECTS
6
Horas de Contacto Teórico Práticas
60h
OBJETIVOS DA APRENDIZAGEM
Para concluir com sucesso esta unidade curricular, os alunos deverão demonstrar possuir os seguintes conhecimentos e capacidades:
O1. Perceber os fundamentos básicos da Ciência de dados;
O2. Compreender a lógica da Teoria da decisão baseada nos testes de hipóteses;
O3. Saber distinguir entre modelos matemáticos puros e modelos de tratamento de dados com
incerteza;
O4. Perceber a diferença entre análise exploratória de dados e análise confirmatória de dados;
O5. Construir um modelo de regressão múltipla com interpretação estrutural e preditiva.
PROGRAMA
1. Introdução
1.1. Big data e data mining
1.2. SQL, Index Numbers e tidy data
1.3. Álgebra linear e graus de liberdade
1.4. Linguagem R
2. Análise exploratória de dados
2.1. Extração de caraterísticas
2.2. Matriz de interdependências
2.3. Product-moment correlation de Pearson, rank correlation de Spearman e de Kendall
3. Análise confirmatória de dados
3.1. Testes de hipóteses
3.2. Decisões baseadas no p-value
3.3. Intervalos de confiança
4. Modelos de regressão
4.1. Homocedasticidade e autocorrelação dos dados
4.2. Testes de raízes unitárias e cointegração
5. Modelos preditivos
5.1. Dados time-series
5.2. Dados cross-section
6. Projeto: construção de um modelo dinâmico de regressão aplicado à economia
DEMONSTRAÇÃO DE COERÊNCIA ENTRE CONTEÚDOS PROGRAMÁTICOS E RESULTADOS DA APRENDIZAGEM
A abordagem introdutória dos conteúdos programáticos permite ao aluno perceber os
fundamentos básicos da Ciência de dados, bem como entender a diferença entre modelos
matemáticos puros e modelos de tratamento de dados com incerteza. Os conhecimentos
adquiridos pelo aluno sobre a análise exploratória e confirmatória de dados conduzem à
compreensão das decisões sobre hipóteses formuladas acerca dos dados, através da
interpretação do p-value. A explicação aprofundada sobre técnicas de regressão e de predição
de dados permite ao aluno saber construir modelos relacionais multivariados e interpretar
impactes entre variáveis.
METODOLOGIA DE ENSINO E AVALIAÇÃO
Nesta unidade curricular a metodologia utilizada baseia-se numa interação entre a teoria e a
prática, sobretudo com exemplos da vida real, utilizando o software mais adequado ao
desenvolvimento de cada um dos pontos do programa. É sempre seguida uma estratégia de
motivação no sentido de que o aluno deve sentir-se fulcral no processo de aprendizagem.
A avaliação é efetuada através de um exame escrito individual e obrigatório, podendo ser
considerados elementos de avaliação contínua, tais como a participação nas aulas presenciais
e em recursos de aprendizagem relacionados com e-learning.
DEMONSTRAÇÃO DE COERÊNCIA ENTRE METODOLOGIAS DE ENSINO E RESULTADOS DE APRENDIZAGEM
A metodologia utilizada na base da dinâmica criada pela resolução de problemas da vida real,
com evidência científica e com o recurso às ferramentas tecnológicas atualmente disponíveis,
contribui certamente para uma forte motivação e participação do aluno no sentido de os
objetivos de aprendizagem desta unidade curricular serem cabalmente atingidos.
BIBLIOGRAFIA
Foster Provost & Tom Fawcett (2013). Data Science for Business.
Grolemund,G. ,& Wickham, H. (2017). R for data science: import tidy, transform, visualize and
model data.
Jiawei Han, Micheline Kamber & Jian Pei (2013). Data Mining: concepts and techniques.
Max Kuhn & Kjell Johnson (2013). Applied Predictive Modeling.
Trevor Hastie, Robert Tibshirani & Jerome Friedman (2009). The Elements of Statistical
Learning: Data Mining, Inference and Prediction.
Yoshua Bengio, Ian Goodfellow & Aaron Courville (2016). Deep Learning.
Internet: acesso a publicações da especialidade, gratuitamente, através da rede SPRINGER:
https://link.springer.com/