Faculdade de Ciência de Dados e Inteligência Artificial
análise, qualidade e governança de dados
Entregável do Bloco: |
Estatística para Data Science |
Calcular medidas estatísticas básicas |
Descrever as distribuições estatísticas dos gráficos usando medidas e gráficos |
Calcular a correlação linear entre dados |
Realizar a regressão linear dos dados utilizando o método de mínimos quadrados com o módulo Scikit-learn |
Gerenciamento de Qualidade de Dados |
Compreender o que é Qualidade de Dados e Informação |
Realizar a higienização de uma base de dados |
Descrever os requisitos e características do padrão ISO-8000 |
Definir as dimensões de qualidade relevantes para base de dados reais |
Implementar métricas que qualificam base dados em tarefas recorrentes |
Análise Exploratória de Dados |
Instalar Scikit-Learn, Numpy e Pandas usando um ambiente de Virtualenv |
Realizar tarefas avançadas de exploração e análise de dados usando bibliotecas científicas da linguagem Python (Pandas, Numpy, Scipy e Matplotlib) |
Utlizar os módulos Matplotlib e Seaborn para visualização de dados |
Utilizar a aplicação Jupyter Notebook como ambiente de desenvolvimento interativo |
Governança de Dados |
Entender o que é governança de dados |
Conhecer o Framework de gerência de dados DAMA-DMBOK |
Aplicar preceitos de governança ao longo do ciclo de vida dos dados |
Catalogar a linhagem de dados e usar uma ferramenta de catalogo de dados |
Entender as implicações da LGPD |
Projeto de Bloco: Análise, Qualidade e Governança de Dados |
Realizar uma análise exploratória de dados em uma base qualificada (segundo as diretrizes da ISO 8000) |
Calcular a distribuição das variáveis |
Identificar de outliers no conjunto de dados |
Escrever um relatório de conclusões relevantes ao contexto ao qual os dados pertencem. |