Parte 1 - https://youtu.be/XiCplPUW0tM
Parte 2 - https://youtu.be/66_FRyi7iBI
Material - https://linktr.ee/uffjupyter
Ciência de Dados: Dados >> transformação >> Informação / Conhecimento
Engenharia de Dados para tratar a entrada
Aprendizado de Máquina, Mineração de Dados, Estatísticas, Visualização para transformação e insights
Ciclo de Vida de Ciência de Dados
Reprodutibilidade
Jupyter Notebook: Programação Literária Interativa composto de Texto (Documentação), Trecho de Código e Saída
Exemplos de Data Frames (tabelas) ... df.describe() exibe estatísticas interessantes, comando para histograma
Exemplos de Gráficos com seaborn.pydata.org/examples ... é só copiar e colar
JupyterLab -> https://jupyterlab.readthedocs.io/en/stable/getting_started/installation.html
pandas - Panel Data
formato tabular (dataframe) e séries temporáis (array de uma dimensão)
no dataframe cada coluna é do tipo série e tem um tipo de dados, criado de modo integrado um índice (nome ou valor) , pode ser criado a partir de um dicionário (chave e valor)
Parte prática
Importando Dados: CSV, TSV, Excel, JSON, SGBDs
Limpeza de Dados: ausentes, ruidosos, outliers e duplicados
Integração de Dados: merge por colunas
Transformação: Seleção de variáveis numéricas, Escalonamento com Normalização [0..1] ou Padronização (centralização na média)
Engenharia de Características em variáveis categóricas (não numéricas): categorias para booleanos e classes, conversão de campos data (que podem gerar novas classes)
Balanceamento das classes: distribuição para classificadores,
Análise Exploratória
Obter registros aleatórios com df.sample, várias funções de agregação, df.describe para funções estatísticas básicas
Distribuição de frequência de variáveis categóricas
Boxplot !!! e histogramas, coeficientes de correlação
Visualização de Dados: comunicar. Bibliotecas: matplotlib e seaborn. Vários tipos de gráficos, usar como um templates, substituindo as variáveis.
IPython: é um kernel do jupyter,
ipywidgets para tornar o jupyter mais interativo... @interact para criar botões e formulários
Ciência Aberta: distribuição, pode usar o Git ou Zenodo / Figshare, nas plataformas de Ciência Aberta é obtido um DOI para ser citado. Boas Práticas para reprodução, usar ferramentas para verificação.
Comentários
Postar um comentário
Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.