SBBD 2021 - Minicurso 01: Ciência de Dados com Reprodutibilidade usando Notebook Jupyter

Parte 1 - https://youtu.be/XiCplPUW0tM

Parte 2 - https://youtu.be/66_FRyi7iBI

Material - https://linktr.ee/uffjupyter

Ciência de Dados: Dados >> transformação >> Informação / Conhecimento

Engenharia de Dados para tratar a entrada

Aprendizado de Máquina, Mineração de Dados, Estatísticas, Visualização para transformação e insights

Ciclo de Vida de Ciência de Dados

Reprodutibilidade

Jupyter Notebook: Programação Literária Interativa composto de Texto (Documentação), Trecho de Código e Saída

Exemplos de Data Frames (tabelas) ... df.describe() exibe estatísticas interessantes, comando para histograma

Exemplos de Gráficos com seaborn.pydata.org/examples ... é só copiar e colar

JupyterLab -> https://jupyterlab.readthedocs.io/en/stable/getting_started/installation.html

pandas - Panel Data

formato tabular (dataframe) e séries temporáis (array de uma dimensão)

no dataframe cada coluna é do tipo série e tem um tipo de dados, criado de modo integrado um índice (nome ou valor) , pode ser criado a partir de um dicionário (chave e valor)

Parte prática

Importando Dados: CSV, TSV, Excel, JSON, SGBDs

Limpeza de Dados: ausentes, ruidosos, outliers e duplicados

Integração de Dados: merge por colunas

Transformação: Seleção de variáveis numéricas, Escalonamento com Normalização [0..1] ou Padronização (centralização na média)

Engenharia de Características em variáveis categóricas (não numéricas): categorias para booleanos e classes, conversão de campos data (que podem gerar novas classes)

Balanceamento das classes: distribuição para classificadores,

Análise Exploratória

Obter registros aleatórios com df.sample, várias funções de agregação, df.describe para funções estatísticas básicas

Distribuição de frequência de variáveis categóricas

Boxplot !!! e histogramas, coeficientes de correlação

Visualização de Dados: comunicar. Bibliotecas: matplotlib e seaborn. Vários tipos de gráficos, usar como um templates, substituindo as variáveis.

IPython: é um kernel do jupyter,

ipywidgets para tornar o jupyter mais interativo... @interact para criar botões e formulários

Ciência Aberta: distribuição, pode usar o Git ou Zenodo / Figshare, nas plataformas de Ciência Aberta é obtido um DOI para ser citado. Boas Práticas para reprodução, usar ferramentas para verificação.

Pesquisa de Doutorado da Veronica

Pesquisar este blog

SBBD 2021 - Minicurso 01: Ciência de Dados com Reprodutibilidade usando Notebook Jupyter

Comentários

Postar um comentário

Postagens mais visitadas deste blog

Aprendizado de Máquina Relacional

Connected Papers: Uma abordagem alternativa para revisão da literatura

Cores convida - Minicurso: Aprendizado de máquina e inferência em Grafos de Conhecimento