Programa de Verão LNCC 2021 - Minicursos Big Data & Data Mining

Canal de Vídeos -> https://www.youtube.com/c/LNCCbr/videos

Descrição: MC-CD02 (Análise de Dados): Data Mining

Professor Eduardo Ogasawara

Site -> https://eic.cefet-rj.br/~eogasawara/lncc-curso-de-verao-em-analise-de-dados/

Anotações de aula

Dedutive Expert Systems: Sistemas de Recomendação

DM Funções: Generalização (gerar cubo multidimensional). Associação ou Análise de Correlação (análise de carrinho de compras, frequent itemset com métricas de suporte e confiança do cálculo), Predição (fase de treinamento supervisionado para gerar modelos através de métodos como árvores de decisão, naive bayes, SVM, ...), Análise de Agrupamentos (métodos não supervisionados como o K-means, relações intrínsecas dos dados de modo que aumente a similaridade intra-classe e reduza a similaridade inter-classe), Descoberta de Outliers (detecção de fraudes), Detecção de Eventos, Padrões de Sequencia de Eventos

Tipos de atributos: nominal, binário, ordinal (hierarquia)

Iris Dataset

Medidas estatísticas: centralidade (moda, média, mediana), dispersão (variância, desvio padrão)

Normalização é essencial para o aprendizado de máquina

Distribuição normal é um histograma mais próximo de um formato de um sino

skewed: viés dos dados

Quartil: 25% (Q1) e 75% (Q3)

Análise Bloxpot: outliers x > Q3 + 1.5 IQR ou y < Q1 - 1.5 IQR, sendo IQR = Q3 - Q1

Análise de Correlação: matriz N x N entre duas variáveis

Como lidar com valores ausentes? IMPUTAÇÃO

Imputar com a média pode levar a modificar o padrão dos dados de modo a tornar a distribuição normal onde não é, alternativa pode ser clusterizar por outros atributos e imputar os valores ausentes com valores que melhor caracterizem o grupo

Dados com ruído pode ser discretizados para mudar faixa de valor, usar modelo de regressão ao invés de usar o próprio valor

Processos de limpezas de dados em ETL: remoção de outliers, integração de dados (esquema, entidade e atributos conflitantes)

Redução de dados: amostra para ter um piloto para compreensão dos dados, remover atributos não relacionados ao interesse de análise, calcular um novo atributo significativo a partir da relação entre outros existentes

Redução de dimensionalidade pq a medida que o volume de dados aumenta, se torna mais esparso. PCA

Overfit: modelo é muito ajustado a dados de treinamento e não responde bem a dados novos

Existem 2^n relações possíveis entre atributos de um dataset, é possível usar heurística para selecionar e criar uma árvore de decisão

Descrição: MC-CD03 (Algoritmos e Modelos de Programação para Big Data)

Professor Fabio Porto

Site ->http://dexl.lncc.br/pv2021/

Anotações de aula

Goods: Google Datasets SIGMOD 2016 Halevy

Ingestão de dados em Data Lakes, armazenamento com catálogo de metadados (para não virar Data Swap) inclusive o esquema de dados

Interaction Layers: visões, data marts sob demanda

HDFS: sistema de arquivos distribuídos, read-only, append (não tem update in place), leitura sequencial, partições de tamanho fixo, interface de comunicação padrão ISO

Sistema de memória compartilhada e distribuída

Shared Nothing: nós com processamento, memória e disco local, Name Node é o SPoF mas pode ser contingenciado/replicado

A transferência de dados é feita entre nós via rede, deve ser minimizada

Lazy evaluation: os passos do data flow são executados de fato somente quando o escalonador encontra uma ação

Artigo VLDB 2019 sobre implementações de algoritmos em grafos

Pesquisa de Doutorado da Veronica

Pesquisar este blog