Canal de Vídeos -> https://www.youtube.com/c/LNCCbr/videos
Descrição: MC-CD02 (Análise de Dados): Data Mining
Professor Eduardo Ogasawara
Site -> https://eic.cefet-rj.br/~eogasawara/lncc-curso-de-verao-em-analise-de-dados/
Anotações de aula
Dedutive Expert Systems: Sistemas de Recomendação
DM Funções: Generalização (gerar cubo multidimensional). Associação ou Análise de Correlação (análise de carrinho de compras, frequent itemset com métricas de suporte e confiança do cálculo), Predição (fase de treinamento supervisionado para gerar modelos através de métodos como árvores de decisão, naive bayes, SVM, ...), Análise de Agrupamentos (métodos não supervisionados como o K-means, relações intrínsecas dos dados de modo que aumente a similaridade intra-classe e reduza a similaridade inter-classe), Descoberta de Outliers (detecção de fraudes), Detecção de Eventos, Padrões de Sequencia de Eventos
Tipos de atributos: nominal, binário, ordinal (hierarquia)
Iris Dataset
Medidas estatísticas: centralidade (moda, média, mediana), dispersão (variância, desvio padrão)
Normalização é essencial para o aprendizado de máquina
Distribuição normal é um histograma mais próximo de um formato de um sino
skewed: viés dos dados
Quartil: 25% (Q1) e 75% (Q3)
Análise Bloxpot: outliers x > Q3 + 1.5 IQR ou y < Q1 - 1.5 IQR, sendo IQR = Q3 - Q1
Análise de Correlação: matriz N x N entre duas variáveis
Como lidar com valores ausentes? IMPUTAÇÃO
Imputar com a média pode levar a modificar o padrão dos dados de modo a tornar a distribuição normal onde não é, alternativa pode ser clusterizar por outros atributos e imputar os valores ausentes com valores que melhor caracterizem o grupo
Dados com ruído pode ser discretizados para mudar faixa de valor, usar modelo de regressão ao invés de usar o próprio valor
Processos de limpezas de dados em ETL: remoção de outliers, integração de dados (esquema, entidade e atributos conflitantes)
Redução de dados: amostra para ter um piloto para compreensão dos dados, remover atributos não relacionados ao interesse de análise, calcular um novo atributo significativo a partir da relação entre outros existentes
Redução de dimensionalidade pq a medida que o volume de dados aumenta, se torna mais esparso. PCA
Overfit: modelo é muito ajustado a dados de treinamento e não responde bem a dados novos
Existem 2^n relações possíveis entre atributos de um dataset, é possível usar heurística para selecionar e criar uma árvore de decisão
Descrição: MC-CD03 (Algoritmos e Modelos de Programação para Big Data)
Professor Fabio Porto
Site ->http://dexl.lncc.br/pv2021/
Anotações de aula
Goods: Google Datasets SIGMOD 2016 Halevy
Ingestão de dados em Data Lakes, armazenamento com catálogo de metadados (para não virar Data Swap) inclusive o esquema de dados
Interaction Layers: visões, data marts sob demanda
HDFS: sistema de arquivos distribuídos, read-only, append (não tem update in place), leitura sequencial, partições de tamanho fixo, interface de comunicação padrão ISO
Sistema de memória compartilhada e distribuída
Shared Nothing: nós com processamento, memória e disco local, Name Node é o SPoF mas pode ser contingenciado/replicado
A transferência de dados é feita entre nós via rede, deve ser minimizada
Lazy evaluation: os passos do data flow são executados de fato somente quando o escalonador encontra uma ação
Artigo VLDB 2019 sobre implementações de algoritmos em grafos
Comentários
Postar um comentário
Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.