Pular para o conteúdo principal

Minicurso - SBBD 2020 - LNCC Aprendizado de Máquina Aplicado a KG

Fonte -> https://youtu.be/hWaoEOdTwas

Slides: https://sbbd.org.br/2020/wp-content/uploads/sites/13/2020/10/Aprendizado-de-Maquina-aplicado-a-Grafos-de-Conhecimento-3-Unicode-Encoding-Conflict.pdf

  1. Introdução
  2. Modelos e Sistemas para KG
  3. Tarefas de KG
    1. Construção
    2. Completação
  4. Trabalhos Futuros, Problemas em Aberto, Aplicações

Terceira onde de Inteligência Artificial é o contexto atual e de desenvolvimento dos KGs

Representação e Raciocínio de Conhecimento é uma su área de IA: Redes Semânticas (Taxonomias, Frames), Ontologias, Web Semantica, LOD e KG

Things is not strings : Google para impulsionar os KG

Não existe uma definição formal para KG. Elementos que caracterizam: Entidades do mundo real, Relacionamento entre entidades, Podem conter restrições e regras (uma ontologia ou esquema para descrever, na forma de grafo também), Permitem inferência de novos fatos (não observados, existentes no KG) ... Componentes Terminológicas /Taxonomia / Esquema & Componentes Assercionais / Instâncias / Entidades do Mundo Real

Associados a: GraphDB, TripleStores, Ontologias, Redes Semânticas, Bases de Conhecimento (KB)

Integração de Dados: KG como artefato de integração

SciGraph: outro exemplo de KG acadêmico

Aplicação: Agentes Conversacionais (Chat Bot), Integrações de Dados (Silo de dados, Medicina personalizada), Verificação de fatos (Identificar o menor caminho entre duas entidades de um grafo pode fornecer evidências para provar ou refutar afirmações), Q&A (perguntas em linguagem natural como consultas, mapeamento em um esquema mais flexível), Sistemas de Recomendação (grafos bipartidos, problema de Cold Start, como caracterizar a similaridade entre entidades e como modelar essas entidades com esse propósito) e Motores de Busca (primeiras aplicações, recuperam entidades relacionadas) 

Amazon Neptune usa modelo RDF e LPG

Namespaces: prefixos para URI

Três Desafios: Cobertura / Completude, Atualização e Acurácia / Corretude. 

No escopo: Como construir KG a partir de documentos? Como inferir novo conhecimento a partir dos fatos existentes no grafo?

Fora do escopo: Como realizar o merge entre KG? Como verificar a veracidade dos fatos contidos no KG? Como alinhar KG ou Ontologias?

Tarefas que usam NLP e Embeddings para extrair informação de dados não estruturados: 

  1. Named Entity Recognition (NER)
  2. Entity Linking (EL): Desambiguação, Geração de candidatos, Ranking de candidatos (mais próximo do contexto de interesse deve ser mais relevante)
  3. Relation Extraction: identificar as relações entre as Entidades anteriormente linkadas

Exemplo de sistemas: Fonduer (SIGMOD 2018) - funções de rotulagem para classificação usando modelos de aprendizagem de máquina; GAIA (ACL 2020) - usa redes de convolução para as tarefas com dados de entrada que podem ser texto, tabelas, imagens, ...

Completação / Predição de Links: A tripla (s,p,o) é verdadeira? Qual seria um o possível, se p for uma relação entre objetos? Qual seria um o possível, se p for um atributo de s? Qual seria um o possível, se p for o tipo de s?  Qual seria um s possível? Qual seria um p possível? 

Classificação (is a) de entidades é um tipo específico de predição de link. 

Relational Machine Learning

  • Modelos probabilístico: modelam a interdependência entre as triplas
  • Graph Feature Model:  associar features a entidades e relacionamentos, triplas independentes, engenharia de características
  • Latent Feature Models: embeddings

KGE

Representações para Entidades, Relações, Caminhos, Grafo Completo e no espaço vetorial aprendido as entidades semelhantes ficarão próximas. 

Grafo de entrada, Geração de exemplos negativos (manual ou negative sampling), Função de custo, Score de cada tripla e algoritmo de otimização

TransE: relações estão representadas como a distancia vetorial entre os seus nós. O score da tripla é a distância L1 entre a representação vetorial dos nós, soma o Vs e Vr e diminui o Vo. Não lida com relações 1-N, N-1 e N-M. 

Modelos shallow: poucas camadas ... o TransE é um exemplo, aplicar uma função linear aos embeddings

Deep: as funções de classificação possuem camadas escondidas, cuidado com overfitting e a complexidade de tempo e espaço ... ConvE (AAAI 2018)  é um exemplo

Hiper grafos de conhecimento: Beyond Triples Hyper KG Embeddings for Linking Prediction WWW 2020 HINGE

Beyond Triplet Reasoning: Subgraph matching may be exponential and partially observed data

Query2box: ICLR 2020


Embedding Logical Queries on KG (NIPS 2018)

AmpliGraph com Tensorflow

KGE e a falta de representação simbólica para regras e restrições


Comentários