Pular para o conteúdo principal

Cores convida - Minicurso: Aprendizado de máquina e inferência em Grafos de Conhecimento

Pesquisadores Artur Ziviani, Fabio Porto e Daniel da Silva (LNCC)

Resumo da apresentação

A crescente produção e disponibilização de dados caracterizados por heterogeneidade e larga escala apresentam oportunidades desafiadoras à nossa sociedade. Dentre elas, como construir sistemas computacionais capazes de aprender, raciocinar e realizar inferências sobre fatos a partir de conhecimento prévio é uma tarefa relevante. Nesse cenário, bases de conhecimento são ativos importantes na representação e raciocínio automatizado do conhecimento de diversos domínios de aplicação. Em especial, a inferência de informação a partir de sua representação em rede — grafos de conhecimento — ganhou notoriedade na academia e indústria nos últimos anos. Em face ao exposto, neste curso, é apresentada uma introdução aos métodos e técnicas de aprendizado de máquina utilizadas em tarefas de inferência em grafos de conhecimento, discutindo-se os desafios e oportunidades tecnológicas e científicas desse tipo de tarefa.

Link do minicurso https://youtu.be/kHHbUNhZ8tw

Link para o paper do minicurso do SBBD 2019 https://www.lncc.br/~ziviani/papers/Texto-MC1-SBBD2019.pdf
 
Laboratório Dexel do LNCC

KG
Relacionamentos entre entidades do mundo real, representar o conhecimento em forma de redes, pode conter restrições e outras regras (um esquema) e capacidade de inferência (gerar conhecimento novo)

Componentes Terminológico (esquema/classes e relações, ontologia) e Assercional (instância/entidades)



Contextualização 

Terceira onda de IA: Deep Learning

Representação do Conhecimento e Raciocínio
A busca do próprio Google passou a ser mais semântica, trazendo mais informações sobre as entidades.
 
Knowledge Graph 2012
Linked Open Data 2006 
Web Semântica 98
Ontology 80's

Gartner Hype Cycle 2019: Graph Analytics
 
In 2019, knowledge graphs have been gaining a lot of momentum. Gartner’s 2018 Hype Cycle visualization places Knowledge Graphs at the Innovation Trigger position, after general AI, 4D Printing, Biotech etc. 


Crescimento dos Graph Databases é uma tendência de acordo com o DB Engines.

It is important to note that knowledge representation is not just storing data in a database, but also being able to learn and improve on that knowledge, similar to how a human behaves.
 
Exemplos: 

Bio2RDF is an open-source project that uses Semantic Web technologies to build and provide the largest network of Linked Data for the Life Sciences. Bio2RDF defines a set of simple conventions to create RDF(S) compatible Linked Data from a diverse set of heterogeneously formatted sources obtained from multiple data providers. 

Microsoft Academic Knowledge Graph (MAKG), a large RDF data set with over eight billion triples with information about scientific publications and related entities, such as authors, institutions, journals, and fields of study. The data set is based on the Microsoft Academic Graph and licensed under the Open Data Attributions license. 

Tarefas:

Integrar fontes de dados heterogêneas, ciclo do KG (como um ETL), automatização com aprendizado de máquina como a extração de entidade, de atributos e de relações (fase de construção, pode usar NLP), construir a ontologia, realizar inferência para deduzir novos fatos, alinhar entidades (colapsar o grafo), avaliar a qualidade (fase de fusão). 

Ações chaves: extrair, inferir, corrigir, fundir e alinhar


Alguns trechos em inglês nesse post foram extraídos do mesmo artigo/blog acima

Aplicações: motores de busca, mecanismos de resposta a perguntas (ChatBots, NLP), sistemas de recomendação, agentes conversacionais, aplicações científicas — por exemplo, em biologia e medicina — por meio da integração de conhecimento acadêmico e aplicações de grande impacto social como o combate à difusão de notícias falsas (Fact checking).

Viés indutivo relacional (mecanismo de representação relacional)

Sistemas de recomendação como grafo bipartido, nós clientes ligados a nós itens, interessante no problema de cold start 
 
Fusão de Dados e Alinhamento de Ontologias
 
The idea of knowledge fusion is to fuse all the knowledge bases coming from the different sources to get a comprehensive view. Its specific goals are to realize entity alignment and ontology construction. Entity alignment (or entity resolution) has to do with identifying whether the “different entities refer to the same objects in the real world”. Data standardization is an important step of entity alignment, because it brings the data to a common ground. Any inconsistency or disintegrity in the data is resolved in this step.

Modelos

LPG (orientado a nó), RDF (<s,p,o>, URI para diminuir a ambiguidade, serialização = vários formatos)
 
Sistemas

OntoText GraphDB
Grank
Amazon Neptune

Grank é baseado em modelo ER para armazenamento (?), hiper-grafo, raciocínio taxonômico ( is-A) e baseado em regras (prolog), Haddop, Spark, JanusGraph, ThinkerPop (Gremilim), permite a definição do esquema (cláusula DEFINE)
 
Which Knowledge Graph Is Best for Me? -> https://arxiv.org/abs/1809.11099
(DBpedia, Freebase, OpenCyc, Wikidata, and YAGO)
 
Modelos de Deep Learning em geral tem problema de Explainability. KG não tem esse problema.

Grau de correlação ou similaridade entre nós de um grafo: usar Jaccard ou modelos de Embeedings.

Pairwise similarity comparisons are performed using different text similarity functions such as cosine similarity, and can also integrate deep learning techniques such as word2vec, seq2seq embeddings etc. Collective alignment is done by using structural similarity functions such as pattern recognition etc.

Desafios para construção do KG (relacionados aos V's de Big Data)
Corretude/Acurácia: fusão de dados de fontes distintas e contraditórias
Completude/Cobertura: mundo aberto, inferências
Novidade/Recenticidade: processo dinâmico

Tarefas
  1. Construção automática de KG (extração de dados de documentos)
  2. Completação do KG através de Reasoning

ML Supervisionado

Overview
Classificação em rótulos (binário por exemplo), representação da instância por features (vetor de características), algoritmo ( ex. árvore de decisão), treinamento (instâncias com rótulos conhecidos + algoritmo gera um modelo), validação e teste para aferir a qualidade do modelo (em um outro conjunto de dados onde o rótulo é conhecido) em termos de overfitting ou underfitting. 

  • Tarefa 1: baseada em NLP para extração pq o dado de entrada é texto (a metodologia depende do tipo de dado de entrada)
 
Named Entity Recognition (NER), Pessoas, Localizações (países, estados, municípios, ...), Empreas, ... As entidade já estão em uma base de conhecimento conhecida, Entity Linking (ligar entidade ao rótulo do texto). 
 
This process extracts information from the input semi-structured and unstructured data, which includes entities, relations and attributes. This is achieved by means of Natural Language Processing, text mining and machine learning techniques (both supervised and unsupervised learning).The main idea behind entity extraction (otherwise known as entity recognition) is simple: given some text, can we locate which words identify entities of certain categories? 
 
Como desambiguar as referências? Usar outros atributos que estão no texto (identificar o contexto das features). 
 
Sistema Founder (SIGMOD 2018): Parsing (schema de parágrafos, frases, palavras) do documento de entrada, BiLSTM (modelo de rede neural recorrente bi direcional)
 
  • Tarefa 2 Completação e Inferência de links

Tipicamente, o objetivo da tarefa de predição de ligações (link prediction) é prever se uma entidade se relaciona com outra, ou se um conceito está associado a outro.
 
Tipos:
  1. Classificação de triplas: (<s,p,o>)?                             ...  V ou F e precisão da resposta (pode ordenar)
  2. Prever um elemento: (<?s,p,o>, <s,?p,o>, <s,p,?o>    ... valores possíveis de ?s, ?p, ?o (entidades, relações e atributos) 
  3. Classificação de entidade: (s, isA,?type)                   ... valores possíveis para ?type (classe, subclasse) com score para ordenar
Modelo paramétrico: E x R x E -> Score .... cartesiano de entidades x relações x entidades e a probabilidade associada de ser verdadeiro
 
A review of relational machine learning for knowledge graphs - IEEE 2016

Aprendizado de Máquina Relacional ( Relational Machine Learing): criação de modelos estatísticos para dados relacionais, isto é, dados cuja a informação relacional é tão ou mais importante que a informação individual de cada elemento. Três tipos (shallow):
  1. modelos gráficos probabilísticos (padrão, estatística, redes de Markov, regras em FOL com probabilidade associada, não são opacos, é possível identificar quais regras levam a predição de quais resultados)
  2. modelos de características de grafo (caminhos, similaridades, características observadas). Path Ranking Algorithm: partir de uma origem fixa para chegar a um alvo podem existir diversos caminhos e esses caminhos podem também ser inversos, cada caminho tem uma probabilidade associado. Mineração de Regras (maior grau de explicação, menor capacidade preditiva).
  3. modelos de características latentes (embeedings, espaço vetorial real e complexo em N dimensões e espaço contínuo, analogia entre entidades ou relações por distância e proximidades, as características são aprendidas e não observadas,geração de exemplos pseudo falsos para o processo de aprendizagem - corromper)
Word Embeddings: Knowledge Graph Embedding
 
Deep Model: não precisa treinar a cada alteração no KG, problema de overfiting e complexidade.
 
JOIE(KDD 2019): Ontologias, complementação que codifica de forma conjunta tanto o componente assertivo quanto terminológico do grafo de conhecimento

Hipergrafo: representação n-ária de relações, mais próximo de BD Relacional, não reificar, 

Comentários

  1. O artigo mencionado é M. Nickel, K. Murphy, V. Tresp and E. Gabrilovich, "A review of relational machine learning for knowledge graphs", Proc. IEEE, vol. 104, no. 1, pp. 11-33.

    ResponderExcluir

Postar um comentário

Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.

Postagens mais visitadas deste blog

Connected Papers: Uma abordagem alternativa para revisão da literatura

Durante um projeto de pesquisa podemos encontrar um artigo que nos identificamos em termos de problema de pesquisa e também de solução. Então surge a vontade de saber como essa área de pesquisa se desenvolveu até chegar a esse ponto ou quais desdobramentos ocorreram a partir dessa solução proposta para identificar o estado da arte nesse tema. Podemos seguir duas abordagens:  realizar uma revisão sistemática usando palavras chaves que melhor caracterizam o tema em bibliotecas digitais de referência para encontrar artigos relacionados ou realizar snowballing ancorado nesse artigo que identificamos previamente, explorando os artigos citados (backward) ou os artigos que o citam (forward)  Mas a ferramenta Connected Papers propõe uma abordagem alternativa para essa busca. O problema inicial é dado um artigo de interesse, precisamos encontrar outros artigos relacionados de "certa forma". Find different methods and approaches to the same subject Track down the state of the art rese...

Knowledge Graph Embedding with Triple Context - Leitura de Abstract

  Jun Shi, Huan Gao, Guilin Qi, and Zhangquan Zhou. 2017. Knowledge Graph Embedding with Triple Context. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (CIKM '17). Association for Computing Machinery, New York, NY, USA, 2299–2302. https://doi.org/10.1145/3132847.3133119 ABSTRACT Knowledge graph embedding, which aims to represent entities and relations in vector spaces, has shown outstanding performance on a few knowledge graph completion tasks. Most existing methods are based on the assumption that a knowledge graph is a set of separate triples, ignoring rich graph features, i.e., structural information in the graph. In this paper, we take advantages of structures in knowledge graphs, especially local structures around a triple, which we refer to as triple context. We then propose a Triple-Context-based knowledge Embedding model (TCE). For each triple, two kinds of structure information are considered as its context in the graph; one is the out...

KnOD 2021

Beyond Facts: Online Discourse and Knowledge Graphs A preface to the proceedings of the 1st International Workshop on Knowledge Graphs for Online Discourse Analysis (KnOD 2021, co-located with TheWebConf’21) https://ceur-ws.org/Vol-2877/preface.pdf https://knod2021.wordpress.com/   ABSTRACT Expressing opinions and interacting with others on the Web has led to the production of an abundance of online discourse data, such as claims and viewpoints on controversial topics, their sources and contexts . This data constitutes a valuable source of insights for studies into misinformation spread, bias reinforcement, echo chambers or political agenda setting. While knowledge graphs promise to provide the key to a Web of structured information, they are mainly focused on facts without keeping track of the diversity, connection or temporal evolution of online discourse data. As opposed to facts, claims are inherently more complex. Their interpretation strongly depends on the context and a vari...