Cores convida - Minicurso: Aprendizado de máquina e inferência em Grafos de Conhecimento

Pesquisadores Artur Ziviani, Fabio Porto e Daniel da Silva (LNCC)

Resumo da apresentação

A crescente produção e disponibilização de dados caracterizados por heterogeneidade e larga escala apresentam oportunidades desafiadoras à nossa sociedade. Dentre elas, como construir sistemas computacionais capazes de aprender, raciocinar e realizar inferências sobre fatos a partir de conhecimento prévio é uma tarefa relevante. Nesse cenário, bases de conhecimento são ativos importantes na representação e raciocínio automatizado do conhecimento de diversos domínios de aplicação. Em especial, a inferência de informação a partir de sua representação em rede — grafos de conhecimento — ganhou notoriedade na academia e indústria nos últimos anos. Em face ao exposto, neste curso, é apresentada uma introdução aos métodos e técnicas de aprendizado de máquina utilizadas em tarefas de inferência em grafos de conhecimento, discutindo-se os desafios e oportunidades tecnológicas e científicas desse tipo de tarefa.

Link do minicurso https://youtu.be/kHHbUNhZ8tw

Link para o paper do minicurso do SBBD 2019 https://www.lncc.br/~ziviani/papers/Texto-MC1-SBBD2019.pdf

Laboratório Dexel do LNCC

Relacionamentos entre entidades do mundo real, representar o conhecimento em forma de redes, pode conter restrições e outras regras (um esquema) e capacidade de inferência (gerar conhecimento novo)

Componentes Terminológico (esquema/classes e relações, ontologia) e Assercional (instância/entidades)

Contextualização

Terceira onda de IA: Deep Learning

Representação do Conhecimento e Raciocínio

A busca do próprio Google passou a ser mais semântica, trazendo mais informações sobre as entidades.

Knowledge Graph 2012

Linked Open Data 2006

Web Semântica 98

Ontology 80's

Gartner Hype Cycle 2019: Graph Analytics

In 2019, knowledge graphs have been gaining a lot of momentum. Gartner’s 2018 Hype Cycle visualization places Knowledge Graphs at the Innovation Trigger position, after general AI, 4D Printing, Biotech etc.

Crescimento dos Graph Databases é uma tendência de acordo com o DB Engines.

It is important to note that knowledge representation is not just storing data in a database, but also being able to learn and improve on that knowledge, similar to how a human behaves.

Exemplos:

Bio2RDF is an open-source project that uses Semantic Web technologies to build and provide the largest network of Linked Data for the Life Sciences. Bio2RDF defines a set of simple conventions to create RDF(S) compatible Linked Data from a diverse set of heterogeneously formatted sources obtained from multiple data providers.

Microsoft Academic Knowledge Graph (MAKG), a large RDF data set with over eight billion triples with information about scientific publications and related entities, such as authors, institutions, journals, and fields of study. The data set is based on the Microsoft Academic Graph and licensed under the Open Data Attributions license.

Tarefas:

Integrar fontes de dados heterogêneas, ciclo do KG (como um ETL), automatização com aprendizado de máquina como a extração de entidade, de atributos e de relações (fase de construção, pode usar NLP), construir a ontologia, realizar inferência para deduzir novos fatos, alinhar entidades (colapsar o grafo), avaliar a qualidade (fase de fusão).

Ações chaves: extrair, inferir, corrigir, fundir e alinhar

Fonte da imagem -> https://medium.com/analytics-vidhya/introduction-to-knowledge-graphs-and-their-applications-fb5b12da2a8b

Alguns trechos em inglês nesse post foram extraídos do mesmo artigo/blog acima

Aplicações: motores de busca, mecanismos de resposta a perguntas (ChatBots, NLP), sistemas de recomendação, agentes conversacionais, aplicações científicas — por exemplo, em biologia e medicina — por meio da integração de conhecimento acadêmico e aplicações de grande impacto social como o combate à difusão de notícias falsas (Fact checking).

Viés indutivo relacional (mecanismo de representação relacional)

Sistemas de recomendação como grafo bipartido, nós clientes ligados a nós itens, interessante no problema de cold start

Fusão de Dados e Alinhamento de Ontologias

The idea of knowledge fusion is to fuse all the knowledge bases coming from the different sources to get a comprehensive view. Its specific goals are to realize entity alignment and ontology construction. Entity alignment (or entity resolution) has to do with identifying whether the “different entities refer to the same objects in the real world”. Data standardization is an important step of entity alignment, because it brings the data to a common ground. Any inconsistency or disintegrity in the data is resolved in this step.

Modelos

LPG (orientado a nó), RDF (<s,p,o>, URI para diminuir a ambiguidade, serialização = vários formatos)

Sistemas

OntoText GraphDB
Grank
Amazon Neptune

Grank é baseado em modelo ER para armazenamento (?), hiper-grafo, raciocínio taxonômico ( is-A) e baseado em regras (prolog), Haddop, Spark, JanusGraph, ThinkerPop (Gremilim), permite a definição do esquema (cláusula DEFINE)

Which Knowledge Graph Is Best for Me? -> https://arxiv.org/abs/1809.11099
(DBpedia, Freebase, OpenCyc, Wikidata, and YAGO)

Modelos de Deep Learning em geral tem problema de Explainability. KG não tem esse problema.

Grau de correlação ou similaridade entre nós de um grafo: usar Jaccard ou modelos de Embeedings.

Pairwise similarity comparisons are performed using different text similarity functions such as cosine similarity, and can also integrate deep learning techniques such as word2vec, seq2seq embeddings etc. Collective alignment is done by using structural similarity functions such as pattern recognition etc.

Desafios para construção do KG (relacionados aos V's de Big Data)

Corretude/Acurácia: fusão de dados de fontes distintas e contraditórias

Completude/Cobertura: mundo aberto, inferências

Novidade/Recenticidade: processo dinâmico

Tarefas

Construção automática de KG (extração de dados de documentos)
Completação do KG através de Reasoning

ML Supervisionado

Overview

Classificação em rótulos (binário por exemplo), representação da instância por features (vetor de características), algoritmo ( ex. árvore de decisão), treinamento (instâncias com rótulos conhecidos + algoritmo gera um modelo), validação e teste para aferir a qualidade do modelo (em um outro conjunto de dados onde o rótulo é conhecido) em termos de overfitting ou underfitting.

Tarefa 1: baseada em NLP para extração pq o dado de entrada é texto (a metodologia depende do tipo de dado de entrada)

Named Entity Recognition (NER), Pessoas, Localizações (países, estados, municípios, ...), Empreas, ... As entidade já estão em uma base de conhecimento conhecida, Entity Linking (ligar entidade ao rótulo do texto).

This process extracts information from the input semi-structured and unstructured data, which includes entities, relations and attributes. This is achieved by means of Natural Language Processing, text mining and machine learning techniques (both supervised and unsupervised learning).The main idea behind entity extraction (otherwise known as entity recognition) is simple: given some text, can we locate which words identify entities of certain categories?

Como desambiguar as referências? Usar outros atributos que estão no texto (identificar o contexto das features).

Sistema Founder (SIGMOD 2018): Parsing (schema de parágrafos, frases, palavras) do documento de entrada, BiLSTM (modelo de rede neural recorrente bi direcional)

Tarefa 2 Completação e Inferência de links

Tipicamente, o objetivo da tarefa de predição de ligações (link prediction) é prever se uma entidade se relaciona com outra, ou se um conceito está associado a outro.

Tipos:

Classificação de triplas: (<s,p,o>)? ... V ou F e precisão da resposta (pode ordenar)
Prever um elemento: (<?s,p,o>, <s,?p,o>, <s,p,?o> ... valores possíveis de ?s, ?p, ?o (entidades, relações e atributos)
Classificação de entidade: (s, isA,?type) ... valores possíveis para ?type (classe, subclasse) com score para ordenar

Modelo paramétrico: E x R x E -> Score .... cartesiano de entidades x relações x entidades e a probabilidade associada de ser verdadeiro

A review of relational machine learning for knowledge graphs - IEEE 2016

Aprendizado de Máquina Relacional ( Relational Machine Learing): criação de modelos estatísticos para dados relacionais, isto é, dados cuja a informação relacional é tão ou mais importante que a informação individual de cada elemento. Três tipos (shallow):

modelos gráficos probabilísticos (padrão, estatística, redes de Markov, regras em FOL com probabilidade associada, não são opacos, é possível identificar quais regras levam a predição de quais resultados)
modelos de características de grafo (caminhos, similaridades, características observadas). Path Ranking Algorithm: partir de uma origem fixa para chegar a um alvo podem existir diversos caminhos e esses caminhos podem também ser inversos, cada caminho tem uma probabilidade associado. Mineração de Regras (maior grau de explicação, menor capacidade preditiva).
modelos de características latentes (embeedings, espaço vetorial real e complexo em N dimensões e espaço contínuo, analogia entre entidades ou relações por distância e proximidades, as características são aprendidas e não observadas,geração de exemplos pseudo falsos para o processo de aprendizagem - corromper)

Word Embeddings: Knowledge Graph Embedding

Deep Model: não precisa treinar a cada alteração no KG, problema de overfiting e complexidade.

JOIE(KDD 2019): Ontologias, complementação que codifica de forma conjunta tanto o componente assertivo quanto terminológico do grafo de conhecimento

Hipergrafo: representação n-ária de relações, mais próximo de BD Relacional, não reificar,

Connected Papers: Uma abordagem alternativa para revisão da literatura

Durante um projeto de pesquisa podemos encontrar um artigo que nos identificamos em termos de problema de pesquisa e também de solução. Então surge a vontade de saber como essa área de pesquisa se desenvolveu até chegar a esse ponto ou quais desdobramentos ocorreram a partir dessa solução proposta para identificar o estado da arte nesse tema. Podemos seguir duas abordagens: realizar uma revisão sistemática usando palavras chaves que melhor caracterizam o tema em bibliotecas digitais de referência para encontrar artigos relacionados ou realizar snowballing ancorado nesse artigo que identificamos previamente, explorando os artigos citados (backward) ou os artigos que o citam (forward) Mas a ferramenta Connected Papers propõe uma abordagem alternativa para essa busca. O problema inicial é dado um artigo de interesse, precisamos encontrar outros artigos relacionados de "certa forma". Find different methods and approaches to the same subject Track down the state of the art rese...

Comentários

Veronica dos Santos15 de julho de 2021 às 16:46
O artigo mencionado é M. Nickel, K. Murphy, V. Tresp and E. Gabrilovich, "A review of relational machine learning for knowledge graphs", Proc. IEEE, vol. 104, no. 1, pp. 11-33.
ResponderExcluir
Respostas

Adicionar comentário

Postar um comentário

Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.

Pesquisa de Doutorado da Veronica

Pesquisar este blog