Pesquisadores Artur Ziviani, Fabio Porto e Daniel da Silva (LNCC)
Resumo da apresentação
A crescente produção e disponibilização de dados caracterizados por heterogeneidade e larga escala apresentam oportunidades desafiadoras à nossa sociedade. Dentre elas, como construir sistemas computacionais capazes de aprender, raciocinar e realizar inferências sobre fatos a partir de conhecimento prévio é uma tarefa relevante. Nesse cenário, bases de conhecimento são ativos importantes na representação e raciocínio automatizado do conhecimento de diversos domínios de aplicação. Em especial, a inferência de informação a partir de sua representação em rede — grafos de conhecimento — ganhou notoriedade na academia e indústria nos últimos anos. Em face ao exposto, neste curso, é apresentada uma introdução aos métodos e técnicas de aprendizado de máquina utilizadas em tarefas de inferência em grafos de conhecimento, discutindo-se os desafios e oportunidades tecnológicas e científicas desse tipo de tarefa.
Link do minicurso https://youtu.be/kHHbUNhZ8tw
Link para o paper do minicurso do SBBD 2019 https://www.lncc.br/~ziviani/papers/Texto-MC1-SBBD2019.pdf
Resumo da apresentação
A crescente produção e disponibilização de dados caracterizados por heterogeneidade e larga escala apresentam oportunidades desafiadoras à nossa sociedade. Dentre elas, como construir sistemas computacionais capazes de aprender, raciocinar e realizar inferências sobre fatos a partir de conhecimento prévio é uma tarefa relevante. Nesse cenário, bases de conhecimento são ativos importantes na representação e raciocínio automatizado do conhecimento de diversos domínios de aplicação. Em especial, a inferência de informação a partir de sua representação em rede — grafos de conhecimento — ganhou notoriedade na academia e indústria nos últimos anos. Em face ao exposto, neste curso, é apresentada uma introdução aos métodos e técnicas de aprendizado de máquina utilizadas em tarefas de inferência em grafos de conhecimento, discutindo-se os desafios e oportunidades tecnológicas e científicas desse tipo de tarefa.
Link do minicurso https://youtu.be/kHHbUNhZ8tw
Link para o paper do minicurso do SBBD 2019 https://www.lncc.br/~ziviani/papers/Texto-MC1-SBBD2019.pdf
Laboratório Dexel do LNCC
KG
Relacionamentos entre entidades do mundo real,
representar o conhecimento em forma de redes, pode conter restrições e
outras regras (um esquema) e capacidade de inferência (gerar
conhecimento novo)
Componentes Terminológico (esquema/classes e relações, ontologia) e Assercional (instância/entidades)
Contextualização
Terceira onda de IA: Deep Learning
Representação do Conhecimento e Raciocínio
A busca do próprio Google passou a ser mais semântica, trazendo mais informações sobre as entidades.
Knowledge Graph 2012
Linked Open Data 2006
Web Semântica 98
Ontology 80's
Gartner Hype Cycle 2019: Graph Analytics
In 2019, knowledge graphs have been gaining a lot of momentum. Gartner’s
2018 Hype Cycle visualization places Knowledge Graphs at the Innovation
Trigger position, after general AI, 4D Printing, Biotech etc.

Crescimento dos Graph Databases é uma tendência de acordo com o DB Engines.
It is important to note that knowledge representation is not just storing data in a database, but also being able to learn and improve on that knowledge, similar to how a human behaves.
Exemplos:
Bio2RDF is an open-source project that uses Semantic Web technologies to build and provide the largest network of Linked Data for the Life Sciences. Bio2RDF defines a set of simple conventions to create RDF(S) compatible Linked Data from a diverse set of heterogeneously formatted sources obtained from multiple data providers.
Microsoft Academic Knowledge Graph (MAKG), a large RDF data set with over eight billion triples with information about scientific publications and related entities, such as authors, institutions, journals, and fields of study. The data set is based on the Microsoft Academic Graph and licensed under the Open Data Attributions license.
Tarefas:
Integrar fontes de dados heterogêneas, ciclo do KG (como um ETL), automatização com aprendizado de máquina como a extração de entidade, de atributos e de relações (fase de construção, pode usar NLP), construir a ontologia, realizar inferência para deduzir novos fatos, alinhar entidades (colapsar o grafo), avaliar a qualidade (fase de fusão).
Ações chaves: extrair, inferir, corrigir, fundir e alinhar

Fonte da imagem -> https://medium.com/analytics-vidhya/introduction-to-knowledge-graphs-and-their-applications-fb5b12da2a8b
Alguns trechos em inglês nesse post foram extraídos do mesmo artigo/blog acima
Aplicações: motores de busca, mecanismos de resposta a perguntas (ChatBots, NLP), sistemas de recomendação, agentes conversacionais, aplicações científicas — por exemplo, em biologia e medicina — por meio da integração de conhecimento acadêmico e aplicações de grande impacto social como o combate à difusão de notícias falsas (Fact
checking).
Viés indutivo relacional (mecanismo de representação relacional)
Sistemas de recomendação como grafo bipartido, nós clientes ligados a nós itens, interessante no problema de cold start
Fusão de Dados e Alinhamento de Ontologias
The idea of knowledge fusion is to fuse all the knowledge bases coming
from the different sources to get a comprehensive view. Its specific
goals are to realize entity alignment and ontology construction. Entity
alignment (or entity resolution) has to do with identifying whether the
“different entities refer to the same objects in the real world”. Data
standardization is an important step of entity alignment, because it
brings the data to a common ground. Any inconsistency or disintegrity in
the data is resolved in this step.
Modelos
LPG (orientado a nó), RDF (<s,p,o>, URI para diminuir a ambiguidade, serialização = vários formatos)
Sistemas
OntoText GraphDB
Grank
Amazon Neptune
Grank é baseado em modelo ER para armazenamento (?), hiper-grafo, raciocínio taxonômico ( is-A) e baseado em regras (prolog), Haddop, Spark, JanusGraph, ThinkerPop (Gremilim), permite a definição do esquema (cláusula DEFINE)
OntoText GraphDB
Grank
Amazon Neptune
Grank é baseado em modelo ER para armazenamento (?), hiper-grafo, raciocínio taxonômico ( is-A) e baseado em regras (prolog), Haddop, Spark, JanusGraph, ThinkerPop (Gremilim), permite a definição do esquema (cláusula DEFINE)
Which Knowledge Graph Is Best for Me? -> https://arxiv.org/abs/1809.11099
(DBpedia, Freebase, OpenCyc, Wikidata, and YAGO)
Modelos de Deep Learning em geral tem problema de Explainability. KG não tem esse problema.
Grau de correlação ou similaridade entre nós de um grafo: usar Jaccard ou modelos de Embeedings.
Pairwise similarity comparisons are performed using different text similarity functions such as cosine similarity, and can also integrate deep learning techniques such as word2vec, seq2seq embeddings etc. Collective alignment is done by using structural similarity functions such as pattern recognition etc.
Tipicamente, o objetivo da tarefa de predição de ligações (link prediction) é prever se uma entidade se relaciona com outra, ou se um conceito está associado a outro.
Tipos:
(DBpedia, Freebase, OpenCyc, Wikidata, and YAGO)
Modelos de Deep Learning em geral tem problema de Explainability. KG não tem esse problema.
Grau de correlação ou similaridade entre nós de um grafo: usar Jaccard ou modelos de Embeedings.
Pairwise similarity comparisons are performed using different text similarity functions such as cosine similarity, and can also integrate deep learning techniques such as word2vec, seq2seq embeddings etc. Collective alignment is done by using structural similarity functions such as pattern recognition etc.
Desafios para construção do KG (relacionados aos V's de Big Data)
Corretude/Acurácia: fusão de dados de fontes distintas e contraditórias
Completude/Cobertura: mundo aberto, inferências
Novidade/Recenticidade: processo dinâmico
Tarefas
- Construção automática de KG (extração de dados de documentos)
- Completação do KG através de Reasoning
ML Supervisionado
Overview
Classificação em rótulos (binário por exemplo), representação da instância por features (vetor de características), algoritmo ( ex. árvore de decisão), treinamento (instâncias com rótulos conhecidos + algoritmo gera um modelo), validação e teste para aferir a qualidade do modelo (em um outro conjunto de dados onde o rótulo é conhecido) em termos de overfitting ou underfitting.
- Tarefa 1: baseada em NLP para extração pq o dado de entrada é texto (a metodologia depende do tipo de dado de entrada)
Named Entity Recognition (NER), Pessoas, Localizações (países, estados, municípios, ...), Empreas, ... As entidade já estão em uma base de conhecimento conhecida, Entity Linking (ligar entidade ao rótulo do texto).
This
process extracts information from the input semi-structured and
unstructured data, which includes entities, relations and attributes.
This is achieved by means of Natural Language Processing, text mining
and machine learning techniques (both supervised and unsupervised
learning).The
main idea behind entity extraction (otherwise known as entity
recognition) is simple: given some text, can we locate which words
identify entities of certain categories?
Como desambiguar as referências? Usar outros atributos que estão no texto (identificar o contexto das features).
Sistema Founder (SIGMOD 2018): Parsing (schema de parágrafos, frases, palavras) do documento de entrada, BiLSTM (modelo de rede neural recorrente bi direcional)
- Tarefa 2 Completação e Inferência de links
Tipicamente, o objetivo da tarefa de predição de ligações (link prediction) é prever se uma entidade se relaciona com outra, ou se um conceito está associado a outro.
Tipos:
- Classificação de triplas: (<s,p,o>)? ... V ou F e precisão da resposta (pode ordenar)
- Prever um elemento: (<?s,p,o>, <s,?p,o>, <s,p,?o> ... valores possíveis de ?s, ?p, ?o (entidades, relações e atributos)
- Classificação de entidade: (s, isA,?type) ... valores possíveis para ?type (classe, subclasse) com score para ordenar
Modelo paramétrico: E x R x E -> Score .... cartesiano de entidades x relações x entidades e a probabilidade associada de ser verdadeiro
A review of relational machine learning for knowledge graphs - IEEE 2016
Aprendizado de Máquina Relacional ( Relational Machine Learing): criação de modelos estatísticos para dados relacionais, isto é, dados cuja a informação relacional é tão ou mais importante que a informação individual de cada elemento. Três tipos (shallow):
A review of relational machine learning for knowledge graphs - IEEE 2016
Aprendizado de Máquina Relacional ( Relational Machine Learing): criação de modelos estatísticos para dados relacionais, isto é, dados cuja a informação relacional é tão ou mais importante que a informação individual de cada elemento. Três tipos (shallow):
- modelos gráficos probabilísticos (padrão, estatística, redes de Markov, regras em FOL com probabilidade associada, não são opacos, é possível identificar quais regras levam a predição de quais resultados)
- modelos de características de grafo (caminhos, similaridades, características observadas). Path Ranking Algorithm: partir de uma origem fixa para chegar a um alvo podem existir diversos caminhos e esses caminhos podem também ser inversos, cada caminho tem uma probabilidade associado. Mineração de Regras (maior grau de explicação, menor capacidade preditiva).
- modelos de características latentes (embeedings, espaço vetorial real e complexo em N dimensões e espaço contínuo, analogia entre entidades ou relações por distância e proximidades, as características são aprendidas e não observadas,geração de exemplos pseudo falsos para o processo de aprendizagem - corromper)
Word Embeddings: Knowledge Graph Embedding
Deep Model: não precisa treinar a cada alteração no KG, problema de overfiting e complexidade.
JOIE(KDD 2019): Ontologias, complementação que codifica de forma conjunta tanto o componente assertivo quanto terminológico do grafo de conhecimento
Hipergrafo: representação n-ária de relações, mais próximo de BD Relacional, não reificar,
Deep Model: não precisa treinar a cada alteração no KG, problema de overfiting e complexidade.
JOIE(KDD 2019): Ontologias, complementação que codifica de forma conjunta tanto o componente assertivo quanto terminológico do grafo de conhecimento
Hipergrafo: representação n-ária de relações, mais próximo de BD Relacional, não reificar,
O artigo mencionado é M. Nickel, K. Murphy, V. Tresp and E. Gabrilovich, "A review of relational machine learning for knowledge graphs", Proc. IEEE, vol. 104, no. 1, pp. 11-33.
ResponderExcluir