Pular para o conteúdo principal

Apresentação - 27/10/2021

 

  

Dentre os 3 problemas de pesquisa identificados, um está localizado na modelagem dos dados das aplicações desenvolvidas pelo BioBD usando o modelo RDF: triplas não permitem representar nativamente relações com aridade maior que 2 assim como não suportam propriedades para as arestas. 

 

Um outro problema foi especificar / restringir o contexto da Busca como no busc@nima … mas o que quer dizer CONTEXTO? Como o contexto está representado no KG? Será que o problema anterior e o contexto tem alguma relação?


Além disso, um questionamento recorrente é se o uso de palavras chaves e linguagem natural para acessar KG seria um problema do domínio de Information Retrieval ou Banco de Dados? 

 

Sobre o RDF e modelos de dados em grafo temos:

 

RDF é um modelo de dados especificado pela W3C e, em sua essência, trata-se de uma coleção de triplas que permite a representação de um grafo direcionado, rotulado e multi-grafo (ou seja, um par de nós pode ter mais de uma aresta rotulada entre eles). Já o modelo LPG (grafo de propriedades rotuladas) permite modelar grafos direcionados, rotulados, multi-grafos e com propriedades do tipo chave/valor tanto nos nós quanto nas arestas. Mas não suportam IRI / URI (identificadores únicos do RDF) e nós brancos (que são usados ​​na reificação do RDF). 

 

A reificação permite reduzir relacionamentos n-ários a n relacionamentos binários e suportar atributos nas arestas através do uso de nós brancos tornando o RDF com o mesmo poder de expressividade do LPG. Os atributos nas arestas permitem a especificação de metadados sobre as triplas (meta-knowledge), como por exemplo dados de proveniência. A reificação também se aplica a LPG para representação de relações n-árias. 

 

A reificação padrão no vocabulário RDF faz uso da classe rdf:Statement assim como dos predicados rdf:subject, rdf:predicate e rdf:object do vocabulário RDF. Existem outras opções de reificação: Single-Triple Named Graphs, Singleton Properties e n-ary relations. Predicados como p1 e Grafos como g1 são sempre URIs por isso podem ser sujeito ou objeto em uma tripla. 
 
Porém as abordagens de reificação podem permitir conflitos de tipos quando predicados são usados como sujeitos ou objetos, principalmente em grafos sem esquema ou com a definição de esquema flexível e a posteriori (schema free, schema later, schema less). Quando se gera uma tripla sobre outra tripla, o modelo pode entrar em loop.
Fonte: https://youtu.be/sPTz0D4emXg
 
RDF-Star (também conhecido como “RDF*”) é uma proposta de um grupo de trabalho da W3C, introduzida em 2014, para permite que descrições sejam adicionadas às arestas de um grafo RDF. Formalmente, RDF* estende o modelo RDF permitindo declarações sobre declarações (triplas sobre triplas), ou seja, pode-se anexar metadados, que descrevem uma aresta do grafo, enquanto RDF permite que declarações sejam feitas apenas sobre nós.

O último relatório do grupo de trabalho sobre
RDF-star e SPARQL-star foi gerado em julho de 2021. Atualmente é suportado pelo Blazegraph (que não está sendo mais atualizado), AnzoGraph da Cambridge Semantics além de algumas ferramentas RDF* e como extensão das ferramentas de conversão do Apache Jena (RDF * ↔ RDF, SPARQL * → SPARQL)
 
No que diz respeito a Wikidata 
 
As declarações possuem qualificadores como data de início e fim e as referências da fonte da informação para melhor contextualizar a declaração, ou seja, são anotadas com pares de propriedade-valor (meta-informação). Esses qualificadores fornecem contexto para a validade da afirmação em questão, por exemplo, fornecendo um período de tempo durante o qual a afirmação era verdadeira. As referências apontam para fontes confiáveis ​​a partir das quais a declaração pode ser verificada. Cerca de metade das declarações no Wikidata (32,5 milhões) já fornecem uma referência, e é uma meta importante do projeto aumentar ainda mais esse número.
 
O modelo da Wikidata é de um grafo direcionado, rotulado e multi-grafo além disso a mesma aresta entre dois nós pode ocorrer mais de uma vez mas com diferentes anotações (qualificadores e referências). Essa característica torna a Wikidata um grafo hiper relacional?

Declarações do Wikidata
(quins e não triplas ou quads)
 
sujeito (QNode)+ propriedade (PNode) + valor (QNode ou Literal) + qualificadores (PNodes) + valor (QNode ou Literal)
Declarações de Wikidata + referências + valor

Mas na Wikidata não são representadas diretamente relações com aridade maior que 2, ou seja, entre 3 ou mais QNodes. 
Na International Semantic Web Conference (ISWC) de 2015 um artigo chamado "Reifying RDF: What Works Well With Wikidata?" foi apresentado. O trabalho realizou um comparativo com as 4 abordagens de reificação dos dados da Wikidata em cinco Graph Databases: 4store, BlazeGraph, GraphDB, Jena TDB, Virtuoso. A base de dados da Wikidata convertida possuia mais 57 Milhões de Quads e foram calculados o número de triplas geradas para cada abordagem de reificação. Além disso o tempo de resposta de 14 queries para cada combinação de reificação e backend foi aferido. 
Posteriormente, na  ISWC 2016, uma nova comparação foi realizada incluindo backends relacionais e LPG.

Sobre o MAG

A Filiação do Autor em relação ao Paper escrito é uma exemplo de relação ternária nesse KG mas, até onde eu pude verificar, na geração do MAKG (Microsoft Academic Knowledge Graph) proposta em um artigo "Linked Data Source with 8 Billion Triples of Scholarly Data" da ISWC'19, nenhuma abordagem de reificação foi utilizada, perdendo parte da semântica da informação. 

Anotações do Sérgio

  • Sobre limites do RDF e sabermos justificar bem o porque desta nossa escolha. Por um lado dizem que é lento, por outro que é rápido e apropriado, ... segue valendo mesmo com restrições?
  • Esta proliferação de triplas para representar coisas que no relacional seria mais simples deve ser bem pensada e comentada.
  • A ideia é explorar quad stores mesmo ou seguem triple stores adaptadas?
  • Definição formal de hiper-relacional

Sobre o posicionamento da abordagem de busca em KG

No SBBD 2020, o professor Altigran (UFAM), apresentou um tutorial sobre NLIDB. A busca por palavras-chaves em BDs pode ser baseados em Esquemas, em Instâncias ou em Caminhos. São mais próximas das abordagens de IR uma vez que a consulta não está vinculada a resposta exata. As abordagens de consulta em Linguagem Natural em BDs (NLIDB) pode ser de Sistemas Centrados em Dados e Sistemas Centrados em Linguagens.

ALTIGRAN: A ideia de keyword search é igual a busca do Google, simples e para gerar exploração posterior pelo usuário X Consulta por linguagem natural visa recuperar resultado exato usando linguagem natural para gerar consultas com linguagem específica do modelo.

 

Um exemplo de NLIDB é o DukeNLIDB escrito em Java e testado com PostgreSQL. DukeNLIDB, baseado no NaLIR. O NaLIR é o baseline dessas abordagens, publicado no VLDB 2014 (Best Paper). O grupo do Altigram converteu o NaLIR para python. 

 

DukeNLIDB: no passo 1 gera a árvore T (árvore de dependência sintática NLP). O mapeamento dos nós da árvore com o grafo do esquema, no passo 2, usa funções de similaridade semântica, baseada na WordNet, e similaridade sintática, baseada no coeficiente de Jaccard. O mapeamento das palavras reservadas da sintaxe SQL é feito usando regras. O resultado dessa etapa é um conjunto de consultas candidatas com um rankeamento. O passo 3 de ajuste lida com as ambiguidades dos mapeamentos c om o feedback do usuário. No final (4) gera uma consulta SQL que retorna uma resposta exata. 


Mais recente (2020) tem o ATHENA++ que usa Ontologias de domínio e Ontologias de mapeamento entre o Domínio e o Esquema de BD como exeplo de NLIDB.

As abordagens de keyword search over RDF realizam a correspondência de palavra-chave com rótulos de nós ou das arestas além dos valores das propriedades dos nós. Em RDF como arestas não tem outras propriedades, além do rótulo, não seria possível fazer diretamente o match com o contexto que o fato contido na tripla pode estar associado. Nessa etapa de correspondência meramente sintática é onde pode ocorrer o Semantic Mismatch, mesmo que seja uma função de match que use algum recurso externo para como a WordNet, um dicionário de sinônimos, etc ... 

Com os nós e arestas mapeados no passo anterior em relação a lista de palavras chaves, o algoritmo precisa encontrar um subgrafo que corresponda a uma componente conexa mínima em termos de nós e arestas e máxima em termos de mapeamentos de palavras-chaves. Considerando abordagens baseadas em esquema, o algoritmo precisa considerar o tipo de reificação adotado no esquema para gerar a consulta SPARQL. Já as abordagens baseadas em instância devem considerar todos os tipos de reificação possíveis uma vez que o esquema não é conhecido (explorado). 

Os subgrafos recuperados com as consultas podem ser ordenados de acordo com uma pontuação dos nós e arestas que o compõem usando usando métricas como PageRank, Saliency, InfoRank. 

Anotações do Sérgio

  • Slides 11: como fica o "quem@puc" ou o "busc@nima"?
  • Slide 14: já coisa de RDF*?

Em relação a proposta de busca semântica em hyper grafos relacionais apresentada no WTDBD

Partindo do tipo de busca realizada pelas aplicações: pergunta específica para retornar uma lista de objetos que pertençam a um tipo de entidade do grafo

Who researches about subject X from Environment domain?

Which individuals of an entity type T are related to subject X from context C?  

 

O primeiro problema é o Semantic Mismatch da consulta com o conteúdo (rótulos e valores de propriedades) no KG que descreve a entidade. Aqui se faz necessário definir a função de similaridade (usando Text embeddings + Graph embeddings). O contexto das palavras é identificado pelas palavras que ocorrem próximas no espaço (cão e gato são animais domésticos) permitindo um soft match ao invés de um exact match.


O segundo problema é especificar / restringir o Search Context como no busc@nima … mas o que quer dizer CONTEXTO nesse caso e como o contexto está representado no KG? Aqui o contexto é meta-informação (em dados eram os metadados) e pode ser temporal, geográfico, de proveniência (fonte) ou até mesmo de Domínio / Tema. Na Wikidata o contexto é modelado através de qualificadores sobre a informação factual, informação factual é verdadeira em um determinado contexto. Esse contexto é independente de consulta e deve ser parte da resposta a consulta. 

 

Context of Knowledge (extracted from Knowledge Graphs @ ACM Computing Surveys) 

“By context, we herein refer to the scope of truth, and thus talk about the context in which some data are held to be true”

 

Fonte: https://dl.acm.org/doi/pdf/10.1145/3447772 


E o terceiro diz respeito a dificuldade de representar com RDF as propriedades das arestas e os relacionamento n-ários uma vez que não existe um padrão definido ainda, ou seja,
Reificação.

 

Questionamento da banca: “pq não RDF já que é um padrão consolidado para representação de bases de conhecimento em grafos” 

 

Eu: Pq a representação de relações n-árias e propriedades das triplas não é nativamente representado em RDF (expressividade) e não existe um padrão de representação. Em abordagens KwS RDF baseadas em esquema, é possível saber qual opção de reificação foi utilizada mas as consultas SPARQL são mais complexas, em abordagens KwS RDF baseadas em instâncias mais de uma opção de reificação pode estar presente no grafo. Os algoritmos para identificação do subgrafo conexo podem não identificar todas as triplas que compõem a informação factual uma vez que buscam um subgrafo minimal em relação as triplas envolvidas então a resposta pode ser incompleta. 
Daniel: Outro ponto em relação ao rdf. No nosso caso, estamos interessados em usar o contexto, o q na prática requer usar propriedades das propriedades. Este é um problema conhecido em rdf, e todas as soluções propostas envolvem basicamente substituir cada tripla por 4 triplas, o q introduz complexidade tanto nas queries qto na implementação. Por isso estão considerando a proposta do RDF*, q tem ainda poucas implementações.


Questionamento da banca: “pq a busca em RDF seria sintática e não semântica”

Eu: Pq a etapa de mapaeamento das palavras-chaves em nós do KG é feita por exact match e não por soft match.  

Daniel: Em relação à semantica, ela tb é incluida no CONTEXTO, e na possibilidade do usuário informar isto na query

Eu: Agora reli com mais atenção a essa perspectiva da importância do contexto para interpretação da veracidade do conhecimento representado no KG, independente da forma de representação. Nesse caso contexto são meta-informações temporal, geográfica, de proveniência (fonte), etc ... mas originalmente eu havia pensado em contexto como o tema / domínio que especifica a semântica das palavras chaves e restringe o espaço de busca do usuário como no caso do busc@nima ser Meio Ambiente.

Daniel: Pois é, são as duas coisas.

Anotações do Sérgio

  • Contextos independentes das consultas -- modelar a base/repositório ("store") sem depender do que o usuário tá buscando.
  • Noção de verdade, comprovação de fatos na BD - justificar respostas às consultas

Comentários

Postagens mais visitadas deste blog

Connected Papers: Uma abordagem alternativa para revisão da literatura

Durante um projeto de pesquisa podemos encontrar um artigo que nos identificamos em termos de problema de pesquisa e também de solução. Então surge a vontade de saber como essa área de pesquisa se desenvolveu até chegar a esse ponto ou quais desdobramentos ocorreram a partir dessa solução proposta para identificar o estado da arte nesse tema. Podemos seguir duas abordagens:  realizar uma revisão sistemática usando palavras chaves que melhor caracterizam o tema em bibliotecas digitais de referência para encontrar artigos relacionados ou realizar snowballing ancorado nesse artigo que identificamos previamente, explorando os artigos citados (backward) ou os artigos que o citam (forward)  Mas a ferramenta Connected Papers propõe uma abordagem alternativa para essa busca. O problema inicial é dado um artigo de interesse, precisamos encontrar outros artigos relacionados de "certa forma". Find different methods and approaches to the same subject Track down the state of the art rese...

Knowledge Graph Embedding with Triple Context - Leitura de Abstract

  Jun Shi, Huan Gao, Guilin Qi, and Zhangquan Zhou. 2017. Knowledge Graph Embedding with Triple Context. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (CIKM '17). Association for Computing Machinery, New York, NY, USA, 2299–2302. https://doi.org/10.1145/3132847.3133119 ABSTRACT Knowledge graph embedding, which aims to represent entities and relations in vector spaces, has shown outstanding performance on a few knowledge graph completion tasks. Most existing methods are based on the assumption that a knowledge graph is a set of separate triples, ignoring rich graph features, i.e., structural information in the graph. In this paper, we take advantages of structures in knowledge graphs, especially local structures around a triple, which we refer to as triple context. We then propose a Triple-Context-based knowledge Embedding model (TCE). For each triple, two kinds of structure information are considered as its context in the graph; one is the out...

KnOD 2021

Beyond Facts: Online Discourse and Knowledge Graphs A preface to the proceedings of the 1st International Workshop on Knowledge Graphs for Online Discourse Analysis (KnOD 2021, co-located with TheWebConf’21) https://ceur-ws.org/Vol-2877/preface.pdf https://knod2021.wordpress.com/   ABSTRACT Expressing opinions and interacting with others on the Web has led to the production of an abundance of online discourse data, such as claims and viewpoints on controversial topics, their sources and contexts . This data constitutes a valuable source of insights for studies into misinformation spread, bias reinforcement, echo chambers or political agenda setting. While knowledge graphs promise to provide the key to a Web of structured information, they are mainly focused on facts without keeping track of the diversity, connection or temporal evolution of online discourse data. As opposed to facts, claims are inherently more complex. Their interpretation strongly depends on the context and a vari...