Pular para o conteúdo principal

Reunião 30 Março 2022

Comentários do Sérgio em azul e complementos posteriores meus em rosa (fuchsia) 

Sobre KG:
=========

KG é um modelo de dados com estrutura e linguagem?
Não.

Da definição abaixo do survey [Hogan et. al. 2021] temos

“knowledge graph is a graph of data intended to accumulate and convey knowledge of the real world, whose nodes represent entities of interest and whose edges represent potentially different relations between these entities. {It} conforms to a graph-based data model, which may be a directed edge-labelled graph, a heterogeneous graph, a property graph, and so on”

Ou seja, KG são bases de conhecimento que podem ser modeladas através de modelos de dados de grafos existentes uma vez que o conhecimento neles representado contemplam entidades (do mundo real ou conceitos abstratos), propriedades que descrevem essas entidades através de seus atributos e dos relacionamentos entre essas entidades.

Então: tem a parte-estrutura de um modelo mas não a parte-manipulação, no sentido de que não há uma linguagem para consultas ou updates específica.

Pensando apenas como grafo (nodes and edges/arcs) poderíamos, sim, herdar da teoria de grafos "linguagens" que percorrem grafos, mas não é o caso.


Qualquer modelo de dados de grafos permite representar um KG?
Sim.

Uma vez que qualquer modelo de dados em grafo contempla vértices e arestas. Os vértices são usados para as entidades e os valores de atributos e as arestas para os relacionamentos entre as entidades e seus atributos e para os relacionamentos entre entidades.

Porém, como será visto depois, não qualquer KG.

Todo KG possui um esquema ou uma ontologia?
Não.

KGs modelados em RDF ou RDF-Star podem usar predicados (object properties e data properties) e Classes de uma ou mais ontologias.

Entendendo esquema como uma instância do modelo, e.g., modelo relacional e esquemas específicos de bancos de dados.

O que difere um KG hiper relacional dos demais KGs?

Em um KG hiper relacional, os relacionamentos (entre entidades ou entre entidades e seus valores de atributos) são qualificados através de pares de chave-valor. Esses qualificadores permitem diferenciar instâncias desses relacionamentos quando os mesmos envolvem o mesmo par de entidades e o mesmo tipo de relação ou mais de uma ocorrência de relacionamento entre a entidades e os seus valores de propriedade.

Atenção à noção de (tipo de) relação versus relacionamento. Há muita confusão entre autores.

Nas diversas definições de KG encontradas na literatura esses termos são apresentados como sinônimos mas iremos adotar na pesquisa que (tipo de) Relação é o tipo de ligação entre as entidades do grafo enquanto que Relacionamento é a instância/ocorrência de uma relação representada por uma aresta.

Mais: importante definir claramente, marcando posição, sobre KG hiper relacionais. A confirmar que esta noção de hiper relacional só faça sentido para KG e não para grafos em geral.

Um KG hiper relacional pode ser nativamente representado em qualquer modelo de dados em grafo?
Não.

RDF não permite a representação nativa de qualificadores nas triplas. A representação dos qualificadores pode ser realizada através de artifícios de reificação porém essas abordagens adicionam triplas ao grafo (aumentando a base de dados) e tornam mais complexas as consultas SPARQL, além de não existir um padrão para representação.

RDF-Star permite a representação de qualificadores nas triplas mas não permite a representação de diferentes instâncias para a mesma tripla.

LPG, NG, 1G, DG, WD, KGTK são exemplos de modelos de dados em grafo que permitem a representação de KG hiper relacionais nativamente. Mas, cuidado, usando outros nomes ou termos para hiper relacional. Por exemplo... [..]

Wikidata é um KG hiper relacional?
Sim.

A Wikidata é um grafo de conhecimento (KG) público, multilingue e colaborativo e seu modelo de dados (WD) permite qualificadores nas arestas. Esses qualificadores são usados para representar vários tipos de informações adicionais sobre os relacionamentos como, por exemplo, proveniência, metadados espaciais e temporais, entre outros.

É necessário explicitar que modelo de dados é esse WD. Modelo sendo estrutura + manipulação.

Sobre Busca Semântica
=====================

Busca Semântica é o mesmo que Information Retrieval?
Não.

Temos duas definições balizadoras para essa resposta:

“Semantic Search regroups a set of techniques designed to improve traditional document or knowledge base search. Semantic Search aims at better grasping the context and the semantics of the user query and/or of the indexed content by leveraging natural language processing, Semantic Web, and machine learning techniques to retrieve more relevant results from a search engine.” .... por Encyclopedia of Big Data Technologies (Springer 2018)

“Search with meaning” por [Bast et al 2016]

Faltou deixar claro o que nós entendemos por IR.

Conforme as definições abaixo, Information Retrieval (IR) considera somente a recuperação de informação a partir de consultas expressas exclusivamente em linguagem natural, não contemplando abordagens que o usuário utilize linguagens estruturadas como SPARQL ou SQL. Mas IR não está restrito a conteúdo não estruturado como texto apesar de incialmente ter sido esse o foco das abordagens. As técnicas elencadas para Semantic Search (NLP, Semantic Web e Machine Learning) podem ser aplicadas tanto a IR quanto a Data Retrieval.

"Information retrieval (IR) part of computer science which studies the retrieval of information from a collection of written documents. The retrieved documents aim at satisfying a user information need usually expressed in natural language" [Baeza-Yates and Ribeiro-Neto 1999]

"Information retrieval deals with the representation, storage, organization of, and access to information items such as documents, Web pages, online catalogs, structured and semi-structured records, multimedia objects. The representation and organization of the information items should be such as to provide the users with easy access to information of their interest." [Baeza-Yates and Ribeiro-Neto 2011]

"Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers)." [Manning et al 2008]

Quais as abordagens possíveis para especificar a consulta na Busca Semântica?

Consulta por palavras-chaves, estruturada na linguagem de manipulação do KB ou pergunta e resposta.

São aqueles encontradas na literatura e referenciadas/classificadas no survey de 2016.

Quais os conteúdos possíveis para aplicar Busca Semântica?

Corpus de Texto, Bases de Conhecimento e combinação de ambos.

Onde deve ser considerada a semântica na Busca Semântica?

A semântica pode estar presente em todas as etapas do processo de busca: (1) na especificação da consulta; (2) na interpretação dos dados; (3) na representação dos dados; e (4) na compreensão do escopo da tarefa que o processo de busca está dando suporte.

Importante deixar isso bem claro diferenciando do sintático, cada um dos itens acima.

A Busca Semântica sempre fornece uma resposta?
xxxx

  • "a gente sempre responde algo ou respostas até quando der?"
  • Mundo Aberto x Mundo Fechado
  • se eu não tenho contexto, não respondo nada ou sendo cooperativo, respondo algo?
  • a resposta tem de ser contextualizada por possíveis tarefas.


Como a Busca Semântica trata ambiguidades na consulta?
Ambiguidade nesse caso é considerada quando as palavras e expressões utilizadas na construção da consulta podem ser mapeadas para diferentes entidades e relações mencionadas nos documentos ou nos elementos do KG levando a diferentes interpretações. A desambiguação permite identificar qual significado é mais adequado ao escopo da tarefa de busca. Exemplos de ambiguidade: Apple (empresa ou fruta), Jaguar (animal ou carro)

Uma abordagem possível é recorrer ao feedback do usuário para realizar a desambiguação. Outra opção é fazer uso de ontologias linguísticas como a WordNet para realizar a desambiguação de palavras considerando as demais palavras usadas na consulta uma vez que este conjunto de palavras presumidamente estão relacionadas. Também podem ser utilizadas técnicas de NLP: Named-Entity Recognition (NER), Named-Entity Disambiguation (NED), Entity Linking e Coreference Resolution (mais de uma menção a mesma entidade) de modo a identificar as entidades nomeadas na consulta e na base de conhecimento assim como os relacionamentos com Relationship Extraction. Modelos de linguagem que representam as palavras como word embeddings também podem ser utilizados para identificar a similaridade entre a representação da consulta e partes da base de referência busca em um espaço euclidiano.


Como a Busca Semântica trata incompletude na consulta?
Incompletude nesse caso é considerada quando as palavras e expressões não são mencionadas na construção da consulta mas podem ser deduzidas usando o senso comum ou conceitos diretamente relacionados ao escopo da tarefa de busca.

As abordagens possíveis podem ser realizar a análise gramatical das palavras e aplicar padrões. Por exemplo, na ausência da especificação do contexto temporal a busca pode assumir o contexto referente ao tempo verbal: presente como sendo vigente, corrente, mais recente (Qual É a capital do Brasil?). Na ausência da especificação do contexto espacial a busca pode assumir o contexto referente a localização mais próxima da localização do usuário (restaurantes vegetarianos). Quando não for especificado um contexto de proveniência a busca pode recuperar as respostas e ordenar pela reputação da fonte de informação (população Brasil: IBGE > FGV > DataFolha ). Quando não for especificado um contexto temático a busca pode elencar os assuntos presentes na base de referência e solicitar que o usuário indique os assuntos de interesse antes de recuperar as respostas.

Sobre Contexto
==============

A. Contexto no KG

Qual a importância do contexto ao representar o conhecimento?

Da definição abaixo do survey [Hogan et. al. 2021] temos

“By context, we herein refer to the scope of truth, and thus talk about the context in which some data are held to be true”

Logo o contexto é o que permite a correta interpretação dos dados para atestar a sua veracidade.

Essa frase acima é FORTE e precisa ser dividida-pra-ser-conquistada :-)

Ou ainda, contexto é o limitador ou o o que circunscreve as respostas possíveis [ melhorar isso! ]


O contexto é parte de um KG?
Sim.

O contexto se distingue dos demais elementos do KG pela semântica, o contexto tem por objetivo expressar algum significado que não pode ser capturado somente com a representação dos elementos e de seus relacionamentos em um KG mas que é essencial para a correta interpretação dos fatos.

Estamos, assim, eliminando a ideia de considerar contexto como algo adicional (externo) ao KG.

Todo KG possui meta-informação contextual dos fatos?
Não.

Explicar mais a pergunta para ficar claro o "Não" da resposta.

Todo KG hiper relacional possui meta-informação contextual dos fatos?
Não.

Como um KG hiper relacional pode representar meta-informação contextual dos fatos?
Através de qualificadores, pares de chaves-valores, nas arestas.

Como tornar possível a Busca Semântica Ciente de Contexto em KG hiper relacionais?

Através da associação dos qualificadores dos fatos ao contexto ao qual seus predicados pertencem (Context Aware Graph Data Model) e de uma linguagem de consulta em grafo que dê suporte operações de manipulção desses qualificadores (Context Aware Graph Query Language).

B. Contexto na Busca Semântica

Como identificar se uma consulta está completa, ou seja, se o contexto foi explicitamente especificado?
xxxxxx

Como o contexto da tarefa afeta a busca?
O conhecimento contextual também se refere ao que um agente precisa saber para realizar uma tarefa. Assim é possível adaptar o conhecimento do agente aos resultados esperados da tarefa a ser executada.

Que tipos de perguntas sobre os fatos o contexto pode responder em tarefas de Busca?

Proveniência         Qual a origem desse fato? Quando esse fato foi registrado? Quem registrou esse fato?                               Onde pode ser encontrada evidência para esse fato?
                              Quais fatos possuem a mesma fonte?
Temporal               Quando ocorreu esse fato? Quanto tempo durou esse fato? Qual é a primeira                                               ocorrência desse fato? Qual é a ocorrência mais recente desse fato? Quais outros                                       fatos ocorreram simultaneamente a esse fato?
Espacial                 Onde ocorreu esse fato? Quais outros fatos ocorreram no mesmo local desse fato?                                  Quais fatos ocorreram na mesma região desse fato?
Acurácia                Quanto é o grau de confiança deste fato? Dados esses fatos, qual tem o maior grau                                  de confiança?
Temática                Quais fatos compartilham o mesmo tema desse fato? Quais fatos possuem temas                                     relacionados a esse fato?
Situacional             Esse fato está vigente?

OTIMO ISSO mas ... podemos formalizar e generalizar? Exemplo: proveniência é uma única noção com os vários exemplos dados acima ou são vários tipos de proveniência a caracterizar?

Como o contexto interfere na similaridade entre a consulta e a resposta?
xxxxx

A distância para a similaridade não é absoluta, depende do contexto (Daniel)

Quais os limites dos modelos relacionais para responder a essas perguntas que consideram o contexto? Expressividade?
    As consultas envolvem o esquema e a instância, o modelo que integra ambos é mais adequado. Nas abordagens de KwS over RDF o match pode ser feito com o rótulo da classe, quando existe esquema (rdf:type), com o rótulo do relacionamento (predicado) e com o valor literal (objeto) 


Problem Statement
=================

“Given a hyper relational KG H, a natural language query Q and a context Cj retrieve the top-K most semantically similar contextualized facts represented by subgraphs h1,...,hi”

k=1
k=n

Metodologia
=================

- Testar somente com KG e rótulos (sintático)
- Testar somente com embeddings de texto
- Testar somente com embeddings de grafo
- E combinar abordagens: tendência de solução pq a correta combinação pode dar resultados melhores que as medidas de similaridade isoladas

Referências
==============

Manning, C. D., Raghavan, P., and Schütze, H. Introduction to Information Retrieval. Cambridge University Press, 2008.

Baeza-Yates, R. A. and Ribeiro-Neto, B. A. Modern Information Retrieval. ACM Press / Addison-Wesley, 1999. 

Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 2011. Modern Information Retrieval: The concepts and technology behind search (2nd. ed.). Addison-Wesley Publishing Company, USA.

 

Comentários

Postagens mais visitadas deste blog

Connected Papers: Uma abordagem alternativa para revisão da literatura

Durante um projeto de pesquisa podemos encontrar um artigo que nos identificamos em termos de problema de pesquisa e também de solução. Então surge a vontade de saber como essa área de pesquisa se desenvolveu até chegar a esse ponto ou quais desdobramentos ocorreram a partir dessa solução proposta para identificar o estado da arte nesse tema. Podemos seguir duas abordagens:  realizar uma revisão sistemática usando palavras chaves que melhor caracterizam o tema em bibliotecas digitais de referência para encontrar artigos relacionados ou realizar snowballing ancorado nesse artigo que identificamos previamente, explorando os artigos citados (backward) ou os artigos que o citam (forward)  Mas a ferramenta Connected Papers propõe uma abordagem alternativa para essa busca. O problema inicial é dado um artigo de interesse, precisamos encontrar outros artigos relacionados de "certa forma". Find different methods and approaches to the same subject Track down the state of the art rese...

Knowledge Graph Embedding with Triple Context - Leitura de Abstract

  Jun Shi, Huan Gao, Guilin Qi, and Zhangquan Zhou. 2017. Knowledge Graph Embedding with Triple Context. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (CIKM '17). Association for Computing Machinery, New York, NY, USA, 2299–2302. https://doi.org/10.1145/3132847.3133119 ABSTRACT Knowledge graph embedding, which aims to represent entities and relations in vector spaces, has shown outstanding performance on a few knowledge graph completion tasks. Most existing methods are based on the assumption that a knowledge graph is a set of separate triples, ignoring rich graph features, i.e., structural information in the graph. In this paper, we take advantages of structures in knowledge graphs, especially local structures around a triple, which we refer to as triple context. We then propose a Triple-Context-based knowledge Embedding model (TCE). For each triple, two kinds of structure information are considered as its context in the graph; one is the out...

KnOD 2021

Beyond Facts: Online Discourse and Knowledge Graphs A preface to the proceedings of the 1st International Workshop on Knowledge Graphs for Online Discourse Analysis (KnOD 2021, co-located with TheWebConf’21) https://ceur-ws.org/Vol-2877/preface.pdf https://knod2021.wordpress.com/   ABSTRACT Expressing opinions and interacting with others on the Web has led to the production of an abundance of online discourse data, such as claims and viewpoints on controversial topics, their sources and contexts . This data constitutes a valuable source of insights for studies into misinformation spread, bias reinforcement, echo chambers or political agenda setting. While knowledge graphs promise to provide the key to a Web of structured information, they are mainly focused on facts without keeping track of the diversity, connection or temporal evolution of online discourse data. As opposed to facts, claims are inherently more complex. Their interpretation strongly depends on the context and a vari...