Pular para o conteúdo principal

DB x KB - CWA x OWA

Serge Abiteboul, Richard Hull, Victor Vianu:
Foundations of Databases. Addison-Wesley 1995, ISBN 0-201-53771-0

O Closed World Assumption (CWA) estabelece a conexão entre o Bancos de dados (BD) e o mundo que este representa. 

Todas as informações registradas no BD são verdadeiras (são fatos). 

BDs podem ser incompletos, deste modo podem existir fatos (afirmações verdadeiras) no mundo que não estão representados no BD. Logo o que podemos dizer sobre fatos não registrados explicitamente? Se não existe no BD seriam falsos, verdadeiros ou desconhecidos? 

Segundo CWA, suponha que o BD é completo, ou seja, todas as informações que não estão no banco de dados não são fatos (afirmações falsas). Se não está na Relação R, está no complemento de R.

Em BDs uma forma simples de incompletude é representada por valores nulos. Como responder a consultas em BDs que envolvem atributos nulos? As linguagens de consulta devem ser capazes de interpretar esses valores. 

=======================================================================

A semântica de tratamento do Null (valores nulos) como a representação de "informações ausentes e informações inaplicáveis" está refletida em operações aritméticas e comparações pela linguagem de consulta SQL em BD relacionais através de uma lógica ternária (de três valores): TRUE, FALSE e INDEFINDO

Mas o nulo pode significar:  'Falta, mas aplicável' e 'Falta e inaplicável'. 

Suponha uma tabela de Funcionários de uma empresa que, além da matrícula e nome de cada funcionário, tenha os atributos cargos e matrícula do chefe imediato. A regra geral é que todos os funcionários tenham um chefe imediato e caso esta informação esteja nula trata-se de ausência de informação ('Falta, mas aplicável') porém para o caso único do funcionário cujo cargo é "Presidente" esta informação é nula pq este não possui chefe imediato ('Falta e inaplicável').

 =======================================================================

Antes de caracterizar os tipos de busca que podem ser realizadas em KBs e BDs é importante estabelecer as hipóteses sobre as quais as aplicações de busca podem operar uma vez que essas suposições definem quais interpretações são válidas em relação aos resultados recuperados. 

Open World Assumption (OWA) x Closed World Assumption (CWA). 

A hipótese CWA estabelece que se o sistema não conhece algum fato, ou seja, se essa informação não está registrado no seu banco de dados então não é um fato. Desse modo é possível perguntar sobre um BD relacional se "Existe uma tupla x tal que Q(x)?" e o sistema pode responder somente "sim" ou "não". Em um BD relacional, se uma tupla não existe como instância de uma relação R, então existe como instância no complemento ⌐R [Brodie and Mylopoulos 1986]. CWA usa Lógica Default (não monotônica) e desse modo se um fato não pode ser comprovado verdadeiro (pq não é encontrado no BD), logo é falso (Negação por Falha). Novos fatos registrados no BD podem afetar inferências (respostas) passadas.

O oposto é observado em Open World Assumption (OWA) onde as respostas são somente aquelas que podem ser comprovadas logicamente, ou seja, se não for possível provar uma afirmação não se pode assumir que a negação dessa afirmação é verdade. Em uma KB, que é intrinsecamente incompleta ao retratar o mundo, assumir OWA acaba sendo mais adequado uma vez que nenhum agente pode ter o conhecimento completo do mundo. Em caso de uma consulta "Existe um funcionário x tal que P(x)?" as respostas podem ser "sim", "não" ou "não sei" e a ausência de tal informação significa somente que esse conhecimento não foi explicitado [Brodie and Mylopoulos 1986]. OWA utiliza lógica clássica, lógica de primeira ordem (monotônica) e com isso novos fatos não podem invalidar conhecimento adquirido anteriormente.

As ontologias e linguagens da Web Semântica como OWL adotam o OWA, ou seja, consideram que os fatos podem estar incompletos e utilizam reasoners para deduzir novos fatos.

KGs são essencialmente incompletos, assim como outros tipos de KBs, tendo sido eles gerados através de pipelines com técnicas de NLP para extração de informação de corpus de documentos (Named Entity Recognition - NER, Entity Linking, Named Entity Disambiguation - NED, Relation Extraction) ou através de esforços humanos coordenados como é o caso da Wikidata. Por esse motivo, um dos principais tópicos de pesquisa em KG visa descobrir arestas não representadas através da Predição de Links.

Considerando essa característica,  não é adequado assumir que qualquer aresta que não esteja presente no KG representa uma afirmação falsa ou a negação de uma afirmação, pois a ausência de uma aresta entre duas entidades não significa que o relacionamento não exista no mundo real. Assim como não é possível garantir que toda informação contextual necessária ao suporte da validade das afirmações estará presente no KG. Essa condição faz com que a recuperação de informações de um KG na maioria dos casos não opere segundo a hipótese CWA uma vez que é assumido que em geral nenhum agente ou observador tenha conhecimento completo. Por outro lado, potencialmente poucas (ou nenhuma) arestas serão usadas para representar a negação das afirmações, tendo assim baixo suporte negativo.

Alternativamente, alguns sistemas,  utilizando KG empresariais (Enterprise Knowledge Graphs EKG) gerados a partir da integração de diversas fontes de dados internas da empresa, podem não adotar o OWA e operar sob a hipótese CWA. Nesses casos, assim como na recuperação de dados em bancos de dados, se não existir conhecimento adicional sobre a afirmação procurada, a resposta é negativa uma vez que o que não é conhecido é assumido como falso  [Hogan et. al. 2021_book].

Adicionalmente, KGs podem incorporar afirmações que representam perspectivas de diferentes agentes sobre o mundo e que sejam contraditórias entre si mas isso não basta para que uma negue a outra.

Comentários

Postagens mais visitadas deste blog

Connected Papers: Uma abordagem alternativa para revisão da literatura

Durante um projeto de pesquisa podemos encontrar um artigo que nos identificamos em termos de problema de pesquisa e também de solução. Então surge a vontade de saber como essa área de pesquisa se desenvolveu até chegar a esse ponto ou quais desdobramentos ocorreram a partir dessa solução proposta para identificar o estado da arte nesse tema. Podemos seguir duas abordagens:  realizar uma revisão sistemática usando palavras chaves que melhor caracterizam o tema em bibliotecas digitais de referência para encontrar artigos relacionados ou realizar snowballing ancorado nesse artigo que identificamos previamente, explorando os artigos citados (backward) ou os artigos que o citam (forward)  Mas a ferramenta Connected Papers propõe uma abordagem alternativa para essa busca. O problema inicial é dado um artigo de interesse, precisamos encontrar outros artigos relacionados de "certa forma". Find different methods and approaches to the same subject Track down the state of the art rese...

Knowledge Graph Embedding with Triple Context - Leitura de Abstract

  Jun Shi, Huan Gao, Guilin Qi, and Zhangquan Zhou. 2017. Knowledge Graph Embedding with Triple Context. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (CIKM '17). Association for Computing Machinery, New York, NY, USA, 2299–2302. https://doi.org/10.1145/3132847.3133119 ABSTRACT Knowledge graph embedding, which aims to represent entities and relations in vector spaces, has shown outstanding performance on a few knowledge graph completion tasks. Most existing methods are based on the assumption that a knowledge graph is a set of separate triples, ignoring rich graph features, i.e., structural information in the graph. In this paper, we take advantages of structures in knowledge graphs, especially local structures around a triple, which we refer to as triple context. We then propose a Triple-Context-based knowledge Embedding model (TCE). For each triple, two kinds of structure information are considered as its context in the graph; one is the out...

KnOD 2021

Beyond Facts: Online Discourse and Knowledge Graphs A preface to the proceedings of the 1st International Workshop on Knowledge Graphs for Online Discourse Analysis (KnOD 2021, co-located with TheWebConf’21) https://ceur-ws.org/Vol-2877/preface.pdf https://knod2021.wordpress.com/   ABSTRACT Expressing opinions and interacting with others on the Web has led to the production of an abundance of online discourse data, such as claims and viewpoints on controversial topics, their sources and contexts . This data constitutes a valuable source of insights for studies into misinformation spread, bias reinforcement, echo chambers or political agenda setting. While knowledge graphs promise to provide the key to a Web of structured information, they are mainly focused on facts without keeping track of the diversity, connection or temporal evolution of online discourse data. As opposed to facts, claims are inherently more complex. Their interpretation strongly depends on the context and a vari...