Serge Abiteboul, Richard Hull, Victor Vianu:
Foundations of Databases. Addison-Wesley 1995, ISBN 0-201-53771-0
O Closed World Assumption (CWA) estabelece a conexão entre o Bancos de dados (BD) e o mundo que este representa.
Todas as informações registradas no BD são verdadeiras (são fatos).
BDs podem ser incompletos, deste modo podem existir fatos (afirmações verdadeiras) no mundo que não estão representados no BD. Logo o que podemos dizer sobre fatos não registrados explicitamente? Se não existe no BD seriam falsos, verdadeiros ou desconhecidos?
Segundo CWA, suponha que o BD é completo, ou seja, todas as informações que não estão no banco de dados não são fatos (afirmações falsas). Se não está na Relação R, está no complemento de R.
Em BDs uma forma simples de incompletude é representada por valores nulos. Como responder a consultas em BDs que envolvem atributos nulos? As linguagens de consulta devem ser capazes de interpretar esses valores.
=======================================================================
A semântica de tratamento do Null (valores nulos) como a representação de "informações ausentes e informações inaplicáveis" está refletida em operações aritméticas e comparações pela linguagem de consulta SQL em BD relacionais através de uma lógica ternária (de três valores): TRUE, FALSE e INDEFINDO
Mas o nulo pode significar: 'Falta, mas aplicável' e 'Falta e inaplicável'.
Suponha uma tabela de Funcionários de uma empresa que, além da matrícula e nome de cada funcionário, tenha os atributos cargos e matrícula do chefe imediato. A regra geral é que todos os funcionários tenham um chefe imediato e caso esta informação esteja nula trata-se de ausência de informação ('Falta, mas aplicável') porém para o caso único do funcionário cujo cargo é "Presidente" esta informação é nula pq este não possui chefe imediato ('Falta e inaplicável').
=======================================================================
Antes de caracterizar os tipos de busca que podem ser realizadas em KBs e BDs é importante estabelecer as hipóteses sobre as quais as aplicações de busca podem operar uma vez que essas suposições definem quais interpretações são válidas em relação aos resultados recuperados.
Open World Assumption (OWA) x Closed World Assumption (CWA).
A hipótese CWA estabelece que se o sistema não conhece algum fato, ou seja, se essa informação não está registrado no seu banco de dados então não é um fato. Desse modo é possível perguntar sobre um BD relacional se "Existe uma tupla x tal que Q(x)?" e o sistema pode responder somente "sim" ou "não". Em um BD relacional, se uma tupla não existe como instância de uma relação R, então existe como instância no complemento ⌐R [Brodie and Mylopoulos 1986]. CWA usa Lógica Default (não monotônica) e desse modo se um fato não pode ser comprovado verdadeiro (pq não é encontrado no BD), logo é falso (Negação por Falha). Novos fatos registrados no BD podem afetar inferências (respostas) passadas.
O oposto é observado em Open World Assumption (OWA) onde as respostas são somente aquelas que podem ser comprovadas logicamente, ou seja, se não for possível provar uma afirmação não se pode assumir que a negação dessa afirmação é verdade. Em uma KB, que é intrinsecamente incompleta ao retratar o mundo, assumir OWA acaba sendo mais adequado uma vez que nenhum agente pode ter o conhecimento completo do mundo. Em caso de uma consulta "Existe um funcionário x tal que P(x)?" as respostas podem ser "sim", "não" ou "não sei" e a ausência de tal informação significa somente que esse conhecimento não foi explicitado [Brodie and Mylopoulos 1986]. OWA utiliza lógica clássica, lógica de primeira ordem (monotônica) e com isso novos fatos não podem invalidar conhecimento adquirido anteriormente.
As ontologias e linguagens da Web Semântica como OWL adotam o OWA, ou
seja, consideram que os fatos podem estar incompletos e utilizam
reasoners para deduzir novos fatos.
KGs são essencialmente incompletos, assim como outros tipos de KBs, tendo sido eles gerados através de pipelines com técnicas de NLP para extração de informação de corpus de documentos (Named Entity Recognition - NER, Entity Linking, Named Entity Disambiguation - NED, Relation Extraction) ou através de esforços humanos coordenados como é o caso da Wikidata. Por esse motivo, um dos principais tópicos de pesquisa em KG visa descobrir arestas não representadas através da Predição de Links.
Considerando essa característica, não é adequado assumir que qualquer aresta que não esteja presente no KG representa uma afirmação falsa ou a negação de uma afirmação, pois a ausência de uma aresta entre duas entidades não significa que o relacionamento não exista no mundo real. Assim como não é possível garantir que toda informação contextual necessária ao suporte da validade das afirmações estará presente no KG. Essa condição faz com que a recuperação de informações de um KG na maioria dos casos não opere segundo a hipótese CWA uma vez que é assumido que em geral nenhum agente ou observador tenha conhecimento completo. Por outro lado, potencialmente poucas (ou nenhuma) arestas serão usadas para representar a negação das afirmações, tendo assim baixo suporte negativo.
Alternativamente, alguns sistemas, utilizando KG empresariais (Enterprise Knowledge Graphs EKG) gerados a partir da integração de diversas fontes de dados internas da empresa, podem não adotar o OWA e operar sob a hipótese CWA. Nesses casos, assim como na recuperação de dados em bancos de dados, se não existir conhecimento adicional sobre a afirmação procurada, a resposta é negativa uma vez que o que não é conhecido é assumido como falso [Hogan et. al. 2021_book].
Adicionalmente, KGs podem incorporar afirmações que representam perspectivas de diferentes agentes sobre o mundo e que sejam contraditórias entre si mas isso não basta para que uma negue a outra.
Comentários
Postar um comentário
Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.