Pular para o conteúdo principal

Commonsense Knowledge in Wikidata - Leitura de Artigo

Daniel Schwabe

Resumo (0) + Conclusão (6)

Nenhum trabalho existente estudou o potencial do Wikidata para raciocínio de senso comum. Este artigo investiga se a Wikidata contém conhecimento de senso comum que é complementar ao senso comum de fontes existentes.
 
Três princípios orientadores foram aplicados para gerar um subgrafo da Wikidata para senso comum (Wikidata-CS) através de uma abordagem de filtragem de três etapas que distingue conceitos de entidades nomeadas, favorece conceitos comuns e tipos de conhecimento de domínio geral. 
  1. diz respeito a informações conceituais, em vez de informações baseadas em instâncias; 
  2. trata principalmente de observações comumente conhecidas (compartilhadas); 
  3. visa informações de domínio geral.

Descobertas: 

1) embora o Wikidata-CS represente uma pequena parte do Wikidata, a Wikidata contém conhecimento de senso comum relevantes que pode ser mapeado para relações ConceptNet;
2) a sobreposição entre Wikidata-CS e outras fontes de conhecimento de senso comum (como ConceptNet e WordNet) é baixa, motivando o esforço da integração do conhecimento; 
3) Wikidata-CS tem tem evoluído ao longo do tempo a um ritmo ligeiramente mais lento em comparação com o Wikidata, indicando uma possível falta de foco no conhecimento do senso comum.
 
The observation that commonsense knowledge in Wikidata is almost entirely missing in the other KGs, and vice versa, validates the main pursuit of this paper, and motivates the consolidation of these sources into a single graph.
 
Com base nessas descobertas, foram recomendadas três ações para melhorar ainda mais a cobertura e a qualidade do Wikidata-CS.

Trabalhos Relacionados

a) Commonsense KGs

ConceptNet: é uma KB multilíngue, representando palavras e frases que as pessoas usam e as relações de senso comum entre elas. O conhecimento no ConceptNet é coletado de uma variedade de recursos, incluindo recursos de crowdsourcing (como Wikcionário e Open Mind Common Sense), jogos com uma finalidade (como Verbosity e nadya.jp) e recursos criados por especialistas (como WordNet e JMDict). É um KG de coisas que as pessoas sabem e os computadores deveriam saber, expresso em várias linguagens naturais. É uma rede semântica disponível gratuitamente, projetada para ajudar os computadores a entender o significado das palavras que as pessoas usam.
 
Recursos lexicais, como WordNet (conceitos) e FrameNet (frames)
Extraído de documentos, logs de consulta ou quantidades (???)
 
Commonsense Knowledge Graph (CSKG): consolida muitos desses recursos em um único KG. É um recurso existente que consolida informações de 7 fontes de senso comum: ATOMIC, ConceptNet, Roget, Visual Genome, WordNet e Wikidata. É representado usando o formato Knowledge Graph ToolKit (KGTK) com 10 colunas, incluindo os elementos principais de uma aresta (id, nó1, relação e nó2), seus rótulos (por exemplo, nó1; rótulo) e informações de proveniência sobre uma aresta (fonte e frase?). Da Wikidata, CSKG inclui todas as arestas que envolvem a relação de herança (P279).

Uma ideia recente é usar modelos de linguagem, como BERT e GPT-2, como bases de conhecimento, devido à sua capacidade inerente de produzir um fato para qualquer entrada
 
BERT  - Bidirectional Encoder Representation from Transformers (BERT) é uma técnica de ponta para pré-treinamento de processamento de linguagem natural desenvolvida pelo Google. BERT é treinado em texto não rotulado, incluindo Wikipedia e Book corpus. BERT usa arquitetura de transformador, um modelo de atenção (?) para aprender embeddings para palavras.

b) Reasoning with Wikipedia and Wikidata

Wikipedia e Wikidata servem como fontes de conhecimento básico em tarefas de processamento de linguagem natural, por exemplo, como um repositório de EDL, ou como uma fonte de informações contextuais para ajudar a vincular entidades no texto.

c) Studies of completeness of Wikidata

Abordagem para estimar completude de classe em KG e usa o Wikidata como um caso de uso. Descobrem que algumas classes no Wikidata, como Pintura, são mais completas do que outras, como Montanha. Além disso, também quantificam a evolução do Wikidata ao longo do tempo.

Introdução

Definir Senso Comum / Bom Senso

"a capacidade básica de perceber, compreender e julgar as coisas que são compartilhados por quase todas as pessoas e podem ser razoavelmente esperados de quase todas as pessoas sem necessidade de debate". 
 
Modelos de linguagens como o BERT e o GPT-2 podem fornecer a resposta correta por razões erradas, ou seja, os enunciados produzidos são sintaticamente sólidos, mas podem carecer de plausibilidade.Grafos de senso comum  fornecem conhecimento relevante que pode ser usado para aumentar a habilidade dos modelos de linguagem de raciocinar em tarefas posteriores. Infelizmente, estes são amplamente incompletos.

Proposta

Extração de conhecimento de senso comum do Wikidata

1. Excluindo entidades nomeadas (P1)

A instância de relação de (P31) seria intuitivamente útil para isso, ainda, muitas vezes expressa uma relação é-uma entre conceitos, semelhante à subclasse
de (P279). >> Não foi usada
A relação rdf: type de outra ontologia pública, como DBpedia, é uma direção possível, mas essa estratégia seria limitada ao conjunto de nós que são mapeados entre a Wikidata e a DBpedia. >> Não foi usada
Solução: A convenção do Wikidata estipula que os rótulos das entidades nomeadas devem ser capitalizados, enquanto aqueles para conceitos não deveriam. Seguindo esta regra, uma heurística simples permite selecionar arestas onde ambos os nós têm rótulos alfanuméricos começando com uma letra minúscula. Expandimos esta regra e filtramos rótulos que contenham qualquer letra maiúscula, para remover entidades com rótulos.

2. Caracterizando o que é comum (P2)

Métricas de frequência ou popularidade baseadas em Wikidata, como o PageRank, não podem ser usadas para estimar a banalidade, pois herdam a tendência para tópicos fortemente representados no Wikidata.
Solução: A identificação foi feita por aproximação da comunhão por frequências de palavra e uso de frases que foram pré-calculadas em um corpus independente. Desse modo se presume que palavras e frases que ocorrem com frequência se referem a conceitos bem conhecidos. Foram selecionadas arestas onde os rótulos de sujeito e objeto têm frequência de uso acima de um limite determinado empiricamente.

3. Excluindo o conhecimento do domínio (P3) 

Ao analisar a distribuição de frequência das relações (predicados/propriedades) foi observado que a parir da vigésima a frequência decai rapidamente. A 50ª relação mais comum descreve menos de 500 arestas, e seu gráfico de frequência torna-se relativamente plano.
Solução: Concentrar-se nas 50 relações mais frequentes e distinguir o conhecimento restante mapeando manualmente para relações no ConceptNet v5.7.4 atingindo é 97,4% do conjunto total de arestas. A principal diretriz para esse mapeamento foi excluir propriedades destinadas a descrever informações específicas do domínio. O mapeamento foi realizado de forma independente por dois autores deste artigo. Em 9 casos, os anotadores discordaram sobre qual relação ConceptNet é o mais apropriado para mapear. Normalmente, isso significava que faltava ao ConceptNet um relação com a mesma especificidade, obrigando os anotadores a optarem por um mais genérico. No final 44 das 50 principais relações foram mapeadas para relações existentes no ConceptNet, resultando em 388.250 arestas. As seis relações restantes são específicas do domínio da biologia. O mapeamento mostra que algumas propriedades ConceptNet tem uma única contraparte no Wikidata, enquanto outros mapeiam para várias propriedades, geralmente com significados mais específicos. Em vários casos, a relação no Wikidata é inversa à do ConceptNet. Finalmente, assumindo que as relações específicas do domínio envolvem nós específicos do domínio, foi construído um conjunto de nós de 'lista negra' encontrados nessas relações. As arestas restantes não contêm esses nós específicos de domínio e isso permitiu filtrar nós como a proteína (Q8054), que tem mais de 172 mil arestas de entrada, normalmente de proteínas filho.

Implementação

KGTK permitiu transportar a abordagem proposta de forma direta e simples, apesar do desafio tamanho e complexidade do Wikidata.
O experimento completo relatado neste artigo foi codificados como três notebooks Jupyter que funcionam em um laptop em menos de uma hora. O ponto de partida é todo o Wikidata dividido em três arquivos Wikidata em formato tabular KGTK (um arquivo de arestas, um arquivo de nós e um arquivo de qualificadores). -> https://github.com/usc-isi-i2/cskg

P1 - Função Python personalizada para criar um subconjunto do arquivo de nós que contém apenas nós de conceito, removendo nós cujos rótulos estão vazios ou contêm uma letra maiúscula. O operador ifexists join foi usado para filtrar arestas que não conectam dois conceitos do arquivo de aresta. O comando remove-colunas apara todas as colunas que não são necessárias para o experimento. Depois disso, executamos compact para remover bordas duplicadas. Neste ponto, temos um subconjunto de arestas que tratam de conceitos (P1).
P2 - Para se preparar para a filtragem de uso e ajudar na legibilidade humana, expandimos o conjunto de colunas com o comando de elevação para incluir os rótulos do assunto, o objeto e o relação. Usamos o filtro baseado em limiar já mencionado para selecionar arestas para as quais tanto o sujeito quanto o objeto são conceitos comuns.
P3 - Em seguida, inspecionamos as arestas restantes em termos de suas relações. Aplicamos o mapeamento manual das 50 principais relações para consolidar o gráfico restante do Wikidata e tornar seus tipos de arestas compatíveis com o formato de CSKG.

O Wikidata-CS está disponível para download. -> https://doi.org/10.5281/zenodo.3983029

Discussão

1. Integração de fontes de bom senso prontas em Wikidata
Atualmente, CSKG contém 5,89 milhões de arestas, expressas por meio de 58 relações.

2. Generalizando sobre o conhecimento de nível de instância
Muito do conhecimento de senso comum no Wikidata é indiretamente expresso por meio de seu nível de instância. As informações de senso comum não são representadas diretamente no Wikidata, mas podem ser inferidas por generalização estatística sobre o conhecimento no nível da instância. 
(Isso me lembra Engenharia Reversa, extração de esquema)

3. Tipos de conhecimento ausentes
Nenhum qualificador descreve a quantidade típica / esperada, um propósito ou um objetivo.
Relações que estão faltando atualmente, como propriedades típicas de conceitos ou seu simbolismo.


Comentários

Postagens mais visitadas deste blog

Connected Papers: Uma abordagem alternativa para revisão da literatura

Durante um projeto de pesquisa podemos encontrar um artigo que nos identificamos em termos de problema de pesquisa e também de solução. Então surge a vontade de saber como essa área de pesquisa se desenvolveu até chegar a esse ponto ou quais desdobramentos ocorreram a partir dessa solução proposta para identificar o estado da arte nesse tema. Podemos seguir duas abordagens:  realizar uma revisão sistemática usando palavras chaves que melhor caracterizam o tema em bibliotecas digitais de referência para encontrar artigos relacionados ou realizar snowballing ancorado nesse artigo que identificamos previamente, explorando os artigos citados (backward) ou os artigos que o citam (forward)  Mas a ferramenta Connected Papers propõe uma abordagem alternativa para essa busca. O problema inicial é dado um artigo de interesse, precisamos encontrar outros artigos relacionados de "certa forma". Find different methods and approaches to the same subject Track down the state of the art rese...

Knowledge Graph Embedding with Triple Context - Leitura de Abstract

  Jun Shi, Huan Gao, Guilin Qi, and Zhangquan Zhou. 2017. Knowledge Graph Embedding with Triple Context. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (CIKM '17). Association for Computing Machinery, New York, NY, USA, 2299–2302. https://doi.org/10.1145/3132847.3133119 ABSTRACT Knowledge graph embedding, which aims to represent entities and relations in vector spaces, has shown outstanding performance on a few knowledge graph completion tasks. Most existing methods are based on the assumption that a knowledge graph is a set of separate triples, ignoring rich graph features, i.e., structural information in the graph. In this paper, we take advantages of structures in knowledge graphs, especially local structures around a triple, which we refer to as triple context. We then propose a Triple-Context-based knowledge Embedding model (TCE). For each triple, two kinds of structure information are considered as its context in the graph; one is the out...

KnOD 2021

Beyond Facts: Online Discourse and Knowledge Graphs A preface to the proceedings of the 1st International Workshop on Knowledge Graphs for Online Discourse Analysis (KnOD 2021, co-located with TheWebConf’21) https://ceur-ws.org/Vol-2877/preface.pdf https://knod2021.wordpress.com/   ABSTRACT Expressing opinions and interacting with others on the Web has led to the production of an abundance of online discourse data, such as claims and viewpoints on controversial topics, their sources and contexts . This data constitutes a valuable source of insights for studies into misinformation spread, bias reinforcement, echo chambers or political agenda setting. While knowledge graphs promise to provide the key to a Web of structured information, they are mainly focused on facts without keeping track of the diversity, connection or temporal evolution of online discourse data. As opposed to facts, claims are inherently more complex. Their interpretation strongly depends on the context and a vari...