Resumo (0) + Conclusão (6)
- diz respeito a informações conceituais, em vez de informações baseadas em instâncias;
- trata principalmente de observações comumente conhecidas (compartilhadas);
- visa informações de domínio geral.
Descobertas:
2) a sobreposição entre Wikidata-CS e outras fontes de conhecimento de senso comum (como ConceptNet e WordNet) é baixa, motivando o esforço da integração do conhecimento;
Trabalhos Relacionados
a) Commonsense KGs
Uma ideia recente é usar modelos de linguagem, como BERT e GPT-2, como bases de conhecimento, devido à sua capacidade inerente de produzir um fato para qualquer entrada
b) Reasoning with Wikipedia and Wikidata
c) Studies of completeness of Wikidata
Introdução
Definir Senso Comum / Bom Senso
Proposta
Extração de conhecimento de senso comum do Wikidata
1. Excluindo entidades nomeadas (P1)
A instância de relação de (P31) seria intuitivamente útil para isso, ainda, muitas vezes expressa uma relação é-uma entre conceitos, semelhante à subclasse
de (P279). >> Não foi usada
A relação rdf: type de outra ontologia pública, como DBpedia, é uma direção possível, mas essa estratégia seria limitada ao conjunto de nós que são mapeados entre a Wikidata e a DBpedia. >> Não foi usada
Solução: A convenção do Wikidata estipula que os rótulos das entidades nomeadas devem ser capitalizados, enquanto aqueles para conceitos não deveriam. Seguindo esta regra, uma heurística simples permite selecionar arestas onde ambos os nós têm rótulos alfanuméricos começando com uma letra minúscula. Expandimos esta regra e filtramos rótulos que contenham qualquer letra maiúscula, para remover entidades com rótulos.
2. Caracterizando o que é comum (P2)
Métricas de frequência ou popularidade baseadas em Wikidata, como o PageRank, não podem ser usadas para estimar a banalidade, pois herdam a tendência para tópicos fortemente representados no Wikidata.
Solução: A identificação foi feita por aproximação da comunhão por frequências de palavra e uso de frases que foram pré-calculadas em um corpus independente. Desse modo se presume que palavras e frases que ocorrem com frequência se referem a conceitos bem conhecidos. Foram selecionadas arestas onde os rótulos de sujeito e objeto têm frequência de uso acima de um limite determinado empiricamente.
3. Excluindo o conhecimento do domínio (P3)
Ao analisar a distribuição de frequência das relações (predicados/propriedades) foi observado que a parir da vigésima a frequência decai rapidamente. A 50ª relação mais comum descreve menos de 500 arestas, e seu gráfico de frequência torna-se relativamente plano.
Solução: Concentrar-se nas 50 relações mais frequentes e distinguir o conhecimento restante mapeando manualmente para relações no ConceptNet v5.7.4 atingindo é 97,4% do conjunto total de arestas. A principal diretriz para esse mapeamento foi excluir propriedades destinadas a descrever informações específicas do domínio. O mapeamento foi realizado de forma independente por dois autores deste artigo. Em 9 casos, os anotadores discordaram sobre qual relação ConceptNet é o mais apropriado para mapear. Normalmente, isso significava que faltava ao ConceptNet um relação com a mesma especificidade, obrigando os anotadores a optarem por um mais genérico. No final 44 das 50 principais relações foram mapeadas para relações existentes no ConceptNet, resultando em 388.250 arestas. As seis relações restantes são específicas do domínio da biologia. O mapeamento mostra que algumas propriedades ConceptNet tem uma única contraparte no Wikidata, enquanto outros mapeiam para várias propriedades, geralmente com significados mais específicos. Em vários casos, a relação no Wikidata é inversa à do ConceptNet. Finalmente, assumindo que as relações específicas do domínio envolvem nós específicos do domínio, foi construído um conjunto de nós de 'lista negra' encontrados nessas relações. As arestas restantes não contêm esses nós específicos de domínio e isso permitiu filtrar nós como a proteína (Q8054), que tem mais de 172 mil arestas de entrada, normalmente de proteínas filho.
Implementação
KGTK permitiu transportar a abordagem proposta de forma direta e simples, apesar do desafio tamanho e complexidade do Wikidata.
O experimento completo relatado neste artigo foi codificados como três notebooks Jupyter que funcionam em um laptop em menos de uma hora. O ponto de partida é todo o Wikidata dividido em três arquivos Wikidata em formato tabular KGTK (um arquivo de arestas, um arquivo de nós e um arquivo de qualificadores). -> https://github.com/usc-isi-i2/cskg
P1 - Função Python personalizada para criar um subconjunto do arquivo de nós que contém apenas nós de conceito, removendo nós cujos rótulos estão vazios ou contêm uma letra maiúscula. O operador ifexists join foi usado para filtrar arestas que não conectam dois conceitos do arquivo de aresta. O comando remove-colunas apara todas as colunas que não são necessárias para o experimento. Depois disso, executamos compact para remover bordas duplicadas. Neste ponto, temos um subconjunto de arestas que tratam de conceitos (P1).
P2 - Para se preparar para a filtragem de uso e ajudar na legibilidade humana, expandimos o conjunto de colunas com o comando de elevação para incluir os rótulos do assunto, o objeto e o relação. Usamos o filtro baseado em limiar já mencionado para selecionar arestas para as quais tanto o sujeito quanto o objeto são conceitos comuns.
P3 - Em seguida, inspecionamos as arestas restantes em termos de suas relações. Aplicamos o mapeamento manual das 50 principais relações para consolidar o gráfico restante do Wikidata e tornar seus tipos de arestas compatíveis com o formato de CSKG.
O Wikidata-CS está disponível para download. -> https://doi.org/10.5281/zenodo.3983029
Discussão
Atualmente, CSKG contém 5,89 milhões de arestas, expressas por meio de 58 relações.
2. Generalizando sobre o conhecimento de nível de instância
Muito do conhecimento de senso comum no Wikidata é indiretamente expresso por meio de seu nível de instância. As informações de senso comum não são representadas diretamente no Wikidata, mas podem ser inferidas por generalização estatística sobre o conhecimento no nível da instância.
3. Tipos de conhecimento ausentes
Nenhum qualificador descreve a quantidade típica / esperada, um propósito ou um objetivo.
Relações que estão faltando atualmente, como propriedades típicas de conceitos ou seu simbolismo.
Comentários
Postar um comentário
Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.