Pular para o conteúdo principal

Learning to Map Wikidata Entities To Predefined Topics - Leitura de Artigo

Entity Linkage and Desambiguation: dado um trecho de texto, o objetivo é vincular palavras, expressões e frases (menções) para entidades em uma base de conhecimento (KB), por exemplo entidades no Wikidata. KBs modernas contêm centenas de milhares de entidades ou mais. Algumas entidades são bastante amplas, mas na maioria das vezes são muito específicas.

Existem cenário onde é necessário representar o conjunto de dados através de um conjunto menor de conceitos ou tópicos predefinidos, pertencentes a um taxonomia tópica, que corresponda às uma necessidades específica. 

Neste estudo, o objetivo foi construir um sistema que mapeia entidades de um KG como a Wikidata para tópicos de uma estrutura de tópicos como o Klout Topic Ontology (KTO), que é um subconjunto do Wikidata e contém cerca de 8 mil tópicos. Esse sistema combina métodos individuais e produz um desempenho muito melhor, comparável com anotadores humanos.. 

Trabalhos relacionados: métodos que mapeiam entidades para tópicos. Esses métodos muitas vezes preveem mapeamentos de tópico-entidade que são confiáveis, ou seja, têm alta precisão, mas tendem a perder a maioria dos mapeamentos, ou seja, têm baixa cobertura. 

Tradicionalmente, modelos de tópicos estatísticos como LDA(*) têm sido usado para categorização tópica de texto. Esses modelos são baseados em a ideia de que os documentos individuais são compostos por um ou mais tópicos, onde cada tópico é uma distribuição por palavras. Embora o LDA seja uma ferramenta poderosa para encontrar grupos de tópicos dentro de um documento, pode perder tópicos implícitos que são melhores adequado para categorização de documentos.

Topic Modeling: in machine learning and natural language processing, a topic model is a type of statistical model for discovering the abstract "topics" that occur in a collection of documents. Topic modeling is a frequently used text-mining tool for discovery of hidden semantic structures in a text body. Intuitively, given that a document is about a particular topic, one would expect particular words to appear in the document more or less frequently. A document typically concerns multiple topics in different proportions. The "topics" produced by topic modeling techniques are clusters of similar words. A topic model captures this intuition in a mathematical framework, which allows examining a set of documents and discovering, based on the statistics of the words in each, what the topics might be and what each document's balance of topics is.

Especialização de: (1) Artificial intelligence; (2) Information retrieval; (3) Natural language processing

Generalização de:

Latent Dirichlet allocation (LDA *): In natural language processing, the latent Dirichlet allocation (LDA) is a generative statistical model that allows sets of observations to be explained by unobserved groups that explain why some parts of the data are similar. For example, if observations are words collected into documents, it posits that each document is a mixture of a small number of topics and that each word's presence is attributable to one of the document's topics. LDA is an example of a topic model and belongs to the machine learning toolbox and in wider sense to the artificial intelligence toolbox.

APIs: Google NLP, Watson Natural Language Understanding API e Rosette Text Analytics.

As entidades ajudam a habilitar uma compreensão sintática ao invés de uma compreensão semântica do texto (?????). 

Algumas vantagens em usar taxonomia de tópicos: (1) Limitar tópicos a um determinado domínio de conhecimento e (2) Limitar a quantidade de tópicos que um usuário do aplicativo possa interagir (a cardinalidade de um taxonomia é ordens de magnitude menor do que o número de entidades dentro da KB).

Contribuições: 

  • sistema que mapeia entidades em um KB (derivado do Wikidata) para tópicos em uma taxonomia. Junto com EDL, o sistema permite extrair os conceitos que melhor atendem necessidades específicas de aplicação de um determinado texto.
  • análise de vários modelos populares que exploram o relacionamento entre entidades de várias perspectivas, incluindo coocorrência, word embeddings e conteúdo da Wikipedia. Foi descoberto que  cada um deles tem um desempenho razoavelmente bom no mapeamento entidades para tópicos.
  • investigação de várias abordagens para combinar esses modelos em um modelo integrado para obter melhores resultados. Foi descoberto que o melhor desempenho é alcançado por meio de um metamodelo SVM que produz resultados comparáveis ​​aos anotadores humanos.
  • flexibilidade de adaptação do sistema a outras taxonomias
  • conjunto de rótulos disponíveis ao público


Given a pair of (e, t ), determine whether or not t is relevant to e irrespective of whether t is equivalent to e and a quantitative measure of how relevant e is to t. 

Esses tópicos são armazenados como anotações, que são consumidos em várias tarefas, como indexar conteúdo e construir perfis de usuário.


Experimento

Conjunto de dados

Entidades Wikidata foram limitados aos 1M mais importantes, onde a importância medida é descrita em outro trabalho. 

Para o treinamento foi coletado um conjunto de dados de 26,6 mil pares entidade-tópico rotulado como ‘Relevante’ se o tópico for relevante para a entidade ou ‘Irrelevante’ por outro lado.
Para controlar a qualidade da rotulagem feita pelos anotadores, um pequeno conjunto de 100 pares rotulados (entidade, tópico) foi gerado por um painel de especialistas. 

8,6 mil anotações por meio do Amazon Mechanical Turk (AMT) ... anotação humana 81% de consenso

18 mil pares de tópicos de entidade com os membros da equipe ... anotação humana 82% de consenso

O conjunto final combina 8 Modelos:
- Métodos baseados em word embeddings
(1) GloVe: vetores globais para representação de palavras (GloVe) - uma técnica que gera embeddings de palavras, ou seja, vetores de números reais, para representar o contextos linguísticos das palavras. Esses embeddings permitem a derivação de métricas de distância quantitativas, como semelhança de cosseno, para descrever a “distância” semântica entre as palavras. Como parte deste modelo, calculamos a similaridade de cosseno de embeddings para cada par (entidade, tópico) usando a entidade primária para o tópico.
(2) GloVe Parents: embora uma entidade e um tópico relevante tendem a ter alta similaridade baseada em word embeddings, uma entidade e um tópico irrelevante muitas vezes também pode ter alta semelhança. Relações hierárquicas não são bem representadas no GloVe. Em particular, o conjunto de tópicos é estruturado como um direcionado gráfico acíclico, onde as bordas entre os tópicos representam relacionamentos. Os tópicos em um nível mais alto são mais amplos e geralmente vinculados a vários tópicos filho mais restritos no próximo nível inferior.
- Métodos baseados em gráfico de Wikidata
(3) Predicados Hierárquicos do Wikidata: a maioria dos pares (entidade, tópico) tem zero ou um predicado. Como resultado, foi observado que apenas 146 predicados entre entidades e tópicos no conjunto de dados. Além disso, os tópicos relacionados à localização eram super representados neste definir e por isso foram excluídos. Como esperado, pesos individuais atribuídos a predicados são razoavelmente interpretáveis, de modo que predicados com pontuação alta tendem a corresponder às relações hierárquicas, como como “Instância de” (P17), “Subclasse de” (P279) etc.
(4) Modelo de Predicados de Localização Hierárquica WikiData (considerados apenas os predicados de localização que são excluídos do modelo anterior)
- Métodos Baseados em Conteúdo da Wikipedia
(5) Modelo de conteúdo das páginas da Wikipedia: uma medida que liga uma entidade para tópicos com base em suas definições da Wikipedia em vários idiomas. Dada uma entidade e, primeiro são extraídas entidades primárias do primeiro parágrafo da página Pl da Wikipedia correspondente para um determinado idioma l, por meio de um algoritmo EDL.
(6) Modelo de hierarquia das páginas da Wikipedia: Semelhante ao GloVe Parents, nesse modelo são combinadas a saída do modelo de conteúdo das páginas da Wikipedia com a hierarquia do conjunto de tópicos T.
- Métodos Baseados em Aprendizagem Semi-Supervisionada (co-ocorrência de frequências para entidades)
Contagem das entidades que aparecem simultaneamente dentro de uma janela deslizante de 50 tokens, de modo acumulado em todos os idiomas. Além disso, para cada entidade, considerar apenas as 30 principais entidades que têm pelo menos 10 ou mais co-ocorrências em todos os idiomas suportados.
(7) Coocorrência ajustada por frequência: já que algumas entidades ocorrem com mais frequência no conjunto de dados do que outras foi necessário ajustar as contagens de coocorrência com as frequências da entidade.
(8) Coocorrência Normalizada por Tópico: já que alguns tópicos acontecem mais frequentemente do que outros e as coocorrências de entidades ajustadas por frequência tendem a favorecer esses tópicos, foi necessário normalizar ainda mais a coocorrência ajustada por frequência para cada tópico.

Modelo de conjunto empilhado
Cada um dos modelos descritos acima define uma feature isolada. Foi necessário combinar essas features em um conjunto para dar o mínimo de erro ou perda em termos de entidade para mapeamentos de tópicos. Em seguida, a tarefa foi tratada como um problema de classificação binária com os seguintes métodos: regressão logística, random forest e SVM.

Cada modelo individual desempenha razoavelmente bem nesta tarefa. Os modelos de melhor desempenho foram Modelo de hierarquia das páginas da Wikipedia e GloVe Parents enquanto o modelo de pior desempenho foi GloVe. Todos os modelos de conjunto tiveram desempenho aproximadamente semelhante e superaram significativamente os modelos individuais. O conjunto SVM teve o melhor desempenho em F1 de 0,786. A maior parte da deterioração do desempenho de modelos individuais é causada pela baixa cobertura e o uso de um conjunto diversificado de modelos, complementares entre si, com resultado combinado apresenta alto desempenho. Enquanto que ao comparar o desempenho de conjunto modelos com o do anotador humano foi observado que eram compatíveis e os modelos individuais tiveram menos sucesso.

Liçoes aprendidas

  • O mapeamento de tópicos é muito subjetivo; a relação entre uma entidade e um tópico pode ser percebida de modo diferente de humano para humano, dependendo em seu conhecimento de domínio e na aplicação pretendida.
  • Muitos modelos capturam com sucesso similaridade entre uma entidade e um tópico; no entanto, as relações hierárquicas são muito mais difíceis de capturar.
  • KBs são ricas em dados factuais porém alguns subconjuntos de entidades podem ser representados em excesso para efeitos de uma aplicação (como no exeplo a localização)
  • mapeamento 1: 1 de um tópico da taxonomia para sua entidade primária nem sempre é possível

Comentários

Postar um comentário

Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.

Postagens mais visitadas deste blog

Connected Papers: Uma abordagem alternativa para revisão da literatura

Durante um projeto de pesquisa podemos encontrar um artigo que nos identificamos em termos de problema de pesquisa e também de solução. Então surge a vontade de saber como essa área de pesquisa se desenvolveu até chegar a esse ponto ou quais desdobramentos ocorreram a partir dessa solução proposta para identificar o estado da arte nesse tema. Podemos seguir duas abordagens:  realizar uma revisão sistemática usando palavras chaves que melhor caracterizam o tema em bibliotecas digitais de referência para encontrar artigos relacionados ou realizar snowballing ancorado nesse artigo que identificamos previamente, explorando os artigos citados (backward) ou os artigos que o citam (forward)  Mas a ferramenta Connected Papers propõe uma abordagem alternativa para essa busca. O problema inicial é dado um artigo de interesse, precisamos encontrar outros artigos relacionados de "certa forma". Find different methods and approaches to the same subject Track down the state of the art rese...

Knowledge Graph Embedding with Triple Context - Leitura de Abstract

  Jun Shi, Huan Gao, Guilin Qi, and Zhangquan Zhou. 2017. Knowledge Graph Embedding with Triple Context. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (CIKM '17). Association for Computing Machinery, New York, NY, USA, 2299–2302. https://doi.org/10.1145/3132847.3133119 ABSTRACT Knowledge graph embedding, which aims to represent entities and relations in vector spaces, has shown outstanding performance on a few knowledge graph completion tasks. Most existing methods are based on the assumption that a knowledge graph is a set of separate triples, ignoring rich graph features, i.e., structural information in the graph. In this paper, we take advantages of structures in knowledge graphs, especially local structures around a triple, which we refer to as triple context. We then propose a Triple-Context-based knowledge Embedding model (TCE). For each triple, two kinds of structure information are considered as its context in the graph; one is the out...

KnOD 2021

Beyond Facts: Online Discourse and Knowledge Graphs A preface to the proceedings of the 1st International Workshop on Knowledge Graphs for Online Discourse Analysis (KnOD 2021, co-located with TheWebConf’21) https://ceur-ws.org/Vol-2877/preface.pdf https://knod2021.wordpress.com/   ABSTRACT Expressing opinions and interacting with others on the Web has led to the production of an abundance of online discourse data, such as claims and viewpoints on controversial topics, their sources and contexts . This data constitutes a valuable source of insights for studies into misinformation spread, bias reinforcement, echo chambers or political agenda setting. While knowledge graphs promise to provide the key to a Web of structured information, they are mainly focused on facts without keeping track of the diversity, connection or temporal evolution of online discourse data. As opposed to facts, claims are inherently more complex. Their interpretation strongly depends on the context and a vari...