Pular para o conteúdo principal

WIKIFIER

ANNOTATING DOCUMENTS WITH RELEVANT WIKIPEDIA CONCEPTS

Janez Brank, Gregor Leban, Marko Grobelnik. Annotating Documents with Relevant Wikipedia Concepts. Proceedings of the Slovenian Conference on Data Mining and Data Warehouses (SiKDD 2017), Ljubljana, Slovenia, 9 October 2017

Introdução

A pagerank-based method is used to identify a coherent set of relevant concepts considering the input document as a whole.

Semantic annotation or semantic enrichment: given a document and an ontology covering the domain of interest, the challenge is to identify concepts from that ontology that are relevant to the document or that are referred to by it

Etapas

  • identificar palavras, expressões ou frases do documento que se referem (fazem menção) a conceitos da Wikipedia (poderia ser da Wikidata)
  • determinar quais conceitos refletem exatamente o que está sendo mencionado no documento (desambiguação, nesse caso global com uso do page-rank)
  • determinar quais conceitos são relevantes ao documento como um todo para serem apresentados ao usuário (critério de corte e ordenação)

Desambiguação: uma frase/expressão/palavra pode ter mais de uma interpretação e é necessário identificar qual significado é mais adequado ao contexto.

  • Local: cada menção é analisada independente das outras entidades mencionadas
  • Global: a menção é analisada em conjunto com as outras entidades mencionadas no texto uma vez que se supõe que todas as entidades estejam relacionadas ao mesmo assunto.

Solução

BASELINE 

mention-concept graph (MC): grafo bipartido do tipo a -> c sendo a a menção no texto (palavras, expressões ou frases) e c o conceito mencionado. A aresta tem uma probabilidade associada. 

O grafo é complementado com arestas entre conceitos c e c' para indicar que os conceitos são semanticamente relacionados. Uma métrica chamada "semantic relatedness" é calculada com base na interseção das páginas da Wikipedia que contém um link para os conceitos c' e c. Uma aresta é criada entre c e c' se essa métrica for maior que 0 e uma probabilidade é associada. 

Cálculo do page-rank: abordagem iterativa usual onde em cada iteração, cada vértice distribui sua pontuação do page-rank para seus sucessores imediatos no gráfico, em proporção às probabilidades de transição em suas bordas de saída. Cada vértice de conceito inicia com page-rank = 0 e os vértices de menção possuem um valor de acordo com a quantidade de vezes que aparecem na Wikipedia. Após algumas iterações, o page-rank deve tender a se acumular em um conjunto de conceitos intimamente relacionados semanticamente entre si e fortemente associados a palavras e frases que aparecem no documento de entrada, que é exatamente o objetivo da desambiguação global.

Se existirem várias arestas saindo da menção a para conceitos diferentes a de maior page-rank será selecionada e essa métrica será usada como suporte do resultado.

Os conceitos são ordenados em ordem decrescente do page-rank. 

HEURISTICAS (testadas)

Desambiguação: remoção de stopwords e outras palavras muito frequentes ou com alto grau de ambiguidade (entropia de uma menção),uso de similaridade do cosseno entre o documento de entrada e a página da Wikipedia de cada conceito.

Relacionamento semântico: predecessores + sucessores nos links da Wikipedia

Implementação

http://wikifier.org

Saída em formato JSON

  • support (which mentions support each annotation), 
  • alternative candidate annotations (concepts that were considered as candidates during the disambiguation process but were rejected in favour of some other more highly scored concept)
  • WikiData/DbPedia class membership of the proposed annotations.

Avaliação

Gold Standard (gabarito de anotações) para comparação. Utilizou somente entidades nomeadas (lugares, pessoas, ...) , descartou outros tipos pela classe a qual pertenciam na Wikidata. Comparou com 5 outras abordagens de "wikificação". Métricas precisão, cobertura e F1 (média harmônica entre precisão e cobertura). 

Trabalhos futuros

  • Adaptação para tratar de documentos em línguas com poucas páginas na Wikipedia
  • Desambiguação local
  • Usar word2vec ao invés de bag-of-words

Comentários

Postar um comentário

Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.

Postagens mais visitadas deste blog

Connected Papers: Uma abordagem alternativa para revisão da literatura

Durante um projeto de pesquisa podemos encontrar um artigo que nos identificamos em termos de problema de pesquisa e também de solução. Então surge a vontade de saber como essa área de pesquisa se desenvolveu até chegar a esse ponto ou quais desdobramentos ocorreram a partir dessa solução proposta para identificar o estado da arte nesse tema. Podemos seguir duas abordagens:  realizar uma revisão sistemática usando palavras chaves que melhor caracterizam o tema em bibliotecas digitais de referência para encontrar artigos relacionados ou realizar snowballing ancorado nesse artigo que identificamos previamente, explorando os artigos citados (backward) ou os artigos que o citam (forward)  Mas a ferramenta Connected Papers propõe uma abordagem alternativa para essa busca. O problema inicial é dado um artigo de interesse, precisamos encontrar outros artigos relacionados de "certa forma". Find different methods and approaches to the same subject Track down the state of the art rese...

Knowledge Graph Embedding with Triple Context - Leitura de Abstract

  Jun Shi, Huan Gao, Guilin Qi, and Zhangquan Zhou. 2017. Knowledge Graph Embedding with Triple Context. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (CIKM '17). Association for Computing Machinery, New York, NY, USA, 2299–2302. https://doi.org/10.1145/3132847.3133119 ABSTRACT Knowledge graph embedding, which aims to represent entities and relations in vector spaces, has shown outstanding performance on a few knowledge graph completion tasks. Most existing methods are based on the assumption that a knowledge graph is a set of separate triples, ignoring rich graph features, i.e., structural information in the graph. In this paper, we take advantages of structures in knowledge graphs, especially local structures around a triple, which we refer to as triple context. We then propose a Triple-Context-based knowledge Embedding model (TCE). For each triple, two kinds of structure information are considered as its context in the graph; one is the out...

KnOD 2021

Beyond Facts: Online Discourse and Knowledge Graphs A preface to the proceedings of the 1st International Workshop on Knowledge Graphs for Online Discourse Analysis (KnOD 2021, co-located with TheWebConf’21) https://ceur-ws.org/Vol-2877/preface.pdf https://knod2021.wordpress.com/   ABSTRACT Expressing opinions and interacting with others on the Web has led to the production of an abundance of online discourse data, such as claims and viewpoints on controversial topics, their sources and contexts . This data constitutes a valuable source of insights for studies into misinformation spread, bias reinforcement, echo chambers or political agenda setting. While knowledge graphs promise to provide the key to a Web of structured information, they are mainly focused on facts without keeping track of the diversity, connection or temporal evolution of online discourse data. As opposed to facts, claims are inherently more complex. Their interpretation strongly depends on the context and a vari...