ANNOTATING DOCUMENTS WITH RELEVANT WIKIPEDIA CONCEPTS
Janez Brank, Gregor Leban, Marko Grobelnik. Annotating Documents with Relevant Wikipedia Concepts. Proceedings of the Slovenian Conference on Data Mining and Data Warehouses (SiKDD 2017), Ljubljana, Slovenia, 9 October 2017
Introdução
A pagerank-based method is used to identify a coherent set of relevant concepts considering the input document as a whole.
Semantic annotation or semantic enrichment: given a document and an ontology covering the domain of interest, the challenge is to identify concepts from that ontology that are relevant to the document or that are referred to by it
Etapas
- identificar palavras, expressões ou frases do documento que se referem (fazem menção) a conceitos da Wikipedia (poderia ser da Wikidata)
- determinar quais conceitos refletem exatamente o que está sendo mencionado no documento (desambiguação, nesse caso global com uso do page-rank)
- determinar quais conceitos são relevantes ao documento como um todo para serem apresentados ao usuário (critério de corte e ordenação)
Desambiguação: uma frase/expressão/palavra pode ter mais de uma interpretação e é necessário identificar qual significado é mais adequado ao contexto.
- Local: cada menção é analisada independente das outras entidades mencionadas
- Global: a menção é analisada em conjunto com as outras entidades mencionadas no texto uma vez que se supõe que todas as entidades estejam relacionadas ao mesmo assunto.
Solução
BASELINE
mention-concept graph (MC): grafo bipartido do tipo a -> c sendo a a menção no texto (palavras, expressões ou frases) e c o conceito mencionado. A aresta tem uma probabilidade associada.
O grafo é complementado com arestas entre conceitos c e c' para indicar que os conceitos são semanticamente relacionados. Uma métrica chamada "semantic relatedness" é calculada com base na interseção das páginas da Wikipedia que contém um link para os conceitos c' e c. Uma aresta é criada entre c e c' se essa métrica for maior que 0 e uma probabilidade é associada.
Cálculo do page-rank: abordagem iterativa usual onde em cada iteração, cada vértice distribui sua pontuação do page-rank para seus sucessores imediatos no gráfico, em proporção às probabilidades de transição em suas bordas de saída. Cada vértice de conceito inicia com page-rank = 0 e os vértices de menção possuem um valor de acordo com a quantidade de vezes que aparecem na Wikipedia. Após algumas iterações, o page-rank deve tender a se acumular em um conjunto de conceitos intimamente relacionados semanticamente entre si e fortemente associados a palavras e frases que aparecem no documento de entrada, que é exatamente o objetivo da desambiguação global.
Se existirem várias arestas saindo da menção a para conceitos diferentes a de maior page-rank será selecionada e essa métrica será usada como suporte do resultado.
Os conceitos são ordenados em ordem decrescente do page-rank.
HEURISTICAS (testadas)
Desambiguação: remoção de stopwords e outras palavras muito frequentes ou com alto grau de ambiguidade (entropia de uma menção),uso de similaridade do cosseno entre o documento de entrada e a página da Wikipedia de cada conceito.
Relacionamento semântico: predecessores + sucessores nos links da Wikipedia
Implementação
Saída em formato JSON
- support (which mentions support each annotation),
- alternative candidate annotations (concepts that were considered as candidates during the disambiguation process but were rejected in favour of some other more highly scored concept)
- WikiData/DbPedia class membership of the proposed annotations.
Avaliação
Gold Standard (gabarito de anotações) para comparação. Utilizou somente entidades nomeadas (lugares, pessoas, ...) , descartou outros tipos pela classe a qual pertenciam na Wikidata. Comparou com 5 outras abordagens de "wikificação". Métricas precisão, cobertura e F1 (média harmônica entre precisão e cobertura).
Trabalhos futuros
- Adaptação para tratar de documentos em línguas com poucas páginas na Wikipedia
- Desambiguação local
- Usar word2vec ao invés de bag-of-words
Não usa Word Embeddings
ResponderExcluirAlternativa https://scholia.toolforge.org/text-to-topics
ResponderExcluir