Usar Topic Modeling (além da geração de embeedings) para enriquecer o KG. Desse modo, teríamos:
1) se a pergunta for sobre o tópico X e o KG contém afirmações desse tópico, o direcionamento seria: Vamos ajudar, o Oráculo conhece sobre o assunto!
2) se a pergunta for sobre o tópico Y e o KG não contém afirmações desse tópico, o direcionamento seria: Vamos tentar ajudar, o Oráculo talvez conheça alguma coisa do assunto.
3) se a pergunta for sobre o tópico Z e o KG explícitamente não cobre esse tópico, o direcionamento seria: Não podemos ajudar, o Oráculo não sabe tudo.
Os tópicos poderiam ser incluídos ou excluídos (negados) por intervenção dos engenheiros de dados do KG também mas a geração automática pouparia o esforço humano.
===========================================================
Detecção de tópicos em textos curtos (como tweets, posts, comentários assim como os statements snippets do KG e as consultas em linguagem natural) requerem abordagens específicas que são diferentes da detecção de tópicos em documentos (arquivos textos, pdf, páginas html, .....)
Probabilistic Latent Semantic Analysis (PLSA 1999), Latent Dirichlet Allocation (LDA 2003) são abordagens para documentos.
Biterm Topic Model (BTM - 2013) and Dirichlet Multinomial Mixture (DMM - 2000), extensões GPUDMM (word embeddings and Multiterm Topic Model) são para textos curtos
Neural topic models (DNN): Variational AutoEncoder (VAE - 2014), Neural Variational Document Model (NVDM - 2016), Gaussian Softmax Construction (GSM - 2017)
Topic Memory Network (TMN - 2018) para short text topic modeling and classification with pre-trained word embeddings
Além da proposta desse artigo ao final ser também em redes neurais.
Datasets: Google search snippets, Yahoo Answer, TagMyNews Title e StackOverflow
Artigo de referência
Xiaobao Wu, Chunping Li, Yan Zhu,
and Yishu Miao. 2020. Short Text Topic Modeling with Topic Distribution
Quantization and Negative Sampling Decoder. In Proceedings of the 2020
Conference on Empirical Methods in Natural Language Processing (EMNLP),
pages 1772–1782, Online. Association for Computational Linguistics.
Abstract
Topic models have been prevailing for many years on discovering latent semantics while modeling long documents.
However, for short texts they generally suffer from data sparsity because of extremely limited word co-occurrences; thus tend to yield repetitive or trivial topics with low quality.
In this paper, to address this issue, we propose a novel neural topic model in the framework of autoencoding with a new topic distribution quantization approach generating peakier distributions that are more appropriate for modeling short texts. Besides the encoding, to tackle this issue in terms of decoding, we further propose a novel negative sampling decoder learning from negative samples to avoid yielding repetitive topics.
We observe that our model can highly improve short text topic modeling performance. Through extensive experiments on real-world datasets, we demonstrate our model can outperform both strong traditional and neural baselines under extreme data sparsity scenes, producing high-quality topics.
Comentários
Postar um comentário
Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.