Vídeo de Introdução do Microsoft Academic (MA) -> https://youtu.be/XHDn536m5bo
- Entidades: Publicações, Autores, Conferências, Periódicos, Tópicos, Instituições
- Match de termos e expressões em entidades do grafo para identificar o tipo antes de realizar a busca das publicações. A profile da entidade identificada aparece na lateral. Caso seja mapeado para uma tópico de nível N, o resultado inclui os tópicos de níveis N - 1 em diante.
- Filtros posteriores nos resultados em relação a entidades como Autores, Conferências, Periódicos, Tópicos (Áreas de Estudo), Instituições (Filiação de autores) e também de datas
- Dada uma publicação, apresenta, além das referências e publicações onde o mesmo é citado, outros artigos semanticamente semelhantes. MA calcula uma pontuação de similaridade entre as publicações avaliando os conceitos acadêmicos identificados no texto.
- Permite baixar a referência em BibTex (um de cada vez ou lista)
O MA é uma aplicação de Busca que é suportada pelo MAG -> https://academic.microsoft.com/home
Um vídeo de apresentação do MA pela própria MS -> https://youtu.be/2NlzeqhC10o
Visão Geral do MA -> https://academic.microsoft.com/faq
- sugestão de mapeamentos (interpretações) dos termos de busca são apresentadas a medida que o usuário informa as palavras que representam a sua intenção de busca
- fornece estatísticas e análises sobre tópicos/temas de pesquisa como as tendências (e não só publicações)
- inferência semântica para reconhecer a intenção do usuário
Sobre a ordenação dos resultados da busca
Baseado no conceito Eigenvector Centrality da Teoria dos Grafos para determinar a classificação das publicações.
Também chamado de eigencentrality, trata-se de uma medida de influência de um nó em uma rede. Pontuações relativas são atribuídas a todos os nós da rede considerando que conexões com nós de alta pontuação contribuem mais do que muitas conexões com nós de baixa pontuação. Uma pontuação alta significa que o nó possuem conexões com outros nós que também possuem pontuações altas.
Essa abordagem garante que uma publicação terá uma classificação elevada se impactar publicações altamente classificadas, se for de autoria de acadêmicos altamente conceituados de instituições de prestígio ou se for publicada em um local altamente conceituado em áreas altamente competitivas.
No MAG essa medida para as publicações se chama "saliência". Da mesma forma é possível calcular a proeminência de um autor, uma instituição, um tópico (field of study) e um local de publicação como a soma de todas as "saliências" de suas respectivas publicações (desde que todos os autores contribuam igualmente para a publicação).
A medida de "saliência" de uma publicação possui um viés temporal que é amortecido por processo estocástico autoregressivo, de forma que a mesma decairá com o tempo se não receber reconhecimentos contínuos, ou se seus autores, local de publicação e campos não estiverem mantendo suas saliências.
A contagem de citações não é usada diretamente para o cálculo dessa medida, cada citação tem um peso associado a fatores como os autores, local de publicação e ao tempo.
Uma avaliação do MA -> https://youtu.be/Pr8JlCdNqR0
- Não indexa dissertações e teses (completude)
- Open Access resource para SLR
Expanding Concept Understanding in Microsoft Academic Graph
Como manter/atualizar a taxonomia de conceitos do MAG a partir dos próprios artigos, ou seja, sem depender de uma taxonomia ou ontologia existente -> https://www.microsoft.com/en-us/research/project/academic/articles/expanding-concept-understanding-in-microsoft-academic-graph/
2016-2018 A partir da Wikipedia, de 52 mil a 227 mil conceitos.
2019 Adição de conceitos usando a UMLS (Medicina, Biologia, Química)
Nova abordagem
- Extrair palavras ou frases dos documentos que possam ser mapeadas em conceitos
- Executar um classificador para mapear essas palavras/frases em temas/tópicos de estudo
Na etapa 1, usando técnicas de ML, é feita a rotulagem das palavras/frases (incluindo acrônimos) com base em sinônimos do próprio MAG. Na etapa 2, o classificador associa as palavras/frases a 3 categorias: conceito existente, conceito novo, item de baixa qualidade.
Os níveis 0 e 1 da taxonomia sofrem curadoria humana (manual) e os níveis abaixo são mantidos/atualizados com base na subsunção dos conceitos. Mas 25% dos conceitos são órfãos.
Expanding Semantic Search into Biomed with Medical Subject Headings (MeSH)
Uso de um vocabulário controlado da área de BioMedicina (usado para busca no PubMed) para a busca semântica do MA -> https://www.microsoft.com/en-us/research/project/academic/articles/expanding-semantic-search-into-biomed-with-medical-subject-headings-mesh/
Os descritores e qualificadores do MeSH não foram acrescentados na taxonomia de tópicos do MAG. Os descritores caracterizam o assunto ou conteúdo de um artigo, enquanto os qualificadores são usados em conexão com os descritores para definir um aspecto particular de um assunto.
Nos resultados da busca é possível identificar outros descritores e qualificadores do MeSH que mais co-ocorrem com os descritores e qualificadores selecionados na busca.
Rationalizing Semantic and Keyword Search on Microsoft Academic
Como as strings de busca são tratadas para melhorar o resultado -> https://www.microsoft.com/en-us/research/project/academic/articles/rationalizing-semantic-and-keyword-search-on-microsoft-academic-2/
O objetivo do algoritmo de pesquisa semântica é alavancar a inferência semântica para recuperar publicações seminais que, embora sejam relevantes e importantes, podem não conter estritamente os termos usados na string de busca em seus metadados ou conteúdo.
MA não faz redução ao radical (remoção de sufixos e prefixos, stemmer ou lematização) e nem correção ortográfica. Porém, faz uso de sinônimos para referenciar uma mesma entidade como por exemplo a sigla (acrônimo) e o nome da conferência ou o nome completo do autor e o nome de citação. A ferramenta trabalha com expressões exatas com algumas particularidades no match com as entidades e também permite operadores de escopo dos termos como por exemplo title: “graph" irá realizar o match somente no título das publicações.
Um problema comum com a pesquisa por palavra-chave é que ela coloca a responsabilidade de escolher as palavras-chave “certas” para uma consulta diretamente sobre os ombros do usuário.
Resultados que correspondem a todas as palavras da string de busca são muito restritos (operador AND). Uma alternativa para keyword search pode ser recuperar resultados que mapeiam o máximo de palavras da string de busca (operador OR) ordenando os resultados de modo que os items com maior correspondência estejam no topo (métrica de similaridade ou distância entre o item e a string de busca). Nos resultados, os termos não mapeados no item recuperado são indicados assim termo.
Open Academic Graph
Visualizing the Topic hierarchy on Microsoft Academic
Como visualizar a estrutura de tópicos que dá suporte a busca no MA -> https://www.microsoft.com/en-us/research/project/academic/articles/visualizing-the-topic-hierarchy-on-microsoft-academic/
The Microsoft Academic Graph(MAG) is a heterogeneous graph containing scientific publication records, citation relationships between those publications, as well as authors, institutions, journals, conferences, and fields of study. This graph is used to power experiences in Bing, Cortana, Word, and in Microsoft Academic (MA). The graph is currently being updated on a weekly basis.
Fonte: https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
Esquema do MAG -> https://docs.microsoft.com/en-us/academic-services/graph/reference-data-schema
O MAG tem 17,724 sobre publicações da PUC-Rio (referente a março de 2021) e a base do Lattes tem 45,909 + 41,877 (referente a Dezembro/2020)
Webinar da MS sobre MAG
Pacote NLP para extrair Field of Study (FoS) Hierarchy e associar os trabalhos aos respectivos FoS (tagging)
- Descoberta de conceitos com base na Wikipedia (Named Entity Recognition)
- Associação de textos a conceitos baseados no Título, Resumo ou palavras-chaves (metadados), representados em espaço discreto (bag of words) ou contínuo (embedding) e baseado em estruturas como os conceitos associados a maior parte dos artigos citados.
- Geração da Hierarquia de conceitos baseado na ocorrência de subsunção dos conceitos A e B depois de associados a textos
Related Papers e Related Fields para recomendação são semanticamente similares
API para Similaridade
baseada na Linguagem
- Score entre 2 textos (pode ser o abstract)
- Score entre um texto e um tópico
- Tópicos associados a um texto
baseada na rede (grafo KG)
- Score entre 2 IDs
- Top Related a um ID
Fontes de dados: trabalhos duplicados, entidades representadas de diferentes modos (por exemplo o nome da universidade e a sigla da universidade nos dados de filiação)
Documentação -> https://docs.microsoft.com/en-us/academic-services/graph/
Webinar da MS sobre MAKES
Serviço (API) para consulta no MAG em tempo real
- Interpretação: sugestão de entidades a medida que o usuário vai digitando os termos de busca, permite desambiguação do contexto de busca
- Avaliação: retorna os Top Relateds com a interpretação selecionada e as entidades envolvidas são detalhadas
- Histograma: calcula as estatísticas associadas aos resultados para oferecer filtros específicos (top)
MAKES is a portable version of the Academic Knowledge API that can be deployed and setup on private Azure subscriptions. Similar to MAG on AS, we offer an automated distribution service that uploads everything you need to setup and deploy Azure resources to host private instances of the Academic Knowledge API. The private instances are not rate limited and can be scaled up to more powerful hardware configurations based on required performance scenarios.
Documentação -> https://docs.microsoft.com/en-us/academic-services/knowledge-exploration-service/
Eigenvector Centrality da Teoria dos Grafos -> PageRank
ResponderExcluir