Pular para o conteúdo principal

Microsoft Academic Graph (MAG)

Vídeo de Introdução do Microsoft Academic (MA) -> https://youtu.be/XHDn536m5bo

  1. Entidades: Publicações, Autores, Conferências, Periódicos, Tópicos, Instituições 
  2. Match de termos e expressões em entidades do grafo para identificar o tipo antes de realizar a busca das publicações. A profile da entidade identificada aparece na lateral. Caso seja mapeado para uma tópico de nível N, o resultado inclui os tópicos de níveis N - 1 em diante.
  3. Filtros posteriores nos resultados em relação a entidades como Autores, Conferências, Periódicos, Tópicos (Áreas de Estudo), Instituições (Filiação de autores) e também de datas
  4. Dada uma publicação, apresenta, além das referências e publicações onde o mesmo é citado, outros artigos semanticamente semelhantes. MA calcula uma pontuação de similaridade entre as publicações avaliando os conceitos acadêmicos identificados no texto.
  5. Permite baixar a referência em BibTex (um de cada vez ou lista)

O MA é uma aplicação de Busca que é suportada pelo MAG -> https://academic.microsoft.com/home

Um vídeo de apresentação do MA pela própria MS -> https://youtu.be/2NlzeqhC10o 

Visão Geral do MA -> https://academic.microsoft.com/faq

  • sugestão de mapeamentos (interpretações) dos termos de busca são apresentadas a medida que o usuário informa as palavras que representam a sua intenção de busca
  • fornece estatísticas e análises sobre tópicos/temas de pesquisa como as tendências (e não só publicações) 
  • inferência semântica para reconhecer a intenção do usuário

Sobre a ordenação dos resultados da busca

Baseado no conceito Eigenvector Centrality da Teoria dos Grafos para determinar a classificação das publicações.
Também chamado de eigencentrality, trata-se de uma medida de influência de um nó em uma rede. Pontuações relativas são atribuídas a todos os nós da rede considerando que conexões com nós de alta pontuação contribuem mais do que muitas conexões com nós de baixa pontuação. Uma pontuação alta significa que o nó possuem conexões com outros nós que também possuem pontuações altas.
Essa abordagem garante que uma publicação terá uma classificação elevada se impactar publicações altamente classificadas, se for de autoria de acadêmicos altamente conceituados de instituições de prestígio ou se for publicada em um local altamente conceituado em áreas altamente competitivas.
No MAG essa medida para as publicações se chama "saliência". Da mesma forma é possível calcular a proeminência de um autor, uma instituição, um tópico (field of study) e um local de publicação como a soma de todas as "saliências" de suas respectivas publicações (desde que todos os autores contribuam igualmente para a publicação).
A medida de "saliência" de uma publicação possui um viés temporal que é amortecido por processo estocástico autoregressivo, de forma que a mesma decairá com o tempo se não receber reconhecimentos contínuos, ou se seus autores, local de publicação e campos não estiverem mantendo suas saliências.
A contagem de citações não é usada diretamente para o cálculo dessa medida, cada citação tem um peso associado a fatores como os autores, local de publicação e ao tempo.

Uma avaliação do MA -> https://youtu.be/Pr8JlCdNqR0

  1. Não indexa dissertações e teses (completude)
  2. Open Access resource para SLR

Expanding Concept Understanding in Microsoft Academic Graph

Como manter/atualizar a taxonomia de conceitos do MAG a partir dos próprios artigos, ou seja, sem depender de uma taxonomia ou ontologia existente -> https://www.microsoft.com/en-us/research/project/academic/articles/expanding-concept-understanding-in-microsoft-academic-graph/

2016-2018 A partir da Wikipedia, de 52 mil a 227 mil conceitos.

2019 Adição de conceitos usando a UMLS (Medicina, Biologia, Química)

Nova abordagem

  1. Extrair palavras ou frases dos documentos que possam ser mapeadas em conceitos
  2. Executar um classificador para mapear essas palavras/frases em temas/tópicos de estudo

Na etapa 1, usando técnicas de ML, é feita a rotulagem das palavras/frases (incluindo acrônimos) com base em sinônimos do próprio MAG. Na etapa 2, o classificador associa as palavras/frases a 3 categorias: conceito existente, conceito novo, item de baixa qualidade.

Os níveis 0 e 1 da taxonomia sofrem curadoria humana (manual) e os níveis abaixo são mantidos/atualizados com base na subsunção dos conceitos. Mas 25% dos conceitos são órfãos.

Expanding Semantic Search into Biomed with Medical Subject Headings (MeSH)

Uso de um vocabulário controlado da área de BioMedicina (usado para busca no PubMed) para a busca semântica do MA -> https://www.microsoft.com/en-us/research/project/academic/articles/expanding-semantic-search-into-biomed-with-medical-subject-headings-mesh/

Os descritores e qualificadores do MeSH não foram acrescentados na taxonomia de tópicos do MAG. Os descritores caracterizam o assunto ou conteúdo de um artigo, enquanto os qualificadores são usados ​​em conexão com os descritores para definir um aspecto particular de um assunto.

Nos resultados da busca é possível identificar outros descritores e qualificadores do MeSH que mais co-ocorrem com os descritores e qualificadores selecionados na busca.

Rationalizing Semantic and Keyword Search on Microsoft Academic

Como as strings de busca são tratadas para melhorar o resultado  -> https://www.microsoft.com/en-us/research/project/academic/articles/rationalizing-semantic-and-keyword-search-on-microsoft-academic-2/

O objetivo do algoritmo de pesquisa semântica é alavancar a inferência semântica para recuperar publicações seminais que, embora sejam relevantes e importantes, podem não conter estritamente os termos usados na string de busca em seus metadados ou conteúdo. 

MA não faz redução ao radical (remoção de sufixos e prefixos, stemmer ou lematização) e nem correção ortográfica. Porém, faz uso de sinônimos para referenciar uma mesma entidade como por exemplo a sigla (acrônimo) e o nome da conferência ou o nome completo do autor e o nome de citação. A ferramenta trabalha com expressões exatas com algumas particularidades no match com as entidades e também permite operadores de escopo dos termos como por exemplo title: “graph" irá realizar o match somente no título das publicações.

Um problema comum com a pesquisa por palavra-chave é que ela coloca a responsabilidade de escolher as palavras-chave “certas” para uma consulta diretamente sobre os ombros do usuário.

Resultados que correspondem a todas as palavras da string de busca são muito restritos (operador AND). Uma alternativa para keyword search pode ser recuperar resultados que mapeiam o máximo de palavras da string de busca (operador OR) ordenando os resultados de modo que os items com maior correspondência estejam no topo (métrica de similaridade ou distância entre o item e a string de busca). Nos resultados, os termos não mapeados no item recuperado são indicados assim termo

Open Academic Graph

Como baixar os dados -> https://www.microsoft.com/en-us/research/project/open-academic-graph/

Visualizing the Topic hierarchy on Microsoft Academic

Como visualizar a estrutura de tópicos que dá suporte a busca no MA -> https://www.microsoft.com/en-us/research/project/academic/articles/visualizing-the-topic-hierarchy-on-microsoft-academic/

 Explore a topic

The Microsoft Academic Graph(MAG) is a heterogeneous graph containing scientific publication records, citation relationships between those publications, as well as authors, institutions, journals, conferences, and fields of study. This graph is used to power experiences in Bing, Cortana, Word, and in Microsoft Academic (MA). The graph is currently being updated on a weekly basis.

Fonte: https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/

Esquema do MAG -> https://docs.microsoft.com/en-us/academic-services/graph/reference-data-schema

Entity Relationship Diagram 

 

O MAG tem 17,724 sobre publicações da PUC-Rio (referente a março de 2021) e a base do Lattes tem 45,909 + 41,877 (referente a Dezembro/2020) 

Webinar da MS sobre MAG

Pacote NLP para extrair Field of Study (FoS) Hierarchy e associar os trabalhos aos respectivos FoS (tagging)

  • Descoberta de conceitos com base na Wikipedia (Named Entity Recognition)
  • Associação de textos a conceitos baseados no Título, Resumo ou palavras-chaves (metadados), representados em espaço discreto (bag of words) ou contínuo (embedding) e baseado em estruturas como os conceitos associados a maior parte dos artigos citados.
  • Geração da Hierarquia de conceitos baseado na ocorrência de subsunção dos conceitos A e B depois de associados a textos

Related Papers e Related Fields para recomendação são semanticamente similares

API para Similaridade 

baseada na Linguagem 

  1. Score entre 2 textos (pode ser o abstract)
  2. Score entre um texto e um tópico
  3. Tópicos associados a um texto

baseada na rede (grafo KG)

  1. Score entre 2 IDs 
  2.  Top Related a um ID

Fontes de dados: trabalhos duplicados, entidades representadas de diferentes modos (por exemplo o nome da universidade e a sigla da universidade nos dados de filiação)

Documentação ->  https://docs.microsoft.com/en-us/academic-services/graph/

Webinar da MS sobre MAKES

Serviço (API) para consulta no MAG em tempo real

  1. Interpretação: sugestão de entidades a medida que o usuário vai digitando os termos de busca, permite desambiguação do contexto de busca
  2. Avaliação: retorna os Top Relateds com a interpretação selecionada e as entidades envolvidas são detalhadas
  3. Histograma: calcula as estatísticas associadas aos resultados para oferecer filtros específicos (top)

MAKES is a portable version of the Academic Knowledge API that can be deployed and setup on private Azure subscriptions. Similar to MAG on AS, we offer an automated distribution service that uploads everything you need to setup and deploy Azure resources to host private instances of the Academic Knowledge API. The private instances are not rate limited and can be scaled up to more powerful hardware configurations based on required performance scenarios. 

Documentação ->  https://docs.microsoft.com/en-us/academic-services/knowledge-exploration-service/



Comentários

Postar um comentário

Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.

Postagens mais visitadas deste blog

Connected Papers: Uma abordagem alternativa para revisão da literatura

Durante um projeto de pesquisa podemos encontrar um artigo que nos identificamos em termos de problema de pesquisa e também de solução. Então surge a vontade de saber como essa área de pesquisa se desenvolveu até chegar a esse ponto ou quais desdobramentos ocorreram a partir dessa solução proposta para identificar o estado da arte nesse tema. Podemos seguir duas abordagens:  realizar uma revisão sistemática usando palavras chaves que melhor caracterizam o tema em bibliotecas digitais de referência para encontrar artigos relacionados ou realizar snowballing ancorado nesse artigo que identificamos previamente, explorando os artigos citados (backward) ou os artigos que o citam (forward)  Mas a ferramenta Connected Papers propõe uma abordagem alternativa para essa busca. O problema inicial é dado um artigo de interesse, precisamos encontrar outros artigos relacionados de "certa forma". Find different methods and approaches to the same subject Track down the state of the art rese...

Knowledge Graph Embedding with Triple Context - Leitura de Abstract

  Jun Shi, Huan Gao, Guilin Qi, and Zhangquan Zhou. 2017. Knowledge Graph Embedding with Triple Context. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (CIKM '17). Association for Computing Machinery, New York, NY, USA, 2299–2302. https://doi.org/10.1145/3132847.3133119 ABSTRACT Knowledge graph embedding, which aims to represent entities and relations in vector spaces, has shown outstanding performance on a few knowledge graph completion tasks. Most existing methods are based on the assumption that a knowledge graph is a set of separate triples, ignoring rich graph features, i.e., structural information in the graph. In this paper, we take advantages of structures in knowledge graphs, especially local structures around a triple, which we refer to as triple context. We then propose a Triple-Context-based knowledge Embedding model (TCE). For each triple, two kinds of structure information are considered as its context in the graph; one is the out...

KnOD 2021

Beyond Facts: Online Discourse and Knowledge Graphs A preface to the proceedings of the 1st International Workshop on Knowledge Graphs for Online Discourse Analysis (KnOD 2021, co-located with TheWebConf’21) https://ceur-ws.org/Vol-2877/preface.pdf https://knod2021.wordpress.com/   ABSTRACT Expressing opinions and interacting with others on the Web has led to the production of an abundance of online discourse data, such as claims and viewpoints on controversial topics, their sources and contexts . This data constitutes a valuable source of insights for studies into misinformation spread, bias reinforcement, echo chambers or political agenda setting. While knowledge graphs promise to provide the key to a Web of structured information, they are mainly focused on facts without keeping track of the diversity, connection or temporal evolution of online discourse data. As opposed to facts, claims are inherently more complex. Their interpretation strongly depends on the context and a vari...