Pular para o conteúdo principal

Postagens

Mostrando postagens de junho, 2021

Embedding-based Query Language Models - Leitura de Artigo

Use of word embeddings to enhance the accuracy of query language models in the ad-hoc retrieval task. To this end, we propose to use word embeddings to incorporate and weight terms that do not occur in the query, but are semantically related to the query terms. Word2vec and GloVe are examples of successful implementations of word embeddings that respecively use neural networks and matrix factorization to learn embedding vectors. Vocabulary mismatch problem, i.e., the mismatch of different vocabulary terms with the same concept.  This is a fundamental IR problem, since users often use different words to describe a concept in the queries than those that authors of documents use to describe the same concept. In addition to the terms that appear in the query, we incorporate and weight the words that do not occur in the query, but are semantically similar to the query terms. To do so, we propose two query expansion models with different simplifying assumptions.  A well-known and effective t

Graph embedding techniques, applications, and performance: A survey - Leitura de Artigo

Graph embedding An embedding therefore maps each node to a low-dimensional feature vector and tries to preserve the connection strengths between vertices. The idea for embedding was to keep connected nodes closer to each other in the vector space. Challenges 1) features to be preserved: A “good” vector representation of nodes should preserve the structure of the graph and the connection between individual nodes. 2) Scalability 3) Dimensionality Edge weights sij are also called first-order proximities between nodes vi and vj, since they are the first and foremost measures of similarity between two nodes. Let si = [si1, ..., sin] denote the first-order proximity between vi and other nodes. Then, second-order proximity between vi and vj is determined by the similarity of si and sj. Second-order proximity compares the neighborhood of two nodes and treats them as similar if they have a similar neighborhood. Categories of embeddings generation approaches (1) Factorization based, (2) Random

ONTOBRAS 2020 - Panel "The next decade of research on ontologies"

Vídeo -> https://youtu.be/anfL14P9Q4A Moderated by Giancarlo Guizzardi (UniBZ, Italy, NEMO/UFES).  Panelists Cassia Trojahn (IRIT, France), Fernanda Baião (PUC-RIO), Maria Luiza Campos (DCC/URFJ), Renata Vieira (Universidade de Évora, Portugal) and Valeria de Paiva (Santa Clara University and Topos Intitute, USA). Cassia Ontology matching & heterogeneity (OAEI) Web Semântica (humanos e máquinas) Linked Open Data: datas as instances of ontologies linked across knowledge bases Princípios FAIR, User in the Loop, Multilingual, alinhar ontologias de domínio com ontologias de top level Utilizar o conhecimento para validar as features para aprendizagem e reduzir o viés (pq todas categorias estariam representadas) Fernanda Era Big Data, Perspectiva Cognitiva, Digitalização e Sociabilização Ciclo de Vida em Ciência de Dados e ciclo de descoberta de conhecimento em BD (tem ETL, KDD) Trabalhos com foco em semântica mais rasa mesmo com ML. Ontologias de fundamentação são sistemas axiomátic

Webinar - Neo4j: Knowledge Graphs and Graph Analytics for Robust, Responsive Supply Chains

Slides -> https://www.slideshare.net/secret/iUn2TuZzZjKqVr Vídeo -> https://go.neo4j.com/neo4j-knowledge-graphs-and-graph-analytics-for-robust-responsive-supply-chains-lp.html A knowledge graph is a interconnected dataset enriched with semantics so we can reason about the underlying data and use it for complex decision making Data + Graph (context) + KG (semantics) Semantics - Controlled Vocabulary Synonyms Rings > Taxonomy > Thesaurus > Ontology Use cases: Suplly chain optimization (route), logistics, bill of material managment Graph are good in traversing hierarquies Comunity detection for graph partitioning Betweenness centrality to find critical bottlenecks Neo4J GDS Library: 60+ algorithms

Redes neurais e modelos de linguagem - SIMILARIDADE

  Calculating Document Similarities using BERT, word2vec, and other models Como medir similaridade de pares de documentos de modo matemático permitindo comparabilidade entre os níveis de similaridade?    Função de Similaridade Distância / Semelhança do cosseno - É o cosseno do ângulo entre dois vetores, que nos dá a distância angular entre os vetores. O cosseno é 1 em teta = 0 e -1 em teta = 180, o que significa que, para dois vetores sobrepostos, o cosseno será o mais alto e o mais baixo para dois vetores exatamente opostos. Por esse motivo, é chamada de similaridade. Você pode considerar 1 - cosseno como distância.  Distância Euclidiana   Distância de Jaccard - Índice de Jaccard é usado para calcular a similaridade entre dois conjuntos finitos. A distância de Jaccard pode ser considerada como 1 - Índice de Jaccard. Embeddings Embeddings são representações vetoriais de texto em que palavras ou frases com significado ou contexto semelhantes têm representações semelhantes. Tf-idf - T

Lattes2Wikidata - Mapeamento de Elementos e Atributos - Grupo DADOS-GERAIS

Considerando os seguintes levantamentos: Estrutura de Elementos do Lattes Atributos e Domínios do Lattes Na tabela abaixo está a primeira parte do mapeamento de atributos de elementos que pertencem ao grupo Dados Gerais (nível 1). É importante ressaltar que: 1) 79 atributos não tiverem uma propriedade PNode identificada. Nesses casos será usado o próprio nome do atributo na conversão 2) alguns atributos irão gerar mais de uma aresta uma vez que serão convertidos para o modelo de hiper relacional (com uso de qualificadores) 3) Usei o template abaixo para validar se a escolha das propriedades estava coerente https://www.wikidata.org/wiki/Template:Person_properties O próximo passo será escrever o programa python para transformar XML em KGTK dessa parte dos elementos e atributos.

CS 520 Knowledge Graphs - Prof Vinay K. Chaudhri

Data Models, Knowledge Acquisition, Inference and Applications Department of Computer Science, Stanford University, Spring 2021  What is a Knowledge Graph? -> https://youtu.be/FRcF6sh8sI0 ML & KG: incorporar conhecimento, representar o conhecimento e explicação o que foi aprendido Integração de dados sem esquema a priori, os mapeamentos podem ser feitos na abordagem "pay as you go"  Tem explicação para word embeddings com exemplo e node / graph embeddings !!! >> Converter representação simbólica em números (Vetores), por volta de 200 dimensões após etapa de redução, um caminho do grafo pode ser equiparado a uma sentença de texto (cada palavra é um nó e estão ligadas em sequencia como aparecem na sentença) What are some Graph Data Models? -> https://youtu.be/fJLCCmk0-ok RDF URI só permite ASCII caracteres, IRI pode ter qq tipo de caracter(Universal CharacterSet)  named graphs: cada grafo tem o seu IRI Reificação para suportar atributos nas arestas como por ex

KGTK Tutorial @ ISWC'21 - 24 de Outubro

Links  https://usc-isi-i2.github.io/kgtk-tutorial-iswc-2021/ https://iswc2021.semanticweb.org/tutorial-schedule   Programa Introduction to the KGs and available KG toolkits Basic KGTK Introduction to KGTK file format and basic commands Hands-on: importing (Wikidata, DBpedia), filtering, combining graphs, deployment, exporting Advanced KGTK Introduction to KGTK advanced functionalities Hands-on: Kypher, embeddings, centrality, paths Use cases part I Use case 1: Building a Commonsense Knowledge Graph Use case 2: Analysis of all 300+ dumps of Wikidata      Use cases part II & Discussion Use case 3: Enriching Wikidata with Excel Spreadsheets & Web Tables Wrap-up and discussion

Jupyter Notebook - Embeddings I

KGTK + Embeddings slides Playing with the embeddings ¶ What can we do with the embeddings now that we have computed them? For applications like query answering or entity resolution, we need a representation where similar concepts have similar embeddings. Let's perform a small trial. We will use the customary metric cosine similarity to measure vector similarities. We use invoke an existing function from the sklearn package in Python: In [4]: from sklearn.metrics.pairwise import cosine_similarity Let's first load all embeddings into a key-value dictionary: In [5]: embeddings = {} with open ( 'C: \\ Users \\ versa \\ OneDrive - puc-rio.br \\ Vika \\ NIMA \\ kgtk \\ lattes-g_emb-TransE-author.tsv' , 'r' ) as f : header = next ( f ) for line in f : node1 , label , embedding = line . split () embeddings [ node1 ] = embedding . split ( ',' ) Com