Pular para o conteúdo principal

Postagens

Scaling Wikidata Query Service - WikidataCon 2021

Scaling Wikidata Query Service - unlimited access to all the world’s knowledge for everyone is hard Speaker(s): Mike Pham, Guillaume Lederrey, Adam Shorland Video: https://www.youtube.com/watch?v=oV4qelj9fxM WDQS = Wikidata Query Service, the largest public SPARQL interface to Wikidata Blazegraph -> 11 public servers in 2 data centers Ref out/2021: 95 million Wikidata entities with 13.2 triples "WDQS is hitting allocator limit on Blazegraph" - https://phabricator.wikimedia.org/T213210   Blazegraph não tem suporte para fragmentação (sharding), são necessários cada vez mais discos maiores. O banco de dados se aproximou - e em alguns servidores, ultrapassou - o limite de alocação permitido no Blazegraph. A escalabilidade é exclusivamente vertical. O Blazegraph não é mais mantido ativamente . From the chatbox and  https://github.com/blazegraph/database , https://en.wikipedia.org/wiki/Blazegraph :  It was developed by a company called SYSTAP which was acquired or the de...

Deep Learning na prática com TensorFlow - Ygor Canalli (Doutorando COPPE/UFRJ)

Vídeo->https://youtu.be/KXg-81FhYVc Redes Neurais: em teoria tem forma de grafo k-partido, multi layer percepton (MLP) só tem ligações com outras camadas (não tem ligações com neurônios da mesma camada) No exemplo tem uma camada de entrada, uma e saída e uma camada oculta (hidden). Entrada com cinco neurônios (cada neurônio recebe um número real de entrada), dois neurônios de saída (um para cada classe, classificação binária) e 8 na camada intermediária. Na prática, é Algebra Linear. Cada neurônio da camada k é o somatório dos pesos x entrada de cada neurônio da camada k-1 adicionado ao bias. É uma combinação linear Ni(k) = soma (Nj(k-1) x Wj(k-1)) + Bi(k) Funções não lineares (ativação): Sigmoid; Tangente hiperbólica (tanh) e ReLU (retificação) Tensor Flow / Keras Programação em GPU é excelente quando se trata de uma única operação pq tem vários "operários" mas é complexo (linguagem CUDA) Mas o colab da Google só tem GPU nas assinaturas pagas. Na classificação binária dev...

Acompanhamento semanal - Checkpoint III

23/09/2021 a 29/09/2021 23/09 - Aula DL (tarde), Aula BD Não Convencional (noite), Revisão vídeos aulas BD Search 24/09 - WTDBD, Lattes2WD 25/09 - WTDBD, 26/09 - Treino WTDBD e SBBD Full com Luciana 27/09 - Aula BD tool, 28/09 - Vídeo para o WTDBD 29/09 - Aula BD Search (tarde),  30/09/2021 a 21/10/2021 04/10 a 08/10 - SBBD2021 11/10 a 15/10 - Recesso PUC (Feriados) 13/10 - Reificação & Contexto, Survey KG ACM 14/10 - Reunião com Sérgio (avaliar o foco de pesquisa em em GraphDB) 15/10 a 20/10 - Reificação & Contexto, Survey KG ACM, NLIDB x Keyword Search 18/10 - Reunião Iniciação Científica busc@nima com graph embeddings 20/10 - Reunião BioBD 21/10 - Aula BDNC Continuar Graph Representation Learning Book - cap 5 Livro DL+Search capítulo 4

Creating and Querying Personalized Versions of Wikidata on a Laptop - Leitura de Artigo

Creating and Querying Personalized Versions of Wikidata on a Laptop Hans Chalupsky, Pedro Szekely, Filip Ilievski, Daniel Garijo, Kartik Shenoy ABSTRACT: Application developers today have three choices for exploiting the knowledge present in Wikidata: they can download the Wikidata dumps in JSON or RDF format, they can use the Wikidata API to get data about individual entities, or they can use the Wikidata SPARQL endpoint. None of these methods can support complex, yet common, query use cases, such as retrieval of large amounts of data or aggregations over large fractions of Wikidata. This paper introduces KGTK Kypher, a query language and processor that allows users to create personalized variants of Wikidata on a laptop. We present several use cases that illustrate the types of analyses that Kypher enables users to run on the full Wikidata KG on a laptop, combining data from external resources such as DBpedia. The Kypher queries for...

BabelNet & World Atlas - Estado da Arte KG

A huge multilingual knowledge graph Knowledge graphs are the 21st century counterpart of dictionaries in previous centuries. They organize knowledge into a coherent network of meanings and they enable Artificial Intelligence applications which exploit this knowledge to perform text understanding. WordAtlas is the next-generation multilingual knowledge graph. It greatly enhances BabelNet®, the award-winning multilingual semantic network, thanks to the know-how of years of research in computational linguistics in Prof. Roberto Navigli’s lab at the Sapienza University of Rome. What makes WordAtlas special is its linkage between concepts and words in hundreds of languages: WordAtlas provides millions of lexicalizations for each language, from common nouns, adjectives, verbs and adverbs, to hundreds of thousands of technical terms and millions of named entities, such as people, locations, organizations and products. Knowledge graph APIs WordAtlas comes with high-performance API for Python a...

Consulta sobre Semântica ao professor Altigran - em 2020

S: A ideia é fazer um buscador em base "fechada" contemplando lattes dos profs PUC e disciplinas que ministram. UM pedido do reitor que eu resolvi ajudar, para facilitar quem desejar procurar na PUC-Rio quem mexe com coisas de meio-ambiente.  Inicialmente o pessoal do NIMA passou algumas palavras-chave de termos ligados com meio-ambiente mas obviamente é um conjunto limitado. Há sinonimos, há contextos, etc. Se eu quiser pesquisar colocando na caixa de busca "mobilidade urbana" por exemplo, eu gostaria de apontar, entre outros, ao meu colega da Eng Mecanica que mexe com combustíveis menos poluentes. Ou ainda, em mim mesmo que faço pesquisa com onibus inteligentes com dispositivos IoT para coleta de poluição urbana. Mas como permitir fazer tais associações semanticas que nós humanos fazemos "facilmente"? Outro problema é li...

SBBD 2021 - Full, Short Papers e outros - Anotações de apresentações

Similarity Search and Correlation-Based Exploratory Analysis in EHRs: A Case Study with COVID-19 Databases Video https://youtu.be/I2Dr9i8uk0w?t=3242 ERH - Eletronic Health Records Consultas por similaridade: Dados os registro de dois pacientes, o sistema usa uma função de similaridade para comparar os registros ... não detalhou essa parte na apresentação Interpreting BERT-based stance classification: a case study about the Brazilian COVID vaccination Video https://youtu.be/TdzBkWGW3Cg?t=2803 BERT tem conseguido bons resultados na classificação de posições (polarizadas) porém modelos baseados em transformers não são fáceis de interpretar Mecanismos de atenção permitem que todos os tokens se relacionarem uns com os outros  Pró-Vacinas x Anti-vacinas x Anti-sinovaxxers  Usou BERTimbau: primeira fase é ajuste fino do modelo Atenção Absoluta, Relativa e Proporcional para cada palavra: peso da atenção O baseline é o TF-IDF THE NEW DBFICATION OF ML/AI UC San Diego Data sources -...

SBBD 2021 - Minicurso 01: Ciência de Dados com Reprodutibilidade usando Notebook Jupyter

Parte 1 - https://youtu.be/XiCplPUW0tM Parte 2 - https://youtu.be/66_FRyi7iBI Material - https://linktr.ee/uffjupyter Ciência de Dados:  Dados >> transformação >> Informação / Conhecimento Engenharia de Dados para tratar a entrada Aprendizado de Máquina, Mineração de Dados, Estatísticas, Visualização para transformação e insights Ciclo de Vida de Ciência de Dados Reprodutibilidade Jupyter Notebook: Programação Literária Interativa composto de Texto (Documentação), Trecho de Código e Saída Exemplos de Data Frames (tabelas) ... df.describe() exibe estatísticas interessantes, comando para histograma Exemplos de Gráficos com seaborn.pydata.org/examples ... é só copiar e colar  JupyterLab -> https://jupyterlab.readthedocs.io/en/stable/getting_started/installation.html pandas - Panel Data formato tabular (dataframe) e séries temporáis (array de uma dimensão) no dataframe cada coluna é do tipo série e tem um tipo de dados, criado de modo integrado um índice (nome ou...