Pular para o conteúdo principal

Baixar dados da Wikidata usando o serviço WDQS e o pacote wdq

GitHub -> https://github.com/nichtich/wdq#readme 

Passos

(pgm python de exemplo pr_list.py)

import os
import datetime
import time

Gera a query base (e testa no WDQS)

query_base = """PREFIX prov: <http://www.w3.org/ns/prov#>
PREFIX wikibase: <http://wikiba.se/ontology#>

SELECT (?statement as ?node1) (?pr_pred as ?label) (?ref as ?node2)
WHERE {
   ?ref ?pr_pred ?pr_obj .
   ?statement prov:wasDerivedFrom ?ref .
}"""

f1 = open("/home/cloud-di/pr_list.txt", 'r', encoding="utf8")
pr_list = f1.readlines()
f2 = open("/home/cloud-di/pr_list_v2.sh", mode="w", encoding="utf-8")

for pr_item in pr_list:

Substitui variável por constante para evitar problema de timeout

    pr_pred = pr_item.replace("http://www.wikidata.org/prop/reference/", "pr:").strip('"\n' + '\n')

    query_exec = query_base.replace ("?pr_pred", pr_pred)
#    print(query_exec)

    query_file = "/app/wdq/sparql/"+pr_pred+".sparql"       
    f3 = open(query_file, mode="w", encoding="utf-8")
    f3.write(query_exec)

Gera o script com os comando do wdq e a query final

    output_file = "/app/wdq/data/references.tsv"
    cmd = "/app/wdq/wdq --format tsv --ignore --query " + query_file + " >> " + output_file
    f2.write(cmd+"\n")
       
    f3.close()
       
f1.close()
f2.close()

Executa o script com os comando do wdq e a query final

Comentários

  1. Exemplo do comando
    /app/wdq/wdq --format tsv --ignore --query /app/wdq/sparql/pr:P10006.sparql >> /app/wdq/data/references.tsv

    ResponderExcluir

Postar um comentário

Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.

Postagens mais visitadas deste blog

Connected Papers: Uma abordagem alternativa para revisão da literatura

Durante um projeto de pesquisa podemos encontrar um artigo que nos identificamos em termos de problema de pesquisa e também de solução. Então surge a vontade de saber como essa área de pesquisa se desenvolveu até chegar a esse ponto ou quais desdobramentos ocorreram a partir dessa solução proposta para identificar o estado da arte nesse tema. Podemos seguir duas abordagens:  realizar uma revisão sistemática usando palavras chaves que melhor caracterizam o tema em bibliotecas digitais de referência para encontrar artigos relacionados ou realizar snowballing ancorado nesse artigo que identificamos previamente, explorando os artigos citados (backward) ou os artigos que o citam (forward)  Mas a ferramenta Connected Papers propõe uma abordagem alternativa para essa busca. O problema inicial é dado um artigo de interesse, precisamos encontrar outros artigos relacionados de "certa forma". Find different methods and approaches to the same subject Track down the state of the art rese...

Aula 12: WordNet | Introdução à Linguagem de Programação Python *** com NLTK

 Fonte -> https://youtu.be/0OCq31jQ9E4 A WordNet do Brasil -> http://www.nilc.icmc.usp.br/wordnetbr/ NLTK  synsets = dada uma palavra acha todos os significados, pode informar a língua e a classe gramatical da palavra (substantivo, verbo, advérbio) from nltk.corpus import wordnet as wn wordnet.synset(xxxxxx).definition() = descrição do significado É possível extrair hipernimia, hiponimia, antonimos e os lemas (diferentes palavras/expressões com o mesmo significado) formando uma REDE LEXICAL. Com isso é possível calcular a distância entre 2 synset dentro do grafo.  Veja trecho de código abaixo: texto = 'útil' print('NOUN:', wordnet.synsets(texto, lang='por', pos=wordnet.NOUN)) texto = 'útil' print('ADJ:', wordnet.synsets(texto, lang='por', pos=wordnet.ADJ)) print(wordnet.synset('handy.s.01').definition()) texto = 'computador' for synset in wn.synsets(texto, lang='por', pos=wn.NOUN):     print('DEF:',s...

Festival do Conhecimento - UFRJ - Ciência das Redes x Teoria dos Grafos: Uma Nova Esperança

Data 24/07 - 17h Ciência das Redes x Teoria dos Grafos: Uma Nova Esperança Link https://youtu.be/3I8_vHKt9T8 Professores Daniel Ratton Figueiredo , Fábio Botler (COPPE / PESC) Teoria de Grafos (TG) e Problemas Combinatórios A TG começou com jogos e passatempos como um ferramental matemático fazem 200 anos (século XVIII). Em 1878 o termo grafo foi citado pela primeira vez em um artigo da Nature sobre um estudo da área de química (detecção de isômeros de cadeias de carbono, ou seja, identificar se dois grafos são isomorfos) Grafo é uma abstração (modelagem) para muitas aplicações, tem estreita relação com teoria da computação e é um estudo de combinatória com estrutura. São problemas em sua maioria NP-Difíceis para tratar questões como Decomposição de grafos (identificar estruturas indivisíveis), Circuitos Hamiltonianos* (caixeiro viajante) e Coloração de Grafos. * Um caminho hamiltoniano é um caminho que permite passar por todos os vértices de um grafo G, não repetindo ne...