WD References e Contexto de Proveniência

1) Extrair referencia da WD (não tem no conjunto de dados do kgtk)

Existem triplas específicas para representar as referência na WD: ?statement prov:wasDerivedFrom ?ref .

Baixei os dados de referência da WD em 24/01/2023 com o wdq

(base) root@vm096:/home/cloud-di# ls -laht /app/wdq/data/ref*
-rw-r--r-- 1 root root 7.1G Jan 25 01:12 /app/wdq/data/references.tsv

Converti para ntriples e depois para o kgtk

sed -i '/node1/d' /app/kgtk/data/WD5/wdq_references.tsv
sed 's/$/ ./' /app/kgtk/data/WD5/wdq_references.tsv > /app/kgtk/data/WD5/wdq_references.nt

nohup kgtk --debug import-ntriples --verbose --validate=True \
     -i /app/kgtk/data/WD5/wdq_references.nt \
     -o /app/kgtk/data/WD5/references.tsv.gz \
   --reject-file /app/kgtk/data/WD5/reject-references.tsv.gz &

2) Estatísticas

Foram recuperadas 35,670,197 triplas que compõem 13,614,241 referências associadas a 31,601,286 statements. Nestas triplas foram usados 5080 propriedades distintas nas referências

Distribuição da quantidade de propriedades por referência (Top-10)

1   count   7,668,375
2   count   2,306,898
3   count   1,032,172
4   count   1,021,661
6   count   350,951
5   count   340,301
7   count   313,850
8   count   191,985
9   count   111,059
10   count   56,933

Distribuição da quantidade de referências por statement (Top-10)

1    count    28,749,323
2    count    2,179,920
3    count    435,840
4    count    123,299
5    count    41,972
6    count    30,862
7    count    13,235
8    count    10,187
9    count    5,217
10    count    3,403

3) Relação Reference X Statement: Um statement pode ter 0 ou mais referencias e Uma referência pode estar associada a 0 ou mais statements

Exemplo

SELECT ?statement ?ref
WHERE {

   wd:Q109225717 ?prop ?statement .
   ?statement prov:wasDerivedFrom ?ref .

   SERVICE wikibase:label {
    bd:serviceParam wikibase:language "en"
   }
}
ORDER BY ?ref

4) Existe uma constraint chamada property scope constraint (Q53869507) que define se uma propriedade pode ser usada como um predicado (em um statement) e/ou qualificador e/ou nas referencias - as reference (Q54828450). Porém existem propriedades que estão especificadas somente como predicados mas estão sendo usados como referências, por exemplo, main regulatory text (P92) nas referências do Republic of Crimea (Q15966495). Este é um exemplo de que não seria possível inferir o contexto de proveniência usando somente esta constraint.

5) Existem propriedades do tipo (P31) Wikidata property to indicate a source (Q18608359) que estão sendo usadas nos qualificadores e/ou não tem o escopo como referencia - as reference (Q54828450). Exemplo, described by source (P1343) é usada como qualificador. Este é mais um exemplo de que não seria possível inferir o contexto de proveniência usando somente o tipo (P31) da propriedade e nem considerando somente as referencias da WD.

Pesquisa de Doutorado da Veronica

Pesquisar este blog

WD References e Contexto de Proveniência

Marcadores

Comentários

Postar um comentário

Postagens mais visitadas deste blog

Aprendizado de Máquina Relacional

Connected Papers: Uma abordagem alternativa para revisão da literatura

Knowledge graphs: Introduction, history, and perspectives - Leitura de Artigo