1) Extrair referencia da WD (não tem no conjunto de dados do kgtk)
Existem triplas específicas para representar as referência na WD: ?statement prov:wasDerivedFrom ?ref .
Baixei os dados de referência da WD em 24/01/2023 com o wdq
(base) root@vm096:/home/cloud-di# ls -laht /app/wdq/data/ref*
-rw-r--r-- 1 root root 7.1G Jan 25 01:12 /app/wdq/data/references.tsv
Converti para ntriples e depois para o kgtk
sed -i '/node1/d' /app/kgtk/data/WD5/wdq_references.tsv
sed 's/$/ ./' /app/kgtk/data/WD5/wdq_references.tsv > /app/kgtk/data/WD5/wdq_references.nt
nohup kgtk --debug import-ntriples --verbose --validate=True \
-i /app/kgtk/data/WD5/wdq_references.nt \
-o /app/kgtk/data/WD5/references.tsv.gz \
--reject-file /app/kgtk/data/WD5/reject-references.tsv.gz &
2) Estatísticas
Foram recuperadas 35,670,197 triplas que compõem 13,614,241 referências associadas a 31,601,286 statements. Nestas triplas foram usados 5080 propriedades distintas nas referências
Distribuição da quantidade de propriedades por referência (Top-10)
1 count 7,668,375
2 count 2,306,898
3 count 1,032,172
4 count 1,021,661
6 count 350,951
5 count 340,301
7 count 313,850
8 count 191,985
9 count 111,059
10 count 56,933
Distribuição da quantidade de referências por statement (Top-10)
1 count 28,749,323
2 count 2,179,920
3 count 435,840
4 count 123,299
5 count 41,972
6 count 30,862
7 count 13,235
8 count 10,187
9 count 5,217
10 count 3,403
3) Relação Reference X Statement: Um statement pode ter 0 ou mais referencias e Uma referência pode estar associada a 0 ou mais statements
Exemplo
SELECT ?statement ?ref
WHERE {
wd:Q109225717 ?prop ?statement .
?statement prov:wasDerivedFrom ?ref .
SERVICE wikibase:label {
bd:serviceParam wikibase:language "en"
}
}
ORDER BY ?ref
4) Existe uma constraint chamada property scope constraint (Q53869507) que define se uma propriedade pode ser usada como um predicado (em um statement) e/ou qualificador e/ou nas referencias - as reference (Q54828450). Porém existem propriedades que estão especificadas somente como predicados mas estão sendo usados como referências, por exemplo, main regulatory text (P92) nas referências do Republic of Crimea (Q15966495). Este é um exemplo de que não seria possível inferir o contexto de proveniência usando somente esta constraint.
5) Existem propriedades do tipo (P31) Wikidata property to indicate a source (Q18608359) que estão sendo usadas nos qualificadores e/ou não tem o escopo como referencia - as reference (Q54828450). Exemplo, described by source (P1343) é usada como qualificador. Este é mais um exemplo de que não seria possível inferir o contexto de proveniência usando somente o tipo (P31) da propriedade e nem considerando somente as referencias da WD.
Comentários
Postar um comentário
Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.