New OpenLink Virtuoso hosted Wikidata Knowledge Graph

WD de Dezembro de 2022

From: Kingsley Idehen <kidehen@openlinksw.com>
Subject: Announce: New OpenLink Virtuoso hosted Wikidata Knowledge Graph Release
Date: 11 January 2023 17:51:49 GMT-3
To: wikidata@lists.wikimedia.org, "public-lod@w3.org" <public-lod@w3.org>
Resent-From: public-lod@w3.org

All,

We are pleased to announce immediate availability of an new Virtuoso-hosted Wikidata instance based on the most recent datasets. This instance comprises 17 billion+ RDF triples.

Host Machine Info:

Item     Value
CPU         2x Intel(R) Xeon(R) CPU E5-2630 0 @ 2.30GHz
Cores    24
Memory    378 GB
SSD        4x Crucial M4 SSD 500 GB

Cloud related costs for a self-hosted variant, assuming:

    dedicated machine for 1 year without upfront costs
    128 GiB memory
    16 cores or more
    512GB SSD for the database
    3T outgoing internet traffic (based on our DBpedia statistics)

SPARQL Query and Full Text Search service endpoints:

    https://wikidata.demo.openlinksw.com/sparql -- SPARQL Query Services Endpoint

    https://wikidata.demo.openlinksw.com/fct -- Faceted Search & Browsing

Additional Information

    Loading the Wikidata dataset 2022/12 into Virtuoso Open Source - Announcements - OpenLink Software Community (openlinksw.com)

=============================================================

Rodei a seguinte query para os "disputed by" neste endpoint

SELECT count(distinct ?statement)
WHERE
{
?item ?predicate ?statement.
?item ?predicate ?value.
?statement pq:P1310 ?qualivalue
}

Retornou 1926 (referente ao dump de dez/22).No WDQS retornou 1936 (referente a hoje).E no dataset do kgtk temos 1577(referente a junho/22)

A query dos multiples values pode ser executada configurando o timeout para 120000

SELECT distinct ?item ?predicate ?value1 ?value2
WHERE
{
# ?item wdt:P31 wd:Q5.
?item ?predicate ?value1.
?item ?predicate ?value2.
FILTER (?value1 < ?value2).
FILTER (?predicate not in (schema:description, rdfs:label))
}

Mas eu tentei incluir mais alguns filtros para remover as triplas referentes a reificação e começou a dar timeout

SELECT distinct ?item ?predicate ?value1 ?value2
WHERE
{
# ?item wdt:P31 wd:Q5.
?item ?predicate ?value1.
?item ?predicate ?value2.
FILTER (?value1 < ?value2).
FILTER (strstarts(str(?item), 'http://www.wikidata.org/entity/Q')).
FILTER (str(?predicate) not in ('http://www.w3.org/1999/02/22-rdf-syntax-ns#type'))
}

Consegui rodar a query abaixo para verificar os valores dos top-10 qualificadores mais usados para o conjunto completo

SELECT ?qualifier count(distinct ?statement) as ?c_quali
WHERE
{
?statement ?qualifier ?qualivalue.
FILTER (?qualifier in (pq:P407, pq:P577, pq:P304, pq:P478, pq:P291, pq:P2093, pq:P1476, pq:P813, pq:P1343, pq:P958))
}

Mas achei algumas quantidades muito diferentes. Será que a remoção de artigos científicos justificaria esta diferença?

Virtuoso		kgtk
Qualifier	Count	Qualifier	Count
http://www.wikidata.org/prop/qualifier/P407	1410475	P407	1242876
http://www.wikidata.org/prop/qualifier/P577	1003312	P577	537468
http://www.wikidata.org/prop/qualifier/P304	841445	P304	441380
http://www.wikidata.org/prop/qualifier/P478	513899	P478	187030
http://www.wikidata.org/prop/qualifier/P2093	370076	P2093	98772
http://www.wikidata.org/prop/qualifier/P291	113265	P291	105546
http://www.wikidata.org/prop/qualifier/P958	108660	P958	45364
http://www.wikidata.org/prop/qualifier/P1476	98247	P1476	92759
http://www.wikidata.org/prop/qualifier/P813	79584	P813	68490
http://www.wikidata.org/prop/qualifier/P1343	36831	P1343	50777

Pesquisa de Doutorado da Veronica

Pesquisar este blog

New OpenLink Virtuoso hosted Wikidata Knowledge Graph

Marcadores

Comentários

Postar um comentário

Postagens mais visitadas deste blog

Aprendizado de Máquina Relacional

Connected Papers: Uma abordagem alternativa para revisão da literatura

Cores convida - Minicurso: Aprendizado de máquina e inferência em Grafos de Conhecimento