conda activate kgtk-dev
pip install "git+https://github.com/usc-isi-i2/kgtk.git@dev"
kgtk import-ntriples -i /home/cloud-di/lattes-data/input/lattes-prof-mai21.nt -o /home/cloud-di/kgtk/lattes-prof.tsv --reject-file /home/cloud-di/kgtk/lattes-prof.err --namespace-file prefix.tsv
Repeti alguns testes para verificar se houveram outros impactos
kgtk validate -i lattes-prof.tsv
kgtk deduplicate -i lattes-prof.tsv -o lattes-prof2.tsv -v > lattes-dpk.log
Duplicidades
Read 5.709.445 records, wrote 5.662.076 records. ... aproximadamente 50 mil removidas
kgtk graph_statistics --log graph_stat_prof2.log --pagerank --statistics-only --degrees --hits -v -i lattes-prof2.tsv -o lattes-stat.tsv
kgtk sort -c node1 -i lattes-stat.tsv -o lattes-stat-sorted.tsv
Comentários sobre o log
It has 2002162 nodes and 5662076 edges... quase 3x, próximo a média do grau
in degree stats: mean=2.827981, std=0.340190, max=1
out degree stats: mean=2.827981, std=0.008076, max=1
total degree stats: mean=5.655962, std=0.340278, max=1
###Top relations: ... Não mudou nada
###PageRank... pequenas diferenças no valor do PageRank
Max pageranks
710 foaf:Person 0.067446
41 cnpq:grandeArea 0.011351
30 rdf:nil 0.010438
39 cnpq:Area 0.007154
6 cnpq:subArea 0.005438
###HITS .... HITS hubs e HITS auth sem alterações
Comentários
Postar um comentário
Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.