KGTK - Testes com 4 CVs Lattes completos

1) Baixei 4 CVs Lattes: eu, Sérgio, Fernanda e Hermman

2) Converter de XML para RDF (xml2rdf3.xsl) - Sem semântica

xsltproc xml2rdf3.xsl 5068302552861597.xml > 5068302552861597.rdf3
xsltproc xml2rdf3.xsl 8164403687403639.xml > 8164403687403639.rdf3
xsltproc xml2rdf3.xsl 6075905438020841.xml > 6075905438020841.rdf3
xsltproc xml2rdf3.xsl 0544469422765109.xml > 0544469422765109.rdf3

3) Converter para NTriples (https://librdf.org/raptor/INSTALL.html)

../raptor2-2.0.15/utils/rapper -i rdfxml -o ntriples 5068302552861597.rdf3 > 5068302552861597.nt
../raptor2-2.0.15/utils/rapper -i rdfxml -o ntriples 8164403687403639.rdf3 > 8164403687403639.nt
../raptor2-2.0.15/utils/rapper -i rdfxml -o ntriples 6075905438020841.rdf3 > 6075905438020841.nt
../raptor2-2.0.15/utils/rapper -i rdfxml -o ntriples 0544469422765109.rdf3 > 0544469422765109.nt

4) Converter para KGTK

kgtk import-ntriples --namespace-file namespace-file.tsv -i 5068302552861597.nt 8164403687403639.nt 6075905438020841.nt 0544469422765109.nt -o graph-lattes.tsv --reject-file graph-lattes.err --verify-id-unique true --validate

5) Ajustes para executar as análises

kgtk deduplicate -i graph-lattes.tsv / filter --regex --match-type search --invert -p ";n2:ORDEM*;" --reject-file graph-rej-ordem.tsv / filter --regex --match-type search --invert -p ";n2:SEQUENCIA*;" --reject-file graph-rej-seq.tsv / add-id -o graph-lattes3.tsv

6) Estatísticas do grafo resultante

kgtk graph_statistics --log graph_stat_lattes.log --pagerank --statistics-only --degrees --hits -v -i graph-lattes3.tsv -o graph-stat-lattes3.tsv

18416 nodes and 57881 edges

###Top relations:

Atributos dos elementos (nó elemento -> n2:* -> Literal)
n2:NOME-PARA-CITACAO    3159
n2:AUTORES    2811
n2:NOME-COMPLETO-DO-AUTOR    2811
n2:NRO-ID-CNPQ    1525
n2:NATUREZA    1475
n2:IDIOMA    1372
n2:FLAG-RELEVANCIA    1200

Hierarquia dos elementos (nó pai -> n3:* -> nó filho)
n3:_1    1737
n3:_2    1737
n3:_3    1502

degree stats: mean=6.285947

Entender PageRank e HITS aqui

###PageRank
Max pageranks
378   "NAO"   0.014877
311   "CIENCIAS_EXATAS_E_DA_TERRA"   0.009812
1015   "Sergio Lifschitz"   0.007691
379   "Brasil"   0.005657
588   "Fernanda Araujo Bai\u00E3o"   0.005468

Aqui os atributos acabam não tendo uma semântica para interpretação coerente .... Talvez filtrar somente a hierarquia?

###HITS
HITS hubs
378    "NAO"    0.869057
379    "Brasil"    0.304247
661    "Portugu\u00EAs"    0.193403
629    "Ingl\u00EAs"    0.191276
631    "COMPLETO"    0.180826

HITS auth
18086    n1:8164403687403639.rdf3#CURRICULO-VITAE/PRODUCAO-TECNICA/SOFTWARE_7/DADOS-BASICOS-DO-SOFTWARE    0.039980
17950    n1:8164403687403639.rdf3#CURRICULO-VITAE/PRODUCAO-TECNICA/SOFTWARE_11/DADOS-BASICOS-DO-SOFTWARE    0.039979
17961    n1:8164403687403639.rdf3#CURRICULO-VITAE/PRODUCAO-TECNICA/SOFTWARE_12/DADOS-BASICOS-DO-SOFTWARE    0.039975
17938    n1:8164403687403639.rdf3#CURRICULO-VITAE/PRODUCAO-TECNICA/SOFTWARE_10/DADOS-BASICOS-DO-SOFTWARE    0.039958
18008    n1:8164403687403639.rdf3#CURRICULO-VITAE/PRODUCAO-TECNICA/SOFTWARE_16/DADOS-BASICOS-DO-SOFTWARE    0.039958

HITS: baseado no conceito de hub e autoridades, que caracteriza a importância de vértices tipo hub dado a quantidade de vértices tipo autoridades para a qual eles apontam.

7) Componentes conexas

kgtk connected-components -i graph-lattes3.tsv -o graph-conn-lattes3.tsv

kgtk graph_statistics --log graph_stat_conn.log --pagerank --statistics-only --degrees --hits -v -i graph-conn-lattes3.tsv -o graph-conn-stat.tsv

Praticamente todos os nós / arestas pertencem a uma única componente conexa (entre 4) CLUScc3ygQYesL1xAu+Z0huJhQ==

8) Caminhos entre nós

kgtk paths --path-file pairs.tsv --path-source source --path-target target -i graph-lattes3.tsv -o graph-lattes3-path.tsv --statistics-only
~~kgtk paths --path-file pairs.tsv --path-source source --path-target target -i graph-lattes3.tsv -o graph-lattes3-path-undirected.tsv --statistics-only --undirected~~

Não existem caminhos entre o nó do lattes de um pesquisador para o nó do lattes de outro pesquisador, considerando o grafo direcionado

kgtk reachable-nodes -i graph-lattes3.tsv --root n1:5068302552861597.rdf3 -o graph-5068302552861597-reach-bfs.tsv --show-properties True --breadth-first True
kgtk reachable-nodes -i graph-lattes3.tsv --root n1:5068302552861597.rdf3 -o graph-5068302552861597-reach-nobfs-undirected.tsv --show-properties True --undirected

Todos os nós do grafo, formados pelos 4 lattes, são alcancáveis quando o grafo é não direcionado mas somente os nós gerados pelo próprio lattes são alcancáveis quando é direcionável

Comentários

Veronica dos Santos24 de maio de 2021 às 12:02
Mesmo que eu incluísse o lattes de um pesquisador não brasileiro, de outra universidade, de outra cidade/estado, outra área de especialidade, que não tenha publicações em comum com os 4 selecionados e nem tenha participado dos mesmos eventos, ainda poderiam estar na mesma componente conexa por atributos com valor "NAO"
ResponderExcluir
Respostas

Adicionar comentário

Postar um comentário

Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.

Pesquisa de Doutorado da Veronica

Pesquisar este blog