1) Baixei 4 CVs Lattes: eu, Sérgio, Fernanda e Hermman
2) Converter de XML para RDF (xml2rdf3.xsl) - Sem semântica
xsltproc xml2rdf3.xsl 5068302552861597.xml > 5068302552861597.rdf3
xsltproc xml2rdf3.xsl 8164403687403639.xml > 8164403687403639.rdf3
xsltproc xml2rdf3.xsl 6075905438020841.xml > 6075905438020841.rdf3
xsltproc xml2rdf3.xsl 0544469422765109.xml > 0544469422765109.rdf3
3) Converter para NTriples (https://librdf.org/raptor/INSTALL.html)
../raptor2-2.0.15/utils/rapper -i rdfxml -o ntriples 5068302552861597.rdf3 > 5068302552861597.nt
../raptor2-2.0.15/utils/rapper -i rdfxml -o ntriples 8164403687403639.rdf3 > 8164403687403639.nt
../raptor2-2.0.15/utils/rapper -i rdfxml -o ntriples 6075905438020841.rdf3 > 6075905438020841.nt
../raptor2-2.0.15/utils/rapper -i rdfxml -o ntriples 0544469422765109.rdf3 > 0544469422765109.nt
4) Converter para KGTK
5) Ajustes para executar as análises
6) Estatísticas do grafo resultante
kgtk graph_statistics --log graph_stat_lattes.log --pagerank --statistics-only --degrees --hits -v -i graph-lattes3.tsv -o graph-stat-lattes3.tsv
18416 nodes and 57881 edges
###Top relations:
Atributos dos elementos (nó elemento -> n2:* -> Literal)
n2:NOME-PARA-CITACAO 3159
n2:AUTORES 2811
n2:NOME-COMPLETO-DO-AUTOR 2811
n2:NRO-ID-CNPQ 1525
n2:NATUREZA 1475
n2:IDIOMA 1372
n2:FLAG-RELEVANCIA 1200
n3:_1 1737
n3:_2 1737
n3:_3 1502
degree stats: mean=6.285947
Entender PageRank e HITS aqui
###PageRank
Max pageranks
378 "NAO" 0.014877
311 "CIENCIAS_EXATAS_E_DA_TERRA" 0.009812
1015 "Sergio Lifschitz" 0.007691
379 "Brasil" 0.005657
588 "Fernanda Araujo Bai\u00E3o" 0.005468
Aqui os atributos acabam não tendo uma semântica para interpretação coerente .... Talvez filtrar somente a hierarquia?
###HITS
HITS hubs
378 "NAO" 0.869057
379 "Brasil" 0.304247
661 "Portugu\u00EAs" 0.193403
629 "Ingl\u00EAs" 0.191276
631 "COMPLETO" 0.180826
HITS auth
18086 n1:8164403687403639.rdf3#CURRICULO-VITAE/PRODUCAO-TECNICA/SOFTWARE_7/DADOS-BASICOS-DO-SOFTWARE 0.039980
17950 n1:8164403687403639.rdf3#CURRICULO-VITAE/PRODUCAO-TECNICA/SOFTWARE_11/DADOS-BASICOS-DO-SOFTWARE 0.039979
17961 n1:8164403687403639.rdf3#CURRICULO-VITAE/PRODUCAO-TECNICA/SOFTWARE_12/DADOS-BASICOS-DO-SOFTWARE 0.039975
17938 n1:8164403687403639.rdf3#CURRICULO-VITAE/PRODUCAO-TECNICA/SOFTWARE_10/DADOS-BASICOS-DO-SOFTWARE 0.039958
18008 n1:8164403687403639.rdf3#CURRICULO-VITAE/PRODUCAO-TECNICA/SOFTWARE_16/DADOS-BASICOS-DO-SOFTWARE 0.039958
HITS: baseado no conceito de hub e autoridades, que caracteriza a importância de vértices tipo hub dado a quantidade de vértices tipo autoridades para a qual eles apontam.
7) Componentes conexas
kgtk connected-components -i graph-lattes3.tsv -o graph-conn-lattes3.tsv
kgtk graph_statistics --log graph_stat_conn.log --pagerank --statistics-only --degrees --hits -v -i graph-conn-lattes3.tsv -o graph-conn-stat.tsv
Praticamente todos os nós / arestas pertencem a uma única componente conexa (entre 4) CLUScc3ygQYesL1xAu+Z0huJhQ==
8) Caminhos entre nós
kgtk paths --path-file pairs.tsv --path-source source --path-target target -i graph-lattes3.tsv -o graph-lattes3-path.tsv --statistics-onlykgtk paths --path-file pairs.tsv --path-source source --path-target target -i graph-lattes3.tsv -o graph-lattes3-path-undirected.tsv --statistics-only --undirected
Não existem caminhos entre o nó do lattes de um pesquisador para o nó do lattes de outro pesquisador, considerando o grafo direcionado
kgtk reachable-nodes -i graph-lattes3.tsv --root n1:5068302552861597.rdf3 -o graph-5068302552861597-reach-bfs.tsv --show-properties True --breadth-first True
kgtk reachable-nodes -i graph-lattes3.tsv --root n1:5068302552861597.rdf3 -o graph-5068302552861597-reach-nobfs-undirected.tsv --show-properties True --undirected
Todos os nós do grafo, formados pelos 4 lattes, são alcancáveis quando o grafo é não direcionado mas somente os nós gerados pelo próprio lattes são alcancáveis quando é direcionável
Mesmo que eu incluísse o lattes de um pesquisador não brasileiro, de outra universidade, de outra cidade/estado, outra área de especialidade, que não tenha publicações em comum com os 4 selecionados e nem tenha participado dos mesmos eventos, ainda poderiam estar na mesma componente conexa por atributos com valor "NAO"
ResponderExcluir