KGTK @ VM029 - NTriples extraída do Allegro

KGTK @ VM029 - NTriples extraída do Allegro - parte II

Agendado via crontab na VM029

Embeddings do grafo

kgtk graph-embeddings -i lattes-prof3.tsv -o lattes-g_emb-ComplEx.glo --output_format glove -op ComplEx

Início 04/06 23:40 Término 05/06 02:22 Arquivo de resultado com 2.6G

kgtk graph-embeddings -i lattes-prof3.tsv -o lattes-g_emb-TransE.tsv --output_format kgtk -op TransE

Início 05/06 02:22 Término 05/06 04:59 Arquivo de resultado com 2.6G

kgtk graph-embeddings -i lattes-prof3.tsv -o lattes-g_emb-RESCAL.tsv --output_format kgtk -op RESCAL

Início 05/06 04:59 Término 05/06 20:36 Arquivo de resultado com 2.6G

kgtk graph-embeddings -i lattes-prof3.tsv -o lattes-g_emb-DistMult.w2v --output_format w2v -op DistMult

Início 05/06 20:36 Término 05/06 20:57 Arquivo de resultado com 2.6G

Mais explicações sobre cada opção em https://versant-pesquisadedoutorado.blogspot.com/2021/05/kgtk-graph-embeddings.html

Propriedades usadas para Text Embeddings

Rótulos: foaf:name foaf:citationName dc:title skos:prefLabel
Descrição: bio:biography
Tipos: rdf:type e bibo:degree (subtipo para tese ou dissertação)
Outras propriedades: foaf:identifier, bibo:doi, foaf:homepage

kgtk sort -c node1 -i lattes-prof3.tsv -o lattes-prof4.tsv
kgtk text-embedding -i lattes-prof4.tsv -o lattes-prof-t_emb.tsv --model bert-base-wikipedia-sections-mean-tokens bert-base-nli-cls-token --label-properties foaf:name foaf:citationName dc:title skos:prefLabel --description-properties bio:biography --isa rdf:type bibo:degree --has-properties foaf:identifier bibo:doi foaf:homepage --dimensional-reduction tsne
kgtk sort -c node2 -i lattes-prof4.tsv -o lattes-prof4-sorted.tsv

* até o momento não consegui concluir a execução da geração do text embeddings por questões técnicas da VM, da última vez a máquina travou depois de 48 horas executando, deixei processando novamente

Comentários

Veronica dos Santos5 de julho de 2021 às 14:36
Na última segunda, dia 28/06 as 20:30, foi executado novamente a geração de word embeddings mas processo não foi concluído novamente. A última linha do log mostra 57%, a data/hora da última atualização do arquivo de log está como 29/06 as 23:04 mas não indica erro e também não tem registro de reinicialização da máquina
57%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–‹ | 954621/1665264 [26:21:42<153834:35:59, 779.30s/it]

Alterei o comando para colocar em modo verbose e para dois processos paralelos para verificar se vai funcionar.

Se não concluir até quarta-feira, pretendo fazer um filtro no arquivo de entrada e separa a geração de embeddings para entidades do tipo Autor/Pesquisador/Pessoa e entidades do tipo Produções
ResponderExcluir
Respostas

Adicionar comentário

Postar um comentário

Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.

Pesquisa de Doutorado da Veronica

Pesquisar este blog