Agendado via crontab na VM029
Embeddings do grafo
kgtk graph-embeddings -i lattes-prof3.tsv -o lattes-g_emb-ComplEx.glo --output_format glove -op ComplEx
Início 04/06 23:40 Término 05/06 02:22 Arquivo de resultado com 2.6G
kgtk graph-embeddings -i lattes-prof3.tsv -o lattes-g_emb-TransE.tsv --output_format kgtk -op TransE
Início 05/06 02:22 Término 05/06 04:59 Arquivo de resultado com 2.6G
kgtk graph-embeddings -i lattes-prof3.tsv -o lattes-g_emb-RESCAL.tsv --output_format kgtk -op RESCAL
Início 05/06 04:59 Término 05/06 20:36 Arquivo de resultado com 2.6G
kgtk graph-embeddings -i lattes-prof3.tsv -o lattes-g_emb-DistMult.w2v --output_format w2v -op DistMult
Início 05/06 20:36 Término 05/06 20:57 Arquivo de resultado com 2.6G
Mais explicações sobre cada opção em https://versant-pesquisadedoutorado.blogspot.com/2021/05/kgtk-graph-embeddings.html
Propriedades usadas para Text Embeddings
Rótulos: foaf:name foaf:citationName dc:title skos:prefLabel
Descrição: bio:biography
Tipos: rdf:type e bibo:degree (subtipo para tese ou dissertação)
Outras propriedades: foaf:identifier, bibo:doi, foaf:homepage
kgtk sort -c node1 -i lattes-prof3.tsv -o lattes-prof4.tsv
kgtk
text-embedding -i lattes-prof4.tsv -o lattes-prof-t_emb.tsv --model
bert-base-wikipedia-sections-mean-tokens bert-base-nli-cls-token
--label-properties foaf:name foaf:citationName dc:title skos:prefLabel
--description-properties bio:biography --isa rdf:type bibo:degree
--has-properties foaf:identifier bibo:doi foaf:homepage
--dimensional-reduction tsne
kgtk sort -c node2 -i lattes-prof4.tsv -o lattes-prof4-sorted.tsv
* até o momento não consegui concluir a execução da geração do text embeddings por questões técnicas da VM, da última vez a máquina travou depois de 48 horas executando, deixei processando novamente
Na última segunda, dia 28/06 as 20:30, foi executado novamente a geração de word embeddings mas processo não foi concluído novamente. A última linha do log mostra 57%, a data/hora da última atualização do arquivo de log está como 29/06 as 23:04 mas não indica erro e também não tem registro de reinicialização da máquina
ResponderExcluir57%|█████▋ | 954621/1665264 [26:21:42<153834:35:59, 779.30s/it]
Alterei o comando para colocar em modo verbose e para dois processos paralelos para verificar se vai funcionar.
Se não concluir até quarta-feira, pretendo fazer um filtro no arquivo de entrada e separa a geração de embeddings para entidades do tipo Autor/Pesquisador/Pessoa e entidades do tipo Produções
Ainda não consegui executar essa geração de Text Embeddings
Excluir