Extraído de -> https://www.lncc.br/~ziviani/papers/Texto-MC1-SBBD2019.pdf
Aprendizado de máquina relacional (AMR) destina-se à criação de modelos estatísticos para dados relacionais (seria o mesmo que dados conectados), isto é, dados cuja a informação relacional é tão ou mais importante que a informação individual (atributos) de cada elemento.
Essa classe de aprendizado tem sido utilizada em diversas aplicações, por exemplo, na extração de informação de dados não estruturados [Zhang et al. 2016] e na modelagem de linguagem natural [Vu et al. 2018].
A adoção de técnicas de aprendizado de máquina relacional em tarefas de complementação de grafo de conhecimento se baseia na premissa de existência de regularidades semânticas presentes no mesmo.
- Modelos grafos probabilísticos
Baseada em regras / heurísticas que não podem garantir 100% de precisão no resultado da inferência mas os resultados podem ser explicados.
- Modelos de características de grafo (triplas independentes)
Representações baseadas em elementos observáveis na estrutura do grafo, por exemplo, caminhos e vizinhanças. Esse tipo de método parte da premissa de que existem padrões expressos no grafo que possuem poder preditivo. Por exemplo, a quantidade de caminhos entre duas entidades pode ser um indicador da existência de determinado relacionamento entre elas. Nesse contexto, algumas abordagens para inferência de triplas incluem o uso de índices de similaridade, mineração de regras e programação lógica indutiva [Nickel et al. 2016].
Dentre essas, destaca-se o método Path Ranking Algorithm [Lao et al. 2011]: é um algoritmo que emprega a exploração aleatória de caminhos de comprimento limitado no grafo de conhecimento (sem memória) a fim de construir representações vetoriais (vetores de características) para suas triplas. Partir de uma origem fixa para chegar a um alvo podem existir diversos caminhos e esses caminhos podem também ser inversos, cada caminho tem uma probabilidade associado.
- Modelos de características latentes (embeddings) (triplas independentes)
A ideia é que as representações das entidades e relacionamentos, necessárias para o melhor desempenho de um modelo, precisam ser aprendidas. Em outras palavras, elas devem ser produzidas durante o processo de aprendizado de um modelo e não engendradas minuciosamente a priori [Hamilton et al. 2017].
Modelos de embedding, embutem entidades e relações em espaços vetoriais reais e complexos [Wang et al. 2017]. O modelo é ajustado para que a estrutura do espaço de embedding reflita a estrutura do grafo de conhecimento; por exemplo, mantendo uma certa similaridade entre os relacionamentos geométricos das representações vetoriais e seus correspondentes expressos simbolicamente no grafo de conhecimento. Além disso, a dimensão desse espaço escolhido precisa ser bem menor do que a quantidade de entidades presentes no grafo. Desse modo, uma maior quantidade de regularidades presentes no grafo pode ser capturada.
- Modelos de distância translacional
Modelos de distância translacional exploram funções de escore baseadas em distância. Isto é, eles medem a plausibilidade de um fato como algum tipo de distância entre as representações vetoriais das entidades envolvidas nesse fato, usualmente após a translação pelo tipo de relação correspondente. Por sua vez, modelos de combinação exploram funções de escore baseadas em similaridade. Eles medem a plausibilidade de um fato ao combinar a semântica latente de entidades e relacionamentos.
TransE [Bordes et al. 2013]: os relacionamentos são representados como translações em um espaço de embedding. Uma das motivações para esse tipo de abordagem vem do uso de aprendizado de representações no processamento de linguagem natural. Nesse contexto, observou-se que alguns modelos de embedding representavam as palavras referentes a relacionamentos (e.g.,capital-de) como translações [Bouraoui et al. 2018] . Foi um dos primeiros modelos de embedding propostos para grafos de conhecimento; sendo ele de certo modo o “pai” dos modelos translacionais. Por exemplo, TransH [Wang et al. 2014],TransR [Lin et al. 2015] e TransA [Jia et al. 2016] estendem as ideias de TransE.
- Modelos de correspondência semântica
Diversos modelos de correspondência semântica têm sido propostos nos últimos anos; por exemplo, RESCAL, ANALOGY, SimplE, ConvE e R-GCN. RESCAL [Nickel et al. 2011] modela a plausibilidade de uma tripla por meio das interações par a par entre as características latentes das entidades nela retratadas.Especificamente, ele modela o escore de uma tripla (s,r,o), isto é, sua plausibilidade de ser verdadeira, como:
onde d ∈ N é a dimensão do espaço de embedding de entidades e vs ∈ Rd, vo ∈ Rd e Wr ∈ Rd × d são respectivamente as representações vetoriais para s, o e r. Perceba que cada escalar Wrij especifica o quanto as características não observadas i e j, respectivas às representações de s e o, interagem na relação r.
Os modelos de embedding apresentados acima empregam diretamente as representações vetoriais no cômputo do escore de predição. Uma das desvantagens desse tipo de abordagem é que a única maneira de aumentar a expressividade de uma representação— i.e., a quantidade de características latentes — é adotar um espaço de embeddings com maior dimensão. Todavia, isso não escala para grafos de larga escala, uma vez que o número de parâmetros do embedding é da ordem do grafo. O aumento da quantidade de características de forma independente do espaço de embedding requer o uso de múltiplas camadas de características. Entretanto, esse tipo de abordagem exige cuidados adicionais para que o modelo gerado não superajuste (overfitting) aos dados de treinamento e consequentemente não generalize [Nickel et al. 2016].
DistMult: Wr é uma matriz diagonal mas não modela relações assimétrica.
A fim de melhor modelar informação ontológica, e consequentemente melhorar o desempenho de modelos, alguns trabalhos propõem abordagens que limitam o espaço de embedding associado ao grafo de conhecimento. Nesse contexto, [Ding et al. 2018] propõem alterações no modelo Complex [Trouillon et al. 2017]. Em particular, eles impõem que os embeddings das entidades sejam não negativos e seus valores contidos em[0,1]d. Além disso, eles restringem os valores dos embeddings das relações a fim de melhor capturar subsunções aproximadas (e.g., a relação nascido-em usualmente implica na relação nacionalidade). De modo similar, [Fatemi et al. 2019b] adotam uma estratégia para garantir que o modelo SimplE seja capaz de capturar subsunções (e.g.,(X,r1,Y→(X,r2,Y))) entre tipos de relação. Em particular, eles impõem que os embeddings de entidades sejam não negativos e que o embedding de um tipo de relação seja sempre menor ou igual aos embeddings das relações que ele subsume.
Mais info -> https://torchbiggraph.readthedocs.io/en/latest/related.html
Comentários
Postar um comentário
Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.