Pular para o conteúdo principal

Rule Mining with AMIE - Trabalho Relacionado Complementar

Sobre

Do Raphaël Troncy, meu colega no projeto europeu:

Thanks for this pointer! Interesting work! I skim through it and one of the related work I can think of but not cited is 1) the work of Fabian Suchanek with AMIE and rule mining in KG to detect automatically outliers / false values / inconsistent values / incongruences / etc. and 2) to some extent, the body of literature working on detecting pseudo-keys for doing entity matching, and again relying on mining property-values that are generally true for 90%+ of the entities but not for a few ones suggesting errors.
Did you look into this too?

Acho que vale dar uma olhada (me parece que seriam trabalhos complementares ao que a gente fez) para a tese.

[]s

Veronica: Do item 1, olhando as publicações do Fabian Suchanek no DBLP,  eu separei 3 artigos sobre o AMIE (2013, 2015, 2020) para ler. Dois são citados no survey da ACM sobre KG na seção 4.4.1 Rule Mining
Daniel: Lembrando que é um trabalho que poderia complementar o nosso, identificando restrições que deveriam existir, se n me engano.

Fiz a leitura comentada dos 3 artigos: 

Fast and Exact Rule Mining with AMIE 3 - Leitura de Artigo - Ano 2020
Fast rule mining in ontological knowledge bases with AMIE+ - Leitura de Artigo - Ano 2015
AMIE: Association Rule Mining under Incomplete Evidence in Ontological Knowledge Bases - Leitura de Artigo - Ano 2013

Segue um overview:

Mineração de Regras do tipo SE-ENTÃO permite:
1) Completar o KB/Database inferindo novas alegações (esta tarefa também é feita por Link Prediction via ML).
2) Debugar o KB/Database no sentido de encontrar potenciais erros.

A primeira geração de abordagens de mineração de regras (Inductive Logic Programming) usavam exemplos positivos e negativos como entrada pois operavam em CWA mas tinham problemas de escalabilidade no tamanho do KB/Database.

AMIE é da segunda geração uma vez que opera sob OWA e os algoritmos são otimizados para grandes volumes (KGs e não mais KB/Database) mas ainda apresentam desafios em termos de eficiência para calcular o suporte e confiança das regras. O suporte de uma regra R em um KB K é o número de previsões verdadeiras p (da forma r(X, Y )) que a regra faz no KB. A confiança de uma regra R em um KB K é a proporção de previsões verdadeiras em relação ao total das previsões verdadeiras e previsões falsas.

AMIE é voltado para KG somente com relações binárias, não consideram qualificadores e nem o modelo multi camadas. Já existem abordagens ML para Link Prediction que consideram os qualificadores (STAR-E). Não comentam qual seria o impacto da reificação nesta abordagem. Em trabalhos de ML já se admitiu que a reificação prejudica a geração do modelo.

A mineração de regras do AMIE não usa o esquema, somente instâncias. Mas o tipo de regras geradas poderiam ser úteis para completar a definição de constraints e esquemas ShEx da WD. AMIE gera regras do tipo SE-ENTÃO (Horn) fechadas e com átomos conectados.

No artigo de 2020 eles reportam ter usado WD dump de Julho de 2019 mas não explicam se foi o truthy. 

Nos experimentos também relataram que removem as triplas onde o objeto é um literal (focam em relações e não em propriedades) e isto também eu já li que é feito em algoritimos de Predição de Link. 

Para gerar contraexemplos para entrada no processo definiram o conceito de partial completeness assumption (PCA). Se existe <s1,p1,o1> no KB K então existe qualquer <s1,p1,*> (e estes não podem ser contra exemplos) mas se não existe qualquer <s2,p2,*> no KB K então <s2,p2,o2> é um contra exemplo. Na análise qualitativa sobre PCA eles alegam que a geração de contra exemplos adequados depende da natureza da relação, quando as mesmas são funções (ou exibem um comportamento semelhante) o PCA seria mais adequado.

Na WD existe a opção de criar uma alegação que represente uma negação, por exemplo, <Fulano child no_value>. Mas não exploramos isso (e nem eles, por estes artigos)

Também podemos na WD criar uma alegação onde o valor para uma determinada propriedade ou relação é desconhecido mas deveria existir, por exemplo, <Fulano bornIn unknow_value>. Este recurso poderia ser usado para atender a uma regra "Se <sujeito1 predicado1 objeto1> Então <sujeito1 predicado2 objeto2>" gerada criando uma alegação <sujeito1 predicado2 unknown_value>. Alternativamente este regra também poderia justificar a criação de uma constraint no predicado1 do tipo "item requires statement" para o predicado2. Não exploramos este tipo de constraint no nosso artigo.

Uma possível extensão para o AMIE seria explorar o modelo hiper relacional (ou multi camadas) e gerar regras que permitissem inferir/completar as constraints de required e allowed qualifiers com os qualificadores/contextos que se aplicam a uma relação (predicado). As métricas de suporte e confiança poderia ser usadas para decidir se mandatórias ou sugeridas e required ou allowed.

Comentários

Postagens mais visitadas deste blog

Connected Papers: Uma abordagem alternativa para revisão da literatura

Durante um projeto de pesquisa podemos encontrar um artigo que nos identificamos em termos de problema de pesquisa e também de solução. Então surge a vontade de saber como essa área de pesquisa se desenvolveu até chegar a esse ponto ou quais desdobramentos ocorreram a partir dessa solução proposta para identificar o estado da arte nesse tema. Podemos seguir duas abordagens:  realizar uma revisão sistemática usando palavras chaves que melhor caracterizam o tema em bibliotecas digitais de referência para encontrar artigos relacionados ou realizar snowballing ancorado nesse artigo que identificamos previamente, explorando os artigos citados (backward) ou os artigos que o citam (forward)  Mas a ferramenta Connected Papers propõe uma abordagem alternativa para essa busca. O problema inicial é dado um artigo de interesse, precisamos encontrar outros artigos relacionados de "certa forma". Find different methods and approaches to the same subject Track down the state of the art rese...

Knowledge Graph Embedding with Triple Context - Leitura de Abstract

  Jun Shi, Huan Gao, Guilin Qi, and Zhangquan Zhou. 2017. Knowledge Graph Embedding with Triple Context. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (CIKM '17). Association for Computing Machinery, New York, NY, USA, 2299–2302. https://doi.org/10.1145/3132847.3133119 ABSTRACT Knowledge graph embedding, which aims to represent entities and relations in vector spaces, has shown outstanding performance on a few knowledge graph completion tasks. Most existing methods are based on the assumption that a knowledge graph is a set of separate triples, ignoring rich graph features, i.e., structural information in the graph. In this paper, we take advantages of structures in knowledge graphs, especially local structures around a triple, which we refer to as triple context. We then propose a Triple-Context-based knowledge Embedding model (TCE). For each triple, two kinds of structure information are considered as its context in the graph; one is the out...

KnOD 2021

Beyond Facts: Online Discourse and Knowledge Graphs A preface to the proceedings of the 1st International Workshop on Knowledge Graphs for Online Discourse Analysis (KnOD 2021, co-located with TheWebConf’21) https://ceur-ws.org/Vol-2877/preface.pdf https://knod2021.wordpress.com/   ABSTRACT Expressing opinions and interacting with others on the Web has led to the production of an abundance of online discourse data, such as claims and viewpoints on controversial topics, their sources and contexts . This data constitutes a valuable source of insights for studies into misinformation spread, bias reinforcement, echo chambers or political agenda setting. While knowledge graphs promise to provide the key to a Web of structured information, they are mainly focused on facts without keeping track of the diversity, connection or temporal evolution of online discourse data. As opposed to facts, claims are inherently more complex. Their interpretation strongly depends on the context and a vari...