Pular para o conteúdo principal

Uso das Tecnologias da Web Semântica na Construção de Grafos de Conhecimento Semântico baseado no Enfoque Híbrido

@inproceedings{inproceedings,
author = {Vidal, Tulio and Viktor, Caio and Avila, S and Mariano, Roberval and Calixto, Tainan and Ivo, Pedro and Filho, José and Brayner, Ângelo and Vidal, Maria},
year = {2021},
month = {11},
pages = {},
title = {Uso das Tecnologias da Web Semântica na Construção de Grafos de Conhecimento Semântico baseado no Enfoque Híbrido}
}

Evento: ONTOBRAS 2021

1. Introdução

Grafos de Conhecimento Semântico (GCS)  ́e um novo paradigma que está sendo usado para consolidar e integrar semanticamente um grande n ́umero de dados advindos de fontes de dados heterogêneas.

[De onde vem a definição de KG Semântico?]

Um elemento chave de um GCS  é a ontologia de domínio que permite combinar e enriquecer informações armazenadas em fontes de dados em uma visão unificada, que representa não apenas como os dados são organizados, mas também qual é o seu significado pretendido. Além de facilitar a integração de fontes de dados heterogêneas, o uso de ontologias provê uma representação semântica formal, permitindo assim, inferência e processamento de máquina.

Entretanto, a construção de um GCS não é uma tarefa trivial, ... resolução de inconsistências e conflitos para melhorar a qualidade dos dados.

[O próprio processo de integração para gerar um KG semântico requer decisões que podem envolver informações de contexto]

Contribuições:

• Arquitetura de 4 camadas para GCS baseada no Enfoque Hibrido;
• Processo Incremental para construção da Camada Semântica;
• Ontologia de Domínio para representação e integração de dados de Pessoas Jurídicas;
• Grafo de Conhecimento para integrar fontes de dados internas e externas da SEFAZ-MA.

- Camada Semântica: Na camada semântica, é publicado um grafo de conhecimento local para cada fonte de dados usando o mesmo vocabulário da ontologia de domínio. A publicação é realizada através da criação de mapeamentos entre a ontologia de domínio e a fonte dos dados.

3. Construção da Camada Semântica

(1) seleção das fontes de dados relevantes;
(2) extração e tradução de dados de fontes de dados diferentes, possivelmente heterogêneas, para um vocabulário comum;
(3) identificação de links entre recursos em diferentes fontes de dado;
(4) Limpeza e resolução de inconsistências para melhorar a qualidade dos dados.

... Processo de limpeza dos dados, aumentando a qualidade do GCS gerado. Esta limpeza busca tratar os problemas de conflito e redundância de dados, ... A limpeza se dá inicialmente pelo reconhecimento de classes e propriedades que possam conter fatos duplicados ou conflituosos, onde o espaço de busca é limitado para recursos que foram conectados através de links owl:sameAs.

[Entity Linking para comparar objetos que seja iguais ... mas são iguais em qualquer circunstância? em qualquer contexto?]

Definindo-se em seguida regras sobre como estes casos devem ser tratados. Este passo pode ser realizado com o uso de ferramentas tais como [Mendes et al. 2012].

Mendes, P. N., M ̈uhleisen, H., and Bizer, C. (2012). Sieve: linked data quality assessment and fusion. In Proceedings of the 2012 Joint EDBT/ICDT Workshops, pages 116–123.

A Data Quality Indicator is an aspect of a data item or data set that may give an indication to the user of the suitability of the data for some intended use. The types of information which may be used as quality indicators are very diverse. Besides the information to be assessed itself, indicators may stem from meta-information about the circumstances in which information was created, on background information about the information provider, or on ratings provided by the information consumers themselves, other information consumers, or domain experts. 

Our data fusion framework is inspired by the work of Blei-holder and Naumann [3]. They described a framework for data fusion in the context of relational databases that includes three major categories of conflict handling strategies:

Conflict-ignoring strategies, which defer conflict resolution to the user. For instance, the strategy PassItOnsimply relays conflicts to the user or application consuming integrated data.

Conflict-avoiding strategies, which apply a unique decision to all data. For instance, the strategy TrustY-ourFriends prefers data from specific data sources.

[Utilize a fonte de maior peso no caso do IBGE (H5)]

Conflict-resolution strategies, which decide between existing data (e.g. KeepUpToDate, which takes the most recent value), or mediate the creation of a new value from the existing ones (e.g. Average).

No caso do GCL ser virtual, o processo de reasoning é executado em tempo de consulta ...

[As regras são executadas em tempo de consulta para a geração da melhor resposta ... mas poderiam ser executadas antes para que o resultado materializado fosse armazenado, otimizando o acesso (desempenho). Mas existem regras que dependem das consultas e/ou sub-set das respostas ou somente regras que se aplicam a toda base.]

4. Estudo de Caso: GC-SEFAZMA

Esta seção apresenta os resultados obtidos a partir do processo de construção do GC-SEFAZMA. O GC-SEFAZMA integra dados da Receita Federal do Brasil, Instituto Brasileiro de Geografia, Estatística, Correios e Cadastro de Contribuintes da SEFAZ-MA, permitindo um acesso integrado e homogêneo à estas bases.

4.2.1. Aquisição do Conhecimento

Tabela 1. Exemplo de Questões de Competência

QC1 Quais empresas tem divergências de Sócios na RFB e no Cadastro da SEFAZ?
QC2 Quais empresas na RFB ou SEFAZ não tem sócio pessoa física?
QC3 Quais empresas não estão ativas na RFB, mas estão na SEFAZ?
QC4 Quais empresas são públicas?
QC5 Quais situações cadastrais da RFB são incompatíveis com as existentes na SEFAZ?

[Buscam conflitos dentro das fontes integradas: RFB e SEFAZ, ou seja, as perguntas são contextualizadas pela proveniência]

Comentários

Postagens mais visitadas deste blog

Connected Papers: Uma abordagem alternativa para revisão da literatura

Durante um projeto de pesquisa podemos encontrar um artigo que nos identificamos em termos de problema de pesquisa e também de solução. Então surge a vontade de saber como essa área de pesquisa se desenvolveu até chegar a esse ponto ou quais desdobramentos ocorreram a partir dessa solução proposta para identificar o estado da arte nesse tema. Podemos seguir duas abordagens:  realizar uma revisão sistemática usando palavras chaves que melhor caracterizam o tema em bibliotecas digitais de referência para encontrar artigos relacionados ou realizar snowballing ancorado nesse artigo que identificamos previamente, explorando os artigos citados (backward) ou os artigos que o citam (forward)  Mas a ferramenta Connected Papers propõe uma abordagem alternativa para essa busca. O problema inicial é dado um artigo de interesse, precisamos encontrar outros artigos relacionados de "certa forma". Find different methods and approaches to the same subject Track down the state of the art rese...

Knowledge Graph Embedding with Triple Context - Leitura de Abstract

  Jun Shi, Huan Gao, Guilin Qi, and Zhangquan Zhou. 2017. Knowledge Graph Embedding with Triple Context. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (CIKM '17). Association for Computing Machinery, New York, NY, USA, 2299–2302. https://doi.org/10.1145/3132847.3133119 ABSTRACT Knowledge graph embedding, which aims to represent entities and relations in vector spaces, has shown outstanding performance on a few knowledge graph completion tasks. Most existing methods are based on the assumption that a knowledge graph is a set of separate triples, ignoring rich graph features, i.e., structural information in the graph. In this paper, we take advantages of structures in knowledge graphs, especially local structures around a triple, which we refer to as triple context. We then propose a Triple-Context-based knowledge Embedding model (TCE). For each triple, two kinds of structure information are considered as its context in the graph; one is the out...

KnOD 2021

Beyond Facts: Online Discourse and Knowledge Graphs A preface to the proceedings of the 1st International Workshop on Knowledge Graphs for Online Discourse Analysis (KnOD 2021, co-located with TheWebConf’21) https://ceur-ws.org/Vol-2877/preface.pdf https://knod2021.wordpress.com/   ABSTRACT Expressing opinions and interacting with others on the Web has led to the production of an abundance of online discourse data, such as claims and viewpoints on controversial topics, their sources and contexts . This data constitutes a valuable source of insights for studies into misinformation spread, bias reinforcement, echo chambers or political agenda setting. While knowledge graphs promise to provide the key to a Web of structured information, they are mainly focused on facts without keeping track of the diversity, connection or temporal evolution of online discourse data. As opposed to facts, claims are inherently more complex. Their interpretation strongly depends on the context and a vari...