Uso das Tecnologias da Web Semântica na Construção de Grafos de Conhecimento Semântico baseado no Enfoque Híbrido
@inproceedings{inproceedings,
author = {Vidal, Tulio and Viktor, Caio and Avila, S and Mariano, Roberval and Calixto, Tainan and Ivo, Pedro and Filho, José and Brayner, Ângelo and Vidal, Maria},
year = {2021},
month = {11},
pages = {},
title = {Uso das Tecnologias da Web Semântica na Construção de Grafos de Conhecimento Semântico baseado no Enfoque Híbrido}
}
Evento: ONTOBRAS 2021
1. Introdução
Grafos de Conhecimento Semântico (GCS) ́e um novo paradigma que está sendo usado para consolidar e integrar semanticamente um grande n ́umero de dados advindos de fontes de dados heterogêneas.
[De onde vem a definição de KG Semântico?]
Um elemento chave de um GCS é a ontologia de domínio que permite combinar e enriquecer informações armazenadas em fontes de dados em uma visão unificada, que representa não apenas como os dados são organizados, mas também qual é o seu significado pretendido. Além de facilitar a integração de fontes de dados heterogêneas, o uso de ontologias provê uma representação semântica formal, permitindo assim, inferência e processamento de máquina.
Entretanto, a construção de um GCS não é uma tarefa trivial, ... resolução de inconsistências e conflitos para melhorar a qualidade dos dados.
[O próprio processo de integração para gerar um KG semântico requer decisões que podem envolver informações de contexto]
Contribuições:
• Arquitetura de 4 camadas para GCS baseada no Enfoque Hibrido;
• Processo Incremental para construção da Camada Semântica;
• Ontologia de Domínio para representação e integração de dados de Pessoas Jurídicas;
• Grafo de Conhecimento para integrar fontes de dados internas e externas da SEFAZ-MA.
- Camada Semântica: Na camada semântica, é publicado um grafo de conhecimento local para cada fonte de dados usando o mesmo vocabulário da ontologia de domínio. A publicação é realizada através da criação de mapeamentos entre a ontologia de domínio e a fonte dos dados.
3. Construção da Camada Semântica
(1) seleção das fontes de dados relevantes;
(2) extração e tradução de dados de fontes de dados diferentes, possivelmente heterogêneas, para um vocabulário comum;
(3) identificação de links entre recursos em diferentes fontes de dado;
(4) Limpeza e resolução de inconsistências para melhorar a qualidade dos dados.
... Processo de limpeza dos dados, aumentando a qualidade do GCS gerado. Esta limpeza busca tratar os problemas de conflito e redundância de dados, ... A limpeza se dá inicialmente pelo reconhecimento de classes e propriedades que possam conter fatos duplicados ou conflituosos, onde o espaço de busca é limitado para recursos que foram conectados através de links owl:sameAs.
[Entity Linking para comparar objetos que seja iguais ... mas são iguais em qualquer circunstância? em qualquer contexto?]
Definindo-se em seguida regras sobre como estes casos devem ser tratados. Este passo pode ser realizado com o uso de ferramentas tais como [Mendes et al. 2012].
Mendes, P. N., M ̈uhleisen, H., and Bizer, C. (2012). Sieve: linked data quality assessment and fusion. In Proceedings of the 2012 Joint EDBT/ICDT Workshops, pages 116–123.
A Data Quality Indicator is an aspect of a data item or data set that may give an indication to the user of the suitability of the data for some intended use. The types of information which may be used as quality indicators are very diverse. Besides the information to be assessed itself, indicators may stem from meta-information about the circumstances in which information was created, on background information about the information provider, or on ratings provided by the information consumers themselves, other information consumers, or domain experts.
Our data fusion framework is inspired by the work of Blei-holder and Naumann [3]. They described a framework for data fusion in the context of relational databases that includes three major categories of conflict handling strategies:
Conflict-ignoring strategies, which defer conflict resolution to the user. For instance, the strategy PassItOnsimply relays conflicts to the user or application consuming integrated data.
Conflict-avoiding strategies, which apply a unique decision to all data. For instance, the strategy TrustY-ourFriends prefers data from specific data sources.
[Utilize a fonte de maior peso no caso do IBGE (H5)]
Conflict-resolution strategies, which decide between existing data (e.g. KeepUpToDate, which takes the most recent value), or mediate the creation of a new value from the existing ones (e.g. Average).
No caso do GCL ser virtual, o processo de reasoning é executado em tempo de consulta ...
[As regras são executadas em tempo de consulta para a geração da melhor resposta ... mas poderiam ser executadas antes para que o resultado materializado fosse armazenado, otimizando o acesso (desempenho). Mas existem regras que dependem das consultas e/ou sub-set das respostas ou somente regras que se aplicam a toda base.]
4. Estudo de Caso: GC-SEFAZMA
Esta seção apresenta os resultados obtidos a partir do processo de construção do GC-SEFAZMA. O GC-SEFAZMA integra dados da Receita Federal do Brasil, Instituto Brasileiro de Geografia, Estatística, Correios e Cadastro de Contribuintes da SEFAZ-MA, permitindo um acesso integrado e homogêneo à estas bases.
4.2.1. Aquisição do Conhecimento
Tabela 1. Exemplo de Questões de Competência
QC1 Quais empresas tem divergências de Sócios na RFB e no Cadastro da SEFAZ?
QC2 Quais empresas na RFB ou SEFAZ não tem sócio pessoa física?
QC3 Quais empresas não estão ativas na RFB, mas estão na SEFAZ?
QC4 Quais empresas são públicas?
QC5 Quais situações cadastrais da RFB são incompatíveis com as existentes na SEFAZ?
[Buscam conflitos dentro das fontes integradas: RFB e SEFAZ, ou seja, as perguntas são contextualizadas pela proveniência]
Comentários
Postar um comentário
Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.