Pular para o conteúdo principal

INFERÊNCIAS SEMÂNTICAS NA RECUPERAÇÃO DE INFORMAÇÕES PARA APLICAÇÕES HIPERMÍDIA - Leitura de Dissertação I

 Referência DOI:  https://doi.org/10.17771/PUCRio.acad.4043

Introdução

Isso não significa que os indivíduos estejam realmente encontrando o que precisam na velocidade que deveriam. Essa discrepância decorre do fato de que a maioria das máquinas de busca são baseadas na ocorrência de palavras-chave, o que não permite um entendimento real da necessidade do usuário. 

No entanto, percebeu-se também que, para que esse acesso [nas organizações] seja eficiente, as organizações necessitam desenvolver categorias e estruturas de informação que façam sentido para seu próprio negócio e as comunidades específicas que usam o sistema. A categorização acrescenta a informação fundamental de indexação nos documentos, facilitando a busca futura. As taxonomias são regras de alto nível para organizar e classificar informação. A taxonomia torna intuitivo para os empregados o processo de busca por uma informação específica, colocando-os em contato com tópicos e categorias relacionadas não previstas anteriormente.

Entenda-se aqui como semântica a capacidade de se processar e interpretar algum tipo de informação computacionalmente (Uschold, 2001), e não apenas através da mente humana.

... convergência na necessidade de se estruturar semanticamente a informação para que ela seja mais facilmente acessada. .... a utilização de estruturas semânticas para a modelagem de um determinado domínio de conhecimento. No caso da Gestão do Conhecimento, isso é feito através das taxonomias e thesaurus que são casos particulares de uma ontologia. Na Web Semântica, isso é feito através da utilização das ontologias propriamente ditas.

... poucas iniciativas no sentido de aproveitar esses modelos semânticos para a realização de inferências. A área de Inteligência Artificial foi a primeira área a utilizar estruturas semânticas e modelos de conhecimento. Vários métodos foram desenvolvidos no sentido de realizar inferências a partir de definições semânticas. 

Este trabalho propõe a utilização de uma abordagem híbrida, pouco explorada na literatura. Nela, as redes onde a propagação de ativação ocorrerá possuirão tanto arestas com rótulos como pesos numéricos associados. Os rótulos das arestas serão provenientes da modelagem do domínio específico (feitas manualmente por seres humanos). Já os pesos numéricos serão gerados automaticamente através de técnicas de mapeamento de pesos. As técnicas de mapeamento de pesos tentam inferir que instâncias estão mais fortemente relacionadas dentro de um determinado contexto, atribuindo um peso numérico para cada uma das arestas existentes na rede. O objetivo final é permitir que aplicações que possuam um modelo de conhecimento possam utilizar suas estruturas semânticas para prover novas funcionalidades. Muitas dessas funcionalidades são possíveis devido às inferências realizadas no modelo semântico pelas técnicas de propagação de ativação. Entre as funcionalidades propostas nesta dissertação estão: (1) Busca semântica (2) Sugestão de novos relacionamentos (3) Expansão de Consulta (4) Ordenação dos Elementos Relacionados 

Conceitos Básicos

Redes semânticas têm desempenhado um papel muito importante no campo de  representação  de  conhecimento  desde  que  foram  introduzidas  em  (Quillian, 1968).  De  acordo  com  a  definição  de  Quillian,  redes  semânticas  expressam conhecimento  em  termos  de  conceitos,  suas  propriedades  e  uma  hierarquia  entre esses   conceitos.   Todo   conceito   é   representado   por   um   nó   e   as   relações hierárquicas  entre   conceitos   são   representadas   por   arcos   do   tipo   “is-a”   ou “instance-of”.  Os  conceitos  se  tornam  mais  abstratos,  à  medida  que  se  sobe  na hierarquia.  Propriedades  também  são  representadas  por  nós.  Para  se  representar  que uma propriedade se aplica a um determinado conceito utiliza-se um arco rotulado do  conceito  para  a  propriedade.  Tipicamente  uma  propriedade  está  ligada  ao conceito  mais  alto  na  hierarquia  para  o  qual  a  propriedade  se  aplica.  Se  uma propriedade  se  aplica  a  um  determinado  nó,  assume-se  que  ela  se  aplica  a qualquer  nó  que  seja  descendente  dele.

Redes   Associativas
   são   bastante   semelhantes   às   redes   semânticas.   A principal diferença entre elas é que nas redes associativas as arestas não possuem rótulos associados a elas e sim pesos, ou seja, as arestas são sub-simbólicas. Todas as  arestas  são  do  mesmo  tipo  e  o  peso  é  tipicamente  um  número  real  que corresponde de alguma maneira a força da relação entre os nós.

Nas  fases  de  pré-ajuste  e  pós-ajuste,  que  são  opcionais,  alguma  forma  de decaimento de ativação pode ser aplicada aos nós ativos. Restrições com relação à propagação  também  podem  ser  adicionadas.  Nos  modelos  mais  complexos  de propagação de ativação, várias restrições são impostas com relação à propagação nas  fases  de  pré  e  pós-ajuste.  Essa  é  a  maior  diferença  entre  os  modelos  de propagação puros e os mais complexos. A fase de propagação consiste da passagem de ondas de ativação de um nó para  todos  os  nós  conectados  a  ele.

Depois  que  é  calculado  o  quanto  de  fluxo  está  chegando  a  um  nó,  deve-se calcular  o  quanto  de  ativação  esse  nó  vai  propagar  para  os  nós  aos  quais  está conectado. Pulso após pulso, a propagação se espalha pela rede atingindo nós que estão distantes dos nós onde a propagação começou. Após um determinado número de pulsos  serem  disparados,  verificam-se  as  condições  de  parada.  Se  elas  forem atingidas,  a  propagação  termina.  Caso  contrário,  um  novo  conjunto  de  pulsos  é disparado.   O   processo   de   propagação   é   iterativo,   constituindo-se   de   uma seqüência de pulsos e verificações de parada.

A  propagação  deve  utilizar   a informação semântica das arestas para processá-las de maneiras diferentes. Assim, é   possível   se   implementar   heurísticas   na   propagação,   fazendo   com   que   a propagação se dê através de caminhos preferenciais. Isso permite uma propagação de  acordo  com  algumas  regras  de  inferência.  A  maneira  mais  comum  de  se implementar  esse  tipo  de  propagação  é  através  da  utilização  de  restrições  na propagação. A seguir serão apresentadas as restrições mais utilizadas [tem outras ...].
Restrição de distância: a propagação deve terminar quando atingir nós que estejam  longe  dos  nós  onde  a  propagação  se  iniciou.  
Restrição   de   caminho:   a   ativação   deve   se   propagar   por   caminhos preferenciais  de  acordo  com  a  definição  da  aplicação.

Dentre  os  diversos  métodos  de  ponderação,  um  deles  ficou  especialmente famoso e é atualmente um dos mais utilizados pela maioria dos IRSs. Esse método possui  três  termos.  O  primeiro  termo  tenta  avaliar  o  quanto  uma  palavra  é importante para um documento. A esse termo dá se o nome de TF (freqüência do termo). Esse valor é proporcional ao número de ocorrências da palavra dentro do documento.  O  segundo  termo  se  preocupa  em  analisar  se  a  palavra  é  um  bom discriminador   dentro   do   conjunto   de   documentos   existentes.   Palavras   que aparecem  em muitos documentos acabam não ajudando muito na recuperação. A esse termo dá-se o nome de IDF (freqüência inversa de domínio). O terceiro termo é   inversamente   proporcional   ao   tamanho   do   documento.   Esses   termos   são multiplicados para se obter o peso da relação entre uma palavra e um documento em particular.

O  conceito  de  Ontologia  é  oriundo  da  Filosofia  e  consiste  tipicamente  em definições de conceitos, suas relações e axiomas (Staab et. al, 2000).  As relações entre   os   conceitos   da   ontologia   podem   ser   tanto   taxonômicas   como   não taxonômicas,  permitindo  um  mapeamento  bastante  próximo  da  realidade  do domínio  em  questão  e,  conseqüentemente,  uma  linguagem  mais  adequada  para  a comunicação e para seu entendimento. As ontologias provêem uma conceitualização  formal  de  um  domínio  particular  que  é  compartilhada  por  um grupo de pessoas.

Trabalhos Relacionados

O  sistema  GRANT  (Cohen  &  Kjeldsen,  1987)  (Kjelsden  &  Cohen,  1987) foi um dos primeiros sistemas a utilizar técnicas de Propagação de Ativação com Restrições em Recuperação   de   Informação.   Nesse   sistema,   conhecimento relacionado   a   propostas   de   pesquisa   e   potenciais   agências   financiadoras   é organizado por meio de uma rede semântica.  Tópicos de pesquisa e  agências são conectados,  utilizando-se  uma  grande  variedade  de  ligações  de  associação  que formam  uma  densa  rede.    Uma  consulta  é  expressa  por  uma  ou  mais  áreas  de pesquisa, ou uma ou mais agências financiadoras. A busca é feita através de uma Propagação  de  Ativação  com  Restrições  pela  rede,  utilizando-se  de  várias  das restrições descritas nos conceitos básicos. O  objetivo  do  sistema  é  achar  agências  financiadoras  para  propostas  de pesquisa. O sistema utiliza-se fortemente de regras de inferência do seguinte tipo: se  uma  agência  financiadora  se  interessa  por  um  tópico  x  e  existe  uma  relação entre  o  tópico  x  e  o  tópico  y,  é  possível  que  a  agência  financiadora  também  se interesse  pelo  tópico  y. .... Uma das maiores limitações do sistema era a dificuldade de ajuste   dos   parâmetros   para   garantir   que   apenas   caminhos   válidos   fossem percorridos. 
 
A  representação  básica  do  sistema  AIR  é  através  de  uma  rede  que  possui três  tipos  de  nós:  documentos,  palavras-chave  e  autores.  ... Os  usuários  podem  definir  sua  necessidade  de  informação  através  de  uma linguagem  de  consulta  bem  simples.  Uma  consulta  é  constituída  de  diversas “frases”. Em cada frase, o usuário pode se referir a um dos conceitos existentes no sistema  (palavras-chave,  autores,  documentos).  Essa  consulta  faz  com  que  as instâncias  dos  nós  referidos  na  consulta  passem  a  ter  atividade  na  rede.  Essa atividade  se  propaga  na  rede  e  a  resposta  do  sistema  é  o  conjunto  de  nós  que  se tornam  mais  ativos  durante  a  propagação. ... O   grafo   mostrado   como   resultado   é   composto   de   palavras-chave, documentos   e   autores   que   foram   considerados   relevantes   para   a   consulta realizada. ... O   sistema   permite   que   o   usuário   avalie   os   resultados   obtidos   pela propagação de ativação. Sob a perspectiva de aprendizado, esse feedback é o sinal de  treinamento  que  o  sistema  precisa  para  modificar  sua  representação.  Esse feedback  é  automaticamente  utilizado  para  gerar  novas  consultas  que  incluem  os nós marcados positivamente e excluem os nós marcados negativamente.
 
Um  trabalho  muito  interessante  envolvendo  propagação  de  ativação  e Recuperação  de  Informação  que  visa  abordar  esse  problema  foi  apresentado  em (Chen   &   Ng,   1995).   Este   trabalho   visa   prover   um   sistema   que   faça automaticamente  a  exploração  de  uma  base  de  conhecimento  para  o  usuário. Primeiramente,  o  usuário  fornece  os  conceitos  iniciais  pelos  quais  deseja  buscar. A  partir  daí,  o  sistema  faz  uma  exploração  automática  do  grafo  de  conceitos  e retorna, como  resultado, os  conceitos  mais  importantes  relativos  à  consulta.  Esse processo   é   interativo,   já   que   a   cada   passo   o   usuário   avalia   os   resultados apresentados, relatando quais conceitos são relevantes e quais não.  Além  da  navegação  pela  rede,  o  sistema  permite  também  a  busca  por documentos.  O  usuário  utiliza  o  grafo  de  conceitos  para  navegar  e  marcar  os conceitos  que  fazem  parte  de  sua  consulta.  A  partir  dos  conceitos  iniciais,  é utilizada  uma  técnica  de  propagação  de  ativação  para  descobrir  que  documentos estão relacionados à consulta em questão. 
 
TAP  é  um  projeto  da  Universidade  de  Stanford   ... As  consultas  que  esse  sistema  se  propõe  a  ajudar  são  denominadas  de consultas de pesquisa. São aquelas em que as palavras na consulta visam denotar um objeto, a respeito do qual o usuário está tentando obter mais informação. Não existe um documento em particular no qual o usuário esteja interessado. O usuário quer  obter  sim,  um  conjunto  de  documentos  que  vão  lhe  dar  as  informações  que deseja. A busca proposta tenta melhorar os resultados de duas maneiras. A primeira é   aumentando   os   resultados   das   buscas   tradicionais. ... Para obter essas informações, o sistema percorre o grafo  de  recursos  numa  busca  em  largura  a  partir  do  nó  de  origem  (no  caso  do exemplo, o nó Roberto Carlos). A outra maneira pela qual o sistema tenta prover melhores resultados para a busca  é  tentando  extrair  a  semântica  dos  termos  ou  palavras  da  consulta.  Nas consultas   de   pesquisa,   tipicamente   os   termos   querem   denotar   um   (ou ocasionalmente dois) conceito do mundo real. O entendimento da denotação pela qual se está procurando pode ajudar a máquina de busca a entender o contexto da busca,  que  atividades  o  usuário  está  tentando  desempenhar  e  direcionar  as expectativas  quanto  aos  tipos  de  documentos  que  devem  existir.  O  trabalho propõe diversas heurísticas para tentar obter a denotação desejada.  Nem sempre o sistema é capaz de obter a denotação desejada sozinho, e ele pode  pedir  ajuda  ao  usuário. [desambiguação]
 
Um outro trabalho relativo a buscas semânticas foi apresentado em (Davies et  al.,  2002).  [QuizRDF] Neste  trabalho,  foi  proposto  um  sistema  que  combina  as  buscas tradicionais  (fundamentadas  em  palavras)  com  a  possibilidade  de  consulta  e navegação  a  respeito  das  anotações  RDF  desses  recursos.  As  informações  em RDF  são  indexadas  junto  com  a  informação  textual  dos  recursos.  O  índice resultante   permite   que   sejam   feitas  consultas   que   pesquisem   tanto   o   texto completo   do   documento   como   os   valores   literais   que   ocorrem   dentro   das anotações  RDF.  Além  disso,  o  sistema  permite  que  o  usuário  navegue  e  faça consultas  à  ontologia.  Uma  das  grandes  vantagens  desse  trabalho  é  que  a abordagem  adotada  permite  que  a  máquina  de  busca  se  utilize  das  informações semânticas  quando  as  mesmas  existirem  e  se  comporte  como  uma  máquina  de busca tradicional quando não existirem anotações RDF.





Comentários

  1. Essa abordagem e os demais trabalhos relacionados são semelhantes ao que desenvolvi no mestrado

    ResponderExcluir

Postar um comentário

Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.

Postagens mais visitadas deste blog

Connected Papers: Uma abordagem alternativa para revisão da literatura

Durante um projeto de pesquisa podemos encontrar um artigo que nos identificamos em termos de problema de pesquisa e também de solução. Então surge a vontade de saber como essa área de pesquisa se desenvolveu até chegar a esse ponto ou quais desdobramentos ocorreram a partir dessa solução proposta para identificar o estado da arte nesse tema. Podemos seguir duas abordagens:  realizar uma revisão sistemática usando palavras chaves que melhor caracterizam o tema em bibliotecas digitais de referência para encontrar artigos relacionados ou realizar snowballing ancorado nesse artigo que identificamos previamente, explorando os artigos citados (backward) ou os artigos que o citam (forward)  Mas a ferramenta Connected Papers propõe uma abordagem alternativa para essa busca. O problema inicial é dado um artigo de interesse, precisamos encontrar outros artigos relacionados de "certa forma". Find different methods and approaches to the same subject Track down the state of the art rese...

Knowledge Graph Embedding with Triple Context - Leitura de Abstract

  Jun Shi, Huan Gao, Guilin Qi, and Zhangquan Zhou. 2017. Knowledge Graph Embedding with Triple Context. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (CIKM '17). Association for Computing Machinery, New York, NY, USA, 2299–2302. https://doi.org/10.1145/3132847.3133119 ABSTRACT Knowledge graph embedding, which aims to represent entities and relations in vector spaces, has shown outstanding performance on a few knowledge graph completion tasks. Most existing methods are based on the assumption that a knowledge graph is a set of separate triples, ignoring rich graph features, i.e., structural information in the graph. In this paper, we take advantages of structures in knowledge graphs, especially local structures around a triple, which we refer to as triple context. We then propose a Triple-Context-based knowledge Embedding model (TCE). For each triple, two kinds of structure information are considered as its context in the graph; one is the out...

KnOD 2021

Beyond Facts: Online Discourse and Knowledge Graphs A preface to the proceedings of the 1st International Workshop on Knowledge Graphs for Online Discourse Analysis (KnOD 2021, co-located with TheWebConf’21) https://ceur-ws.org/Vol-2877/preface.pdf https://knod2021.wordpress.com/   ABSTRACT Expressing opinions and interacting with others on the Web has led to the production of an abundance of online discourse data, such as claims and viewpoints on controversial topics, their sources and contexts . This data constitutes a valuable source of insights for studies into misinformation spread, bias reinforcement, echo chambers or political agenda setting. While knowledge graphs promise to provide the key to a Web of structured information, they are mainly focused on facts without keeping track of the diversity, connection or temporal evolution of online discourse data. As opposed to facts, claims are inherently more complex. Their interpretation strongly depends on the context and a vari...