Referência DOI:
https://doi.org/10.17771/PUCRio.acad.4043
Introdução
Isso não significa que os indivíduos estejam realmente encontrando o que precisam na velocidade que deveriam. Essa discrepância decorre do fato de que a maioria das máquinas de busca são baseadas na ocorrência de palavras-chave, o que não permite um entendimento real da necessidade do usuário.
No entanto, percebeu-se também que, para que esse acesso [nas organizações] seja eficiente, as organizações necessitam desenvolver categorias e estruturas de informação que façam sentido para seu próprio negócio e as comunidades específicas que usam o sistema. A categorização acrescenta a informação fundamental de indexação nos documentos, facilitando a busca futura. As taxonomias são regras de alto nível para organizar e classificar informação. A taxonomia torna intuitivo para os empregados o processo de busca por uma informação específica, colocando-os em contato com tópicos e categorias relacionadas não previstas anteriormente.
Entenda-se aqui como semântica a capacidade de se processar e interpretar algum tipo de informação computacionalmente (Uschold, 2001), e não apenas através da mente humana.
... convergência na necessidade de se estruturar semanticamente a informação para que ela seja mais facilmente acessada. .... a utilização de estruturas semânticas para a modelagem de um determinado domínio de conhecimento. No caso da Gestão do Conhecimento, isso é feito através das taxonomias e thesaurus que são casos particulares de uma ontologia. Na Web Semântica, isso é feito através da utilização das ontologias propriamente ditas.
... poucas iniciativas no sentido de aproveitar esses modelos semânticos para a realização de inferências. A área de Inteligência Artificial foi a primeira área a utilizar estruturas semânticas e modelos de conhecimento. Vários métodos foram desenvolvidos no sentido de realizar inferências a partir de definições semânticas.
Este trabalho propõe a utilização de uma abordagem híbrida, pouco explorada na literatura. Nela, as redes onde a propagação de ativação ocorrerá possuirão tanto arestas com rótulos como pesos numéricos associados. Os rótulos das arestas serão provenientes da modelagem do domínio específico (feitas manualmente por seres humanos). Já os pesos numéricos serão gerados automaticamente através de técnicas de mapeamento de pesos. As técnicas de mapeamento de pesos tentam inferir que instâncias estão mais fortemente relacionadas dentro de um determinado contexto, atribuindo um peso numérico para cada uma das arestas existentes na rede. O objetivo final é permitir que aplicações que possuam um modelo de conhecimento possam utilizar suas estruturas semânticas para prover novas funcionalidades. Muitas dessas funcionalidades são possíveis devido às inferências realizadas no modelo semântico pelas técnicas de propagação de ativação. Entre as funcionalidades propostas nesta dissertação estão: (1) Busca semântica (2) Sugestão de novos relacionamentos (3) Expansão de Consulta (4) Ordenação dos Elementos Relacionados
Conceitos Básicos
Redes semânticas têm desempenhado um papel muito importante no campo de representação de conhecimento desde que foram introduzidas em (Quillian, 1968). De acordo com a definição de Quillian, redes semânticas expressam conhecimento em termos de conceitos, suas propriedades e uma hierarquia entre esses conceitos. Todo conceito é representado por um nó e as relações hierárquicas entre conceitos são representadas por arcos do tipo “is-a” ou “instance-of”. Os conceitos se tornam mais abstratos, à medida que se sobe na hierarquia. Propriedades também são representadas por nós. Para se representar que uma propriedade se aplica a um determinado conceito utiliza-se um arco rotulado do conceito para a propriedade. Tipicamente uma propriedade está ligada ao conceito mais alto na hierarquia para o qual a propriedade se aplica. Se uma propriedade se aplica a um determinado nó, assume-se que ela se aplica a qualquer nó que seja descendente dele.
Redes Associativas são bastante semelhantes às redes semânticas. A principal diferença entre elas é que nas redes associativas as arestas não possuem rótulos associados a elas e sim pesos, ou seja, as arestas são sub-simbólicas. Todas as arestas são do mesmo tipo e o peso é tipicamente um número real que corresponde de alguma maneira a força da relação entre os nós.
Nas fases de pré-ajuste e pós-ajuste, que são opcionais, alguma forma de decaimento de ativação pode ser aplicada aos nós ativos. Restrições com relação à propagação também podem ser adicionadas. Nos modelos mais complexos de propagação de ativação, várias restrições são impostas com relação à propagação nas fases de pré e pós-ajuste. Essa é a maior diferença entre os modelos de propagação puros e os mais complexos. A fase de propagação consiste da passagem de ondas de ativação de um nó para todos os nós conectados a ele.
Depois que é calculado o quanto de fluxo está chegando a um nó, deve-se calcular o quanto de ativação esse nó vai propagar para os nós aos quais está conectado. Pulso após pulso, a propagação se espalha pela rede atingindo nós que estão distantes dos nós onde a propagação começou. Após um determinado número de pulsos serem disparados, verificam-se as condições de parada. Se elas forem atingidas, a propagação termina. Caso contrário, um novo conjunto de pulsos é disparado. O processo de propagação é iterativo, constituindo-se de uma seqüência de pulsos e verificações de parada.
A propagação deve utilizar a informação semântica das arestas para processá-las de maneiras diferentes. Assim, é possível se implementar heurísticas na propagação, fazendo com que a propagação se dê através de caminhos preferenciais. Isso permite uma propagação de acordo com algumas regras de inferência. A maneira mais comum de se implementar esse tipo de propagação é através da utilização de restrições na propagação. A seguir serão apresentadas as restrições mais utilizadas [tem outras ...].
Restrição de distância: a propagação deve terminar quando atingir nós que estejam longe dos nós onde a propagação se iniciou.
Restrição de caminho: a ativação deve se propagar por caminhos preferenciais de acordo com a definição da aplicação.
Dentre os diversos métodos de ponderação, um deles ficou especialmente famoso e é atualmente um dos mais utilizados pela maioria dos IRSs. Esse método possui três termos. O primeiro termo tenta avaliar o quanto uma palavra é importante para um documento. A esse termo dá se o nome de TF (freqüência do termo). Esse valor é proporcional ao número de ocorrências da palavra dentro do documento. O segundo termo se preocupa em analisar se a palavra é um bom discriminador dentro do conjunto de documentos existentes. Palavras que aparecem em muitos documentos acabam não ajudando muito na recuperação. A esse termo dá-se o nome de IDF (freqüência inversa de domínio). O terceiro termo é inversamente proporcional ao tamanho do documento. Esses termos são multiplicados para se obter o peso da relação entre uma palavra e um documento em particular.
O conceito de Ontologia é oriundo da Filosofia e consiste tipicamente em definições de conceitos, suas relações e axiomas (Staab et. al, 2000). As relações entre os conceitos da ontologia podem ser tanto taxonômicas como não taxonômicas, permitindo um mapeamento bastante próximo da realidade do domínio em questão e, conseqüentemente, uma linguagem mais adequada para a comunicação e para seu entendimento. As ontologias provêem uma conceitualização formal de um domínio particular que é compartilhada por um grupo de pessoas.
Trabalhos Relacionados
O sistema GRANT (Cohen & Kjeldsen, 1987) (Kjelsden & Cohen, 1987) foi um dos primeiros sistemas a utilizar técnicas de Propagação de Ativação com Restrições em Recuperação de Informação. Nesse sistema, conhecimento relacionado a propostas de pesquisa e potenciais agências financiadoras é organizado por meio de uma rede semântica. Tópicos de pesquisa e agências são conectados, utilizando-se uma grande variedade de ligações de associação que formam uma densa rede. Uma consulta é expressa por uma ou mais áreas de pesquisa, ou uma ou mais agências financiadoras. A busca é feita através de uma Propagação de Ativação com Restrições pela rede, utilizando-se de várias das restrições descritas nos conceitos básicos. O objetivo do sistema é achar agências financiadoras para propostas de pesquisa. O sistema utiliza-se fortemente de regras de inferência do seguinte tipo: se uma agência financiadora se interessa por um tópico x e existe uma relação entre o tópico x e o tópico y, é possível que a agência financiadora também se interesse pelo tópico y. .... Uma das maiores limitações do sistema era a dificuldade de ajuste dos parâmetros para garantir que apenas caminhos válidos fossem percorridos.
A representação básica do sistema AIR é através de uma rede que possui três tipos de nós: documentos, palavras-chave e autores. ... Os usuários podem definir sua necessidade de informação através de uma linguagem de consulta bem simples. Uma consulta é constituída de diversas “frases”. Em cada frase, o usuário pode se referir a um dos conceitos existentes no sistema (palavras-chave, autores, documentos). Essa consulta faz com que as instâncias dos nós referidos na consulta passem a ter atividade na rede. Essa atividade se propaga na rede e a resposta do sistema é o conjunto de nós que se tornam mais ativos durante a propagação. ... O grafo mostrado como resultado é composto de palavras-chave, documentos e autores que foram considerados relevantes para a consulta realizada. ... O sistema permite que o usuário avalie os resultados obtidos pela propagação de ativação. Sob a perspectiva de aprendizado, esse feedback é o sinal de treinamento que o sistema precisa para modificar sua representação. Esse feedback é automaticamente utilizado para gerar novas consultas que incluem os nós marcados positivamente e excluem os nós marcados negativamente.
Um trabalho muito interessante envolvendo propagação de ativação e Recuperação de Informação que visa abordar esse problema foi apresentado em (Chen & Ng, 1995). Este trabalho visa prover um sistema que faça automaticamente a exploração de uma base de conhecimento para o usuário. Primeiramente, o usuário fornece os conceitos iniciais pelos quais deseja buscar. A partir daí, o sistema faz uma exploração automática do grafo de conceitos e retorna, como resultado, os conceitos mais importantes relativos à consulta. Esse processo é interativo, já que a cada passo o usuário avalia os resultados apresentados, relatando quais conceitos são relevantes e quais não. Além da navegação pela rede, o sistema permite também a busca por documentos. O usuário utiliza o grafo de conceitos para navegar e marcar os conceitos que fazem parte de sua consulta. A partir dos conceitos iniciais, é utilizada uma técnica de propagação de ativação para descobrir que documentos estão relacionados à consulta em questão.
O TAP é um projeto da Universidade de Stanford ... As consultas que esse sistema se propõe a ajudar são denominadas de consultas de pesquisa. São aquelas em que as palavras na consulta visam denotar um objeto, a respeito do qual o usuário está tentando obter mais informação. Não existe um documento em particular no qual o usuário esteja interessado. O usuário quer obter sim, um conjunto de documentos que vão lhe dar as informações que deseja. A busca proposta tenta melhorar os resultados de duas maneiras. A primeira é aumentando os resultados das buscas tradicionais. ... Para obter essas informações, o sistema percorre o grafo de recursos numa busca em largura a partir do nó de origem (no caso do exemplo, o nó Roberto Carlos). A outra maneira pela qual o sistema tenta prover melhores resultados para a busca é tentando extrair a semântica dos termos ou palavras da consulta. Nas consultas de pesquisa, tipicamente os termos querem denotar um (ou ocasionalmente dois) conceito do mundo real. O entendimento da denotação pela qual se está procurando pode ajudar a máquina de busca a entender o contexto da busca, que atividades o usuário está tentando desempenhar e direcionar as expectativas quanto aos tipos de documentos que devem existir. O trabalho propõe diversas heurísticas para tentar obter a denotação desejada. Nem sempre o sistema é capaz de obter a denotação desejada sozinho, e ele pode pedir ajuda ao usuário. [desambiguação]
Um outro trabalho relativo a buscas semânticas foi apresentado em (Davies et al., 2002). [QuizRDF] Neste trabalho, foi proposto um sistema que combina as buscas tradicionais (fundamentadas em palavras) com a possibilidade de consulta e navegação a respeito das anotações RDF desses recursos. As informações em RDF são indexadas junto com a informação textual dos recursos. O índice resultante permite que sejam feitas consultas que pesquisem tanto o texto completo do documento como os valores literais que ocorrem dentro das anotações RDF. Além disso, o sistema permite que o usuário navegue e faça consultas à ontologia. Uma das grandes vantagens desse trabalho é que a abordagem adotada permite que a máquina de busca se utilize das informações semânticas quando as mesmas existirem e se comporte como uma máquina de busca tradicional quando não existirem anotações RDF.
Essa abordagem e os demais trabalhos relacionados são semelhantes ao que desenvolvi no mestrado
ResponderExcluir