Problema de Pesquisa
Dada uma necessidade de informação, orientada a tarefa e expressa em uma consulta em linguagem natural, e uma Base de Conhecimento (KB), composta por um conjunto de afirmações contextualizadas, como é possível recuperar a melhor resposta para esta consulta?
Hipótese de Pesquisa
A hipótese levantada é que o Oráculo poderá responder a melhor resposta através da utilização de técnicas de Processamento de Linguagem Natural (NLP) e Aprendizado de Máquina (ML) tanto no fluxo de recuperação dessa resposta quanto nos procedimentos de atualização e enriquecimento da KB, bem como da modelagem da KB como um Grafo de Conhecimento (KG) hiper relacional representando afirmações e consultas contextualizadas.
Proposta de Solução
-
Utilizar técnicas de NLP e ML para calcular a similaridade semântica
entre uma consulta em linguagem natural e as perguntas, contextos e as
afirmações contextualizadas representadas em um KG hiper relacional para
identificar a melhor resposta.
- Utilizar Word embeddings e Topic modelling para enriquecer o KG
- Utilizar o log de consultas e métricas de satisfação do usuário para guiar o processo de Engenharia do KG
Objetivo de Pesquisa
A partir de uma consulta em linguagem natural e uma KB composta por um conjunto de afirmações contextualizadas e representada por um KG hiper relacional, avaliar, considerando o nível de satisfação do usuário com o resultado, se a melhor resposta recuperada atende a necessidade de informação que motivou a busca.
Definição de Necessidade de Informação
Uma necessidade de informação surge da percepção de uma diferença entre um
estado ideal de conhecimento e o estado real de conhecimento. Tal percepção é decorrente do reconhecimento de que o conhecimento de um agente é
inadequado para satisfazer um objetivo desejado. Suponha que uma pessoa no Brasil esteja navegando em um site de vendas internacional e se interessou por um produto cujo preço é apresentado em dólares. Esta pessoa não sabe qual o valor exato da conversão de dólar para real, e esta informação é essencial para comparar o preço desse produto com outros sites de vendas do Brasil então ela inicia um processo de busca de informações.
A busca de informações é
um esforço consciente para adquirir informações em resposta a esta
necessidade cujo resultado esperado é mudar seu estado final de
conhecimento. A busca será encerrada quando esse agente julgar que a lacuna de conhecimento foi resolvida ou quando o processo atingiu alguma restrição do contexto da tarefa como, por exemplo, o prazo para tomar a decisão ou restrição dos sistemas como, por exemplo, o limite de acesso aos dados. No cenário descrito anteriormente, o usuário pode abrir uma nova aba do navegador e digitar na barra de endereço a seguinte consulta em linguagem natural: "cotação do dolar hoje". O resultado dessa consulta recupera, além do valor de conversão Real Brasileiro X Dolar Americano em destaque, o histórico de variação desse valor em um período de tempo e outras moedas em duas listas de conversão bem como perguntas similares a consulta e uma lista de páginas potencialmente relevantes à busca.
A satisfação do usuário em relação ao resultado da busca está relacionada não só com a acurácia da resposta mas também com a efetiva utilização das informações encontradas face ao objetivo que motivou a mesma.
Definição de Satisfação do Usuário
A satisfação do usuário é uma percepção subjetiva, individual e dependente do atendimento da motivação da busca por informação. No que diz respeito ao usuário que realiza a busca, o valor atribuído as informações de contexto anexadas às afirmações recuperadas do KG depende do conhecimento prévio do usuário e da especificidade da tarefa e isso pode interferir diretamente no nível de satisfação do usuário.Definição de Afirmações Contextualizadas
Afirmação ou alegação representa o que pode ser dito (explicitado) sobre o mundo. Uma afirmação pode ser verdadeira ou falsa dependendo do contexto. Contexto é escopo onde uma afirmação pode ser considerada verdadeira. Aqui é considerarado que a verdade não é absoluta já que se fosse absoluta seria independente de contexto. Enquanto Crenças (Belief) são "âncoras", são afirmações aceitas como Verdades Absolutas, sem justificativa.
O contexto das afirmações pode ser referente a um período de tempo durante o qual tal afirmação é verdadeira ou o momento exato que a afirmação ocorreu.O contexto também pode se referir ao espaço, tema, tarefa ou até mesmo nível de precisão contido na afirmação. Incluir informações contextuais para estabelecer o escopo das afirmações contribui para melhorar a qualidade dos dados e, em tarefas que requerem interpretação e analise de dados, a utilidade do contexto fica evidente.
Uma afirmação se torna Conhecimento quando um agente realiza uma ação com base nela. Se as justificativas que sustentam a afirmação forem válidas para o agente então o mesmo pode confiar na afirmação a ponto de agir de acordo. Charles S. Peirce propôs que conhecimento é uma informação em que se acredita o suficiente para tomada de decisão (act in) [Bergman 2018].
Definição de Melhor Resposta
A melhor resposta é o resultado de uma consulta em linguagem natural sobre uma Base de Conhecimento (KB) considerando que tanto a consulta em linguagem natural quanto a KB podem estar incompletas. A melhor resposta pode ser classificada em:
- não-resposta (NR), quando o KB não contém afirmações sobre o assunto da consulta;
- resposta exata (RE), quando o KB contém a resposta para a consulta em linguagem natural no contexto da tarefa de busca;
- resposta possível (RP), quando o KB contém a consulta em linguagem natural ou a tarefa de busca e
- respostas
aproximadas (RA), quando o KB não contém a consulta em linguagem natural e
nem tarefa de busca mas contém afirmações sobre o assunto da consulta.
Definição de Base de Conhecimento (KB)
KB foram definidas dentro do campo de estudo de Knowledge Representation (KR) como uma coleção de estruturas simbólicas usadas para representar proposições acreditadas (crenças) por algum suposto agente. Um KB não representa todas as proposições acreditadas por esse agente, sendo por natureza incompleto, porém o conjunto de proposições pode ser usado para gerar novas proposições. As quatro principais formas de organizar essas estruturas simbólicas são: logic, rule-based, frames, semantic networks [Davis et al 1993], conforme definido a seguir.
KBs que utilizam a representação lógica (logic) são compostos por uma linguagem com sintaxe e semântica bem definidas, ou seja, sem ambiguidade de modo que suportam inferência logicamente correta. A sintaxe define como as proposições podem ser construídas e quais símbolos podem ser usados enquanto a semântica define como as proposições devem ser interpretadas. KBs do tipo rule-based tem por objetivo representar proposições como padrões extraídos dos dados que podem ser expressos na forma de uma regra SE-ENTÃO. Esse tipo de representação é mais apropriada para implicações lógicas e para associar ações a condições como regras de decisão.
No caso das semantic networks essas proposições são modeladas como um grafo. Os nós rotulados são símbolos atômicos que representam instâncias de objetos, conjuntos de objetos (classes), situações, ações e outras entidades de interesse. As arestas rotuladas representam relacionamentos, geralmente binários, entre essas entidades. Esse tipo de representação possui semântica através da definição dos termos que descrevem os objetos e das relações entre eles. A semântica, ou seja, o significado dos dados, é codificado junto com os dados no próprio grafo e reflete em aspectos que restringem a topologia da rede. Novo conhecimento pode ser gerado explorando relacionamentos e caminhos entre as entidades. Já os frames são essencialmente uma rede semântica na qual as entidades são representados por quadros em vez de símbolos atômicos, ou seja, todo o conhecimento sobre um determinado objeto ou evento é armazenado em conjunto.
Qualquer representação escolhida é uma aproximação (e por isso imperfeita) da realidade. Cada aproximação dá ênfase (foco) em alguns aspectos e ignora (ou diminui a importância, desfoca) de outros logo a escolha de qual representação é mais adequada depende de decisões sobre como e o que se quer analisar ou explorar ao representar o mundo. A seleção criteriosa de qual representação é mais adequada oferece a oportunidade de focar a atenção nos aspectos considerados mais relevantes em determinado escopo de uso.Definição de Grafo de Conhecimento (KG)
Existem diversas definições na literatura sobre o que é um KG, algumas vinculadas ao modelo de dados usado (nível simbólico de representação, como representar) e outras focando no que deve ser representado.
Nesta pesquisa adotaremos que KGs são KBs, como exposto em [Weikum 2021], do tipo semantic networks. Neste tipo de KB, os relacionamentos são o foco da análise. Os elementos do KG rotulados em linguagem natural facilitam a consulta e a exploração por agentes humanos reduzindo a lacuna de comunicação entre os provedores de dados e os consumidores uma vez que a terminologia seja restrita ao domínio de interesse. KGs podem ser representados através de modelos de dados de grafos existentes como RDF, LPG, RDF-Star, NG, 1G, DG (MilleniumDB), WD (Wikidata), o que lhes confere flexibilidade. Um KG pode representar crenças e afirmações contextualizadas de diferentes agentes mas ainda assim são incompletos.
KG também possui a capacidade de geração de novo conhecimento, ou seja, KGs são capazes de utilizar reasoners e redes neurais para deduzir relacionamentos implícitos entre nós originalmente isolados, completando o próprio KG [Arenas et al 2021]. Ao usar um grafo como recurso de abstração para representar o conhecimento é possível explorar diversos algoritmos de grafo, como os de análise de redes, para gerar mais conhecimento através das conexões entre as afirmações. As conexões podem se revelar por caminhos no grafo ligando entidades, conceitos ou valores de propriedades (nós) através de afirmações (arestas).
KG Hiper Relacional
No que diz respeito às afirmações contextualizadas, o contexto se distingue dos demais elementos do KG pela semântica: o contexto tem por objetivo expressar algum significado que não pode ser capturado somente com a representação dos elementos e de seus relacionamentos em um KG mas é essencial para a sua correta interpretação das afirmações. De acordo com [Marx et al 2017], mesmo não havendo uma definição formal do que seria um KG, o que diferencia um KG de um conjunto de dados organizado em um modelo de dados em grafo qualquer é a necessidade de enriquecer esses dados com informações de contexto.
Os pares de propriedade-valor associados aos atributos das entidades e aos relacionamentos entre entidades, também chamados de qualificadores, formando um KG hiper relacional. Os qualificadores permitem diferenciar instâncias de relacionamentos quando os mesmos envolvem o mesmo par de entidades e o mesmo tipo de relação. Também podem qualificar quando existe mais de uma ocorrência de relacionamento entre a entidades e os seus valores de atributos. Usando o modelo de dados em grafo hiper relacional a representação de contexto é direta uma vez que as afirmações são associadas ao contexto através de arestas que representam os qualificadores.
Qualificadores de contexto temporal permitem responder a perguntas do tipo Quando ou restringir as afirmações a um determinado intervalo de tempo. Contexto espacial (ou geográfico) pode responder a perguntas Onde ou restringir as afirmações a uma determinada localidade.
Contexto de proveniência permite associar as afirmações as fontes a partir das quais a afirmação pode ser verificada e proveem rastreamento da proveniência das informações de um KG gerado para integração de dados. Isso permite que as afirmações sejam avaliadas pelos usuários em termos de credibilidade e confiabilidade. Afirmações contextualizadas podem ser relacionadas pelo compartilhamento de um contexto em comum que pode representar a concomitância de ocorrência temporal de afirmações, proximidade geográfica de afirmações, semelhança temática de afirmações, entre outros fenômenos.
Tornar o contexto explícito permite a interpretação das afirmações sob diferentes perspectivas. Assim o Oráculo pode responder o que sabe, e também como e por que sabe. Porém, cabe ressaltar que por mais que o modelo hiper relacional permita a representação do contexto ainda é possível que a representação de uma afirmação não seja completa e por isso imprecisa.
Definição de Word Embeddings
De um modo geral, as técnicas de geração de embeddings convertem qualquer representação simbólica (Texto, Imagem, Grafo) em vetores de números reais com baixa dimensionalidade. Word embeddings representam cada palavra em um vetor de números reais com dimensão muito menor que o tamanho do vocabulário do conjunto de documentos (corpus). Esta técnica de processamento de linguagem natural (NLP) é usada em diversas tarefas tais como: tradução, similaridade entre palavras, classificação de documentos, parsing, análise de sentimentos e etc.
Word embeddings são representações vetoriais para texto em que palavras ou frases com significado ou contexto semelhantes têm representações próximas no espaço vetorial. As intuições primárias são de que a co-ocorrência de palavras em contextos semelhantes indica que essas palavras são semanticamente relacionadas. As representações vetoriais foram desenvolvidas para quantificar a semântica das palavras, não o significado exato da palavra, mas contextual.
Definição de Topic Modelling
Topic Modelling permite organizar, entender e resumir grandes coleções de informações textuais, usando uma abordagem não supervisionada para agrupar os documentos. Com esta técnica é possível descobrir tópicos latentes presentes em uma coleção de documentos (corpus), anotar cada documento com os tópicos para filtrar e agrupar os mesmos. A extração de tópicos a partir dos rótulos e valores dos elementos do KG, que compõem as afirmações contextualizadas, e da consulta em linguagem natural permite verificar se a consulta está dentro do escopo do conhecimento representado no KG.
Definição de Similaridade Semântica
A especificação de uma consulta em linguagem natural pelo usuário que busca informações está sujeita a alguns problemas em potencial: descasamento terminológico (simbólico) em relação aos rótulos e valores dos elementos do KG, a incompletude em relação ao contexto da necessidade de informação e ambiguidade de interpretação. Uma abordagem do tipo exact match (sintático) nestes casos pode não recuperar a melhor resposta mesmo que esta exista na KB. Uma abordagem de soft match (semântica) permite contornar estes problemas.
As afirmações contextualizas presentes no KB e as consultas em linguagem
natural elaboradas pelos usuários podem ser representadas no mesmo
espaço vetorial usando embeddings. A similaridade semântica entre textos, não no sentido de sinônimos, mas de proximidade no espaço vetorial é calculada usando métricas de similaridade entre vetores de embeddings. Este cálculo permite identificar as afirmações mais próximas as consultas como respostas aproximadas.
Algumas métricas possíveis são: Similaridade do Cosseno, Coeficiente Dice, Distância de Manhattan (L1 norm), Distância Euclidiana (L2 norm).
Métricas de QoE (Quality of Experience)
Qualidade da Experiência (QoE), conforme definido pela ITU-T, refere-se à aceitabilidade geral de um aplicativo ou serviço, conforme percebido subjetivamente pelo usuário final. A avaliação da eficácia da melhor resposta requer métricas associadas a satisfação do usuário ao utilizar a busca no KG. Três métricas serão utilizadas para avaliação baseadas nas classes de
melhor resposta: Não Resposta (NR), Resposta Exata (RE), Resposta
Possível (RP) e Resposta Aproximada (RA).
A métrica taxa de resposta de consultas (TR) é o resultado do somatório de RAs + RPs + RE dividido pelo total de consultas. Essa medida descarta as NR uma vez que é assumido como premissa que o Oráculo não sabe tudo, ou seja, que o KB é incompleto por essência e que não tem por objetivo cobrir todos os tópicos das consultas. Se
a TR for menor que um threshold X, Oráculo está rejeitando consultas pq: (1) o KG ainda é
muito incompleto; (2) o usuário tem necessidades de informação que o KG
não cobre.
A métrica Taxa de sucesso nas respostas (SR) é o resultado da soma ponderada, onde é atribuído peso = 1 para respostas onde o usuário fique satisfeito e peso = 0.5 para respostas onde o usuário fique parcialmente satisfeito. A fórmula de cálculo é:
(RAs x Satisfeito) + (RPs x Satisfeito) + (RE x Satisfeito) + (RAs x Parcialmente x 0.5) / (RAs + RPs + RE)
Se
SR menor que um threshold X, Oráculo não está ajudando pq: (1) o KG ainda é muito
incompleto; (2) o usuário tem necessidades de informação que o KG não
cobre e; (3) o usuário não confia nas afirmações contextualizadas apresentadas como melhor reposta.
A terceira medida se refere ao nível de QoE level conforme fórmula abaixo:
Satisfeito x A + Parcialmente Satisfeito x B + Insatisfeito x C / Total de consultas
Como o KG é incompleto, podemos assumir as seguintes relações para os pesos A > B > C e A + B + C = 1. Os pesos podem ser calibrados a medida que os Engenheiros do KG aumentem a cobertura das afirmações, contextos, tópicos, e consultas que o KG tem capacidade de responder.
A hipótese é uma resposta provisória a uma pergunta de pesquisa. Provisória enquanto não for testada.
ResponderExcluirSe a resposta não é provisória já foi provada então não é objeto de pesquisa mais, viés de confirmação.
ExcluirSe a hipótese for negada é definitivo. Se for corroborada é provisório.
ExcluirSe a hipotese for testada, é possível generalizar para uma tese.
ExcluirSe a hipótese for testada é possível gerar uma conclusão.
Excluir