Pular para o conteúdo principal

Reunião Orientação PUC - Sérgio 20/07/2023

PREMISSAS

(1) Pergunta potencialmente incompleta (OK)

a) Qual capital Brasil? 

graph query (?v1, capital de, Brasil) ... incompleta em relação ao contexto temporal e proveniência

 b) Qual capital Brasil HOJE? 

graph query id1 (?v1, capital de, Brasil), (id1, período, HOJE) ... completa em relação ao contexto temporal e incompleta em relação a proveniência

 c) Qual capital Brasil HOJE de acordo com a Lei Federal? 

graph query id1 (?v1, capital de, Brasil), (id1, período, HOJE), (id1, fonte, ?v2), (?v2, tipo, Lei Federal) ... completa em relação ao contexto temporal e a proveniência

Abordagem: 

Interagir em caso de pergunta incompleta? NÃO. O usuário pode ter assumido um contexto implícito e saberia completar caso questionado mas talvez nem o usuário saiba completar o contexto da pergunta (caso da Betina).

Responder sem Interagir (One-Shot/Stateless), completar o Contexto que foi mapeado e fornecer uma ÚNICA resposta composta por todas as Alegações Contextualizadas que corresponde a um sub-grafo (mesmo que desconexo) do KG, indicando os valores de contexto que estão unbounded nas instâncais do KG (caso existam)

  • A capital do Brasil hoje é Brasília, desde 21/04/1960, de acordo com a LEI No 3.273, DE 1º DE OUTUBRO DE 1957
  • A capital do Brasil foi Rio de Janeiro, entre xx e 20/04/1960, de acordo com ....
  • A capital do Brasil foi Salvador, entre yyy e xx, de acordo com ....

"def. CHATO" no elevador .... e aí, tudo bem? Não. Aconteceu isto, aquilo, etc ... Responde além do que se espera socialmente MAS não poderia desvirtuar da pergunta original

(2) KG incompleto em relação a instâncias e esquema mas o mapeamento do contexto é completo em relação ao KG (OK)

KG incompleto é característica que herdou dos KB e por isso Mundo Aberto. Mas é Dual OWA uma vez que são construídos através de técnicas de extração do conhecimento da Web / Corpus /Datasets e/ou de modo colaborativo, podendo conter viés, incongruências, controvérsias, etc ... 

O mapeamento do contexto é completo em relação ao que é possível identificar no KG como contexto, seja pelo esquema ou pelas instâncias. Caso a pergunta tenha um contexto ainda não mapeado é pq este contexto não existe no KG. Para incluir o contexto é necessário mapear quais serão as propriedades, relacionamentos e qualificadores que irão representar este contexto, criar os mapeamentos e depois popular o KG com instâncias.

BUSCAS NA WEB

A ferramenta de busca não interage para informar o usuário que a consulta dele está incompleta. Assume um contexto default para os resultados mais relevantes da lista, que pode ser a localização mais próxima do usuário (exemplo de Taj Mahal como restaurante na Lagoa, tem até neste outro artigo este exemplo), o tempo presente (exemplo da capital do Brasil é Brasilia). Mas sempre traz todos os matches, ou seja, todas as respostas em outras páginas. 

O usuário faz múltiplas interações ao perceber que os primeiros resultados não correspondem a sua intenção de busca, podendo acrescentar mais palavras para filtrar ou então mudando o conjunto de palavras:

#1 Usuário Veronica ... Google "acho que a resposta está neste conjunto de itens nesta ordem"
#2 Usuário Veronica Lattes ... Google "acho que a resposta está neste conjunto de itens nesta ordem mas agora deve estar mais perto"
#3 Usuário Veronica aluna PUC Lattes ... Google "acho que a resposta está neste conjunto de itens nesta ordem mas agora deve estar mais perto ainda"

Reposta em IR são UMA LISTA de itens ordenados (ranking) enquanto que a busca no CKG sempre retorna uma ÚNICA resposta composta por um sub-grafo do KG sem critério de ordenação, a interface pode ordenar ou não.

Usar o CKG poderia rankear melhor? Melhor em qual sentido? 

Talvez ter um critério de ordenação que seja associado a Algebra do Contradomínio dos valores de contexto (datas, coordenadas, peso da reputação das fontes)

INFORMATION SEEKING

Necessidade de Informação: Dado que o estado do RJ é o segundo estado com mais servidores públicos federais, qual seria a explicação (POR QUE) deste fenômeno?

Painel Estatístico de Pessoal

Perguntamos ao ChatGPT e ele dá uma resposta genérica mas cita que o Rio de Janeiro (estado ou cidade) já foi (e também que é) capital do Brasil. 

Em um processo de Busca Exploratória, em algum momento das interações de pesquisa do usuário, poderia surgir a seguinte pergunta: 

A cidade do Rio de Janeiro (ou alguma cidade no estado do RJ) já foi capital do Brasil?

graph query (Rio de Janeiro, capital, Brasil) OU (?v1, capital, Brasil), (?v1, localizada em, RJ)

A reposta seria contextualizada: A capital do Brasil foi Rio de Janeiro, entre xx e 20/04/1960, de acordo com ....

A resposta contextualizada evitaria interações adicionais no processo para perguntas como QUANDO? DE ACORDO COM O QUE? Com isto podemos supor que esta abordagem é melhor no aspecto de esforço (custo) dentro de uma Busca Exploratória uma vez que o usuário faria menos interações de consulta para obter informações adicionais sobre as respostas então ficaria satisfeito mais rápido. Mas esta seria uma métrica válida para avaliar a pergunta de pesquisa ou outros aspectos como o desenvolvimento de competências informacionais (ILA)?

Does the effectiveness of [knowledge graphs] exploratory search process increase when explicit contextualized information is retrieved?

Busca Exploratória seria um CASE de teste para avaliar a aplicação de CKG e abordagem de consulta ALL CONTEXTUALIZED ANSWERS ou realmente o escopo da proposta estaria limitada a este tipo de busca não se aplicando a outros cenários (LookUP, Sistemas de Recomendação, Q&A, ...)?


Comentários

Postagens mais visitadas deste blog

Connected Papers: Uma abordagem alternativa para revisão da literatura

Durante um projeto de pesquisa podemos encontrar um artigo que nos identificamos em termos de problema de pesquisa e também de solução. Então surge a vontade de saber como essa área de pesquisa se desenvolveu até chegar a esse ponto ou quais desdobramentos ocorreram a partir dessa solução proposta para identificar o estado da arte nesse tema. Podemos seguir duas abordagens:  realizar uma revisão sistemática usando palavras chaves que melhor caracterizam o tema em bibliotecas digitais de referência para encontrar artigos relacionados ou realizar snowballing ancorado nesse artigo que identificamos previamente, explorando os artigos citados (backward) ou os artigos que o citam (forward)  Mas a ferramenta Connected Papers propõe uma abordagem alternativa para essa busca. O problema inicial é dado um artigo de interesse, precisamos encontrar outros artigos relacionados de "certa forma". Find different methods and approaches to the same subject Track down the state of the art rese...

Knowledge Graphs as a source of trust for LLM-powered enterprise question answering - Leitura de Artigo

J. Sequeda, D. Allemang and B. Jacob, Knowledge Graphs as a source of trust for LLM-powered enterprise question answering, Web Semantics: Science, Services and Agents on the World Wide Web (2025), doi: https://doi.org/10.1016/j.websem.2024.100858. 1. Introduction These question answering systems that enable to chat with your structured data hold tremendous potential for transforming the way self service and data-driven decision making is executed within enterprises. Self service and data-driven decision making in organizations today is largly made through Business Intelligence (BI) and analytics reporting. Data teams gather the original data, integrate the data, build a SQL data warehouse (i.e. star schemas), and create BI dashboards and reports that are then used by business users and analysts to answer specific questions (i.e. metrics, KPIs) and make decisions. The bottleneck of this approach is that business users are only able to answer questions given the views of existing dashboa...

Knowledge Graph Toolkit (KGTK)

https://kgtk.readthedocs.io/en/latest/ KGTK represents KGs using TSV files with 4 columns labeled id, node1, label and node2. The id column is a symbol representing an identifier of an edge, corresponding to the orange circles in the diagram above. node1 represents the source of the edge, node2 represents the destination of the edge, and label represents the relation between node1 and node2. >> Quad do RDF, definir cada tripla como um grafo   KGTK defines knowledge graphs (or more generally any attributed graph or hypergraph ) as a set of nodes and a set of edges between those nodes. KGTK represents everything of meaning via an edge. Edges themselves can be attributed by having edges asserted about them, thus, KGTK can in fact represent arbitrary hypergraphs. KGTK intentionally does not distinguish attributes or qualifiers on nodes and edges from full-fledged edges, tools operating on KGTK graphs can instead interpret edges differently if they so desire. In KGTK, e...