Por Gerhard Weikum
ABSTRACT
...
Over the last 15 years, huge knowledge bases, also known as knowledge graphs, have been automatically constructed from web data, and have become a key asset for search engines and other use cases.
[KG é KB, segundo o autor]
Machine knowledge can be harnessed to semantically interpret texts in news, social media and web tables, contributing to question answering, natural language processing and data analytics.
It highlights the role of "DB thinking" in building and maintaining high-quality knowledge bases from web contents.
[Selecionar as fontes com cuidado, modelar os dados]
1 INTRODUCTION
... automatic construction of large-scale high-quality knowledge bases (KBs), distilling noisy Internet content into crisp statements on entities, their attributes and relationships between them. Today, publicly available KBs, such as BabelNet ..., DBpedia ... , Wikidata ... or Yago, feature hundred millions of entities ... and many billions of statements about them ...
[KGs seriam "grandes" KB, citou exemplos de KGs públicos com "muitos" dados, aqui usa o termo statement]
... Industrial KBs, deployed at major companies and widely referred to as knowledge graphs (KGs), have an even larger scale, with one or two orders of magnitude more entities and fact ...
[KBs da indústria são chamados de KGs, aqui usou o termo fact (não fez distinção, não considera verdadeiro ou falso)]
A major use case where KGs have become a key asset is web search engines. ... The KG carefully distinguishes entities, and thus enables precise and concise answering.
[Uso para busca na Web]
[Resposta correta pq não há ambiguidade ao diferenciar uma entidade da outra na sua representação no KG mas a ambiguidade existe na especificação da consulta. No exemplo a resposta está correta mas não completa. A resposta completa deveria incluir a filha, Irene Curie, como ganhadora de Nobel de Química também.]
In data cleaning and database curation, master-data repositories of entities and their relations are a potential asset for discovering and repairing errors and for de-duplicating records
[KG como base de referência para processos de gestão de dados]
[Além de busca existem outras aplicações que KG podem ser usados e o KG funcionaria como um catálogo de entidades com suas propriedades e relacionamentos]
2 LESSONS LEARNED
These two decades of research and industrial practice on KB creation and curation provided insights on what works well and where the problems, pitfalls and risks lie. The following offers a subjective selection of lessons learned, highlighting where and why DB thinking is vital.
[Aprender com os erros na construção e manutenção do KG]
[Iniciativas de criação e curadoria de dados do KG usando corpus da Internet]
2.1 Knowledge Graphs are More Than Graphs
The term knowledge graphs is actually a misnomer and oversimplifies the structure and value of KBs. Graphs are binary relations, but KBs are not limited to such instances, called subject-predicate-object triples, or SPO triples for short. Hence, KB and not KG would be the appropriate terminology, but the term KG became widely established through press releases of big Internet stakeholders ....
[KGs não são somente triplas RDF e também não são somente grafos de relações binárias, vide exemplo da Wikidata já citado no artigo]
Some research on KG embeddings even restricted itself to entity nodes and entity-to-entity relationship edges, disregarding attribute values with literals: numbers, strings, dates and textual descriptions ...
[Em ML existem trabalhos que consideram os KGs hiper relacionais, ou seja, Beyond Triples ... STAR-E]
[Muitos trabalhos vão além de triplas, discussão de KG como no survey do Aidan Hogan, a definição de KG vai além da estrutura do grafo]
Higher-arity Relations for Context: For many facts, it is crucial to capture temporal, spatial and other context attributes, which leads to higher-arity tuples. Decomposing theses into binary-relation tuples would potentially lose information, a basic lesson in DB courses. ... Mature KBs overcome this issue by composite objects and qualifier predicates. These can be syntactically cast into the RDF model, but semantically this is no longer a plain graph.
[Com a reificação é possível representar contexto sem perda de informação mas a base aumenta em número de triplas, as queries ficam mais complexas e não existe uma vinculação nativa entre a afirmação e esses atributos temporais. RDF-Star veio para tratar isso mas não resolve completamente.]
[O q seria um grafo plano? Seria um grafo simples? Não me parece algo da Teoria de Grafos.]
[Hiper relacional abre caminho para representar contexto. Tuplas com aridade > 2 mas não arestas com aridade > 2 pq quando a mesma aresta possui mais de 2 entidades é hiper aresta e forma hipergrafo]
Knowledge Provenance: Provenance of KB statements is another crucial case for higher-arity relations. We need to track from which sources by which methods at which time we extracted a statement. Without this information, it becomes impossible to maintain and curate the KB as its content evolves over long time horizons.
[Proveniência também seria uma dimensão contextual dos fatos para KG hiper relacional. A WD trata proveniência (links de referência somente) como um elemento a parte mas outros qualificadores podem ser usados como proveniência]
Consistency Constraints: KBs also include and leverage intensional data in the form of constraints and rules. The latter serve to derive updates by bots, such as ensuring the reciprocity of the mother-of and child-of relations. Constraints are essential for consistency checking and quality assurance: from type checking, functional and inclusion dependencies, all the way to temporal consistency and more.
[Aplicar racicício, regras para derivar conhecimento] [Restrições para promover a melhoria na qualidade dos dados]
[A Wikidata tem mecanismos de verificação, ainda em aprimoramento, como no caso de associar qualificadores a predicados. Além disso linguagens como SPIN e SHACL foram desenvolvidas com esse propósito na Web Semântica]
All these are key points that DB thinking contributes to KBs.
2.2 Precision and Rigor Matter
KB construction inevitably faces a precision-recall trade-off: the more entities and facts the KB captures, the higher the likelihood that more statements will be incorrect. In prioritizing betweem recall (KB coverage) and precision (KB correctness), we favor precision, aiming for a KB of near-human quality: comparable in error rates to expert curation, say 1 to 5 percent. The rationale is that the KB should provide reliable facts for all kinds of downstream use cases, and errors may get amplified through the application stack.
[Esse problema se aplica tanto a KG que são construídos a partir de extração de informação de texto quanto a KG construídos por humanos como a Wikidata. A cobertura influencia no que o KG pode responder e me remete a OWA pq se assumir que não é completo a resposta caso não encontre é "não sei". A precisão ou corretude me parece estar mais relacionado com a qualidade dos dados e robustez das técnicas que foram usadas para construir o KG e nesse caso mais detalhes sobre o contexto e principalmente a proveniência seria um fator para avaliar se a resposta está satisfatória ou não]
[KB são incompletos, a tentativa de completá-los pode introduzir erros. Os erros podem levar a maior instatisfação do usuário ao explorar o KB? Para o usuário a insatisfação só acontece quando não encontra o que busca ou também acontece quando o que encontra não corresponde a informação útil?]
[Extraído do survey de KG: ... , then the answer depends on what assumptions we make when interpreting the graph. Under the Closed World Assumption (CWA)—which asserts that what is not known is assumed false—without further knowledge the answer is no. Conversely, under the Open World Assumption (OWA), it is possible for the relation to exist without being described by the graph.]
A similar point can be made about the representation of entities and their types. A rigorous KB aims to canonicalize all entities so that they are uniquely identifiable. A canonicalized representation captures the alias names for each entity and groups statements per entity, not per name.
[A entidade pode ser representada uma única vez ou pode ter diferentes representações que estão associadas através de anotações como por exemplo owl:SameAs]
[Extraído do Survey de KG: Under the Unique Name Assumption (UNA), which states that no two nodes can map to the same entity... Conversely, under the No Unique Name Assumption (NUNA), we can only say that there is at least one ... may be the same entity with two “names” (i.e., two nodes referring to the same entity). These assumptions define which interpretations are valid and which interpretations satisfy which data graphs. The UNA forbids interpretations that map two nodes to the same entity, while the NUNA does not. Under CWA, an interpretation that contains an edge x p y in its domain graph can only satisfy a data graph from which we can entail x p y . Under OWA, an interpretation containing the edge x p y can satisfy a data graph not entailing x p y so long it does not contradict that edge. Ontologies typically adopt the NUNA and OWA, i.e., the most general case, which considers that data may be incomplete, and two nodes may refer to the same entity.]
[UNA: A representação de uma entidade é única, mesmo que venha de fontes distintas e assuma mais de um rótulo ou até mesmo mais de um tipo]
[Entidades diferentes podem usar o mesmo rótulo mas são diferenciáveis por seus IDs e por seus atributos e relações ... alguns chamam até de contexto da entidade]
Likewise, the type taxonomy of a KB needs to be rigorous. Once we include loose associations as class memberships or subclass-superclass subsumptions, all kinds of errors are possible.
[O artigo do Daniel sobre Senso Comum fala dos problemas da Wikidata em relação ao uso de predicados instanceOf (P31) e subClass (P279)]
2.3 Input Data Quality is Key
It is easier to build a limited-scope core KB first and gradually augment and grow it, than to create a full-scale KB in a single shot. This staggered approach has the freedom of choosing which sources it taps into at different stages.
[Retomou aqui a importância das fontes (proveniência) e de um processo de criação do KG gradual e com curadoria para que a precisão se mantenha alta a medida que a cobertura seja aumentada]
[O esforço humano de selecionar fontes e fazer a engenharia do KG pode ser guiado pelo desempenho das buscas, usar log de buscas e métricas para priorizar]
2.4 KB Construction is not End-to-End ML
KB construction is not a one-time task anyway. KBs serve as infrastructure assets, maintained over long timespans. The life-cycle involves correcting errors, adding new entities and facts, marking outdated statements (with temporal annotations), expanding the schema of attributes and relations, and further quality-assurance measures.
[Importância do HITL na construção e curadoria dos KGs meso que com etapas automatizadas. Aqui eu acrescentaria que o uso do KG em aplicações também poderia contribuir para a curadoria se o feedback do usuário for coletado de alguma forma, descrevendo a sua necessidade de informação, se foi atendida com os resultados, o que faltou, o que aprendeu (e "surpeendeu")]
[Considerei esse aspecto no "Como preparar o KB para dar a melhor resposta?", usei ML somente para o soft match (semântico) e na extração de tópicos]
In fact, a major motivation for KBs has been to factor out these stages once and for all, so that high-quality background knowledge is already available when needed (e.g., for distant supervision or data augmentation). KBs do not become obsolete by ML; machine knowledge and machine learning complement and strengthen each other.
[KB poderiam explicar o resultado de predições dos algoritmos de ML]
3 OPEN CHALLENGES
3.1 Expanding KB Coverage
Despite the impressive size of today’s KBs, they have many gaps and are still far from the desired coverage of salient facts. The shortcomings have two different flavors:
• Long-tail entities or facts about them are missing...
• Facts about entities are largely restricted to basic predicates...
[KGs são incompletos. Baixa cobertura sobre conceitos abstratos e propriedades de entidades que não são divulgadas. Mas essa busca por ampliar a cobertura desses aspectos poderia ser guiada pela demanda de busca? Ou o esforço de incluir se pagaria com o uso posterior e com a ampliação do conhecimento? ]
Addressing this gap requires new ways of identifying what constitutes salient knowledge about entities.
[As consultas revelam o que pode ser considerado interessante em completar o KB? ]
3.2 Supporting Analytic Tasks
KBs should also support knowledge workers like (data) journalists, (business and media) analysts, health experts, and more. Such advanced users go beyond finding entities or looking up their properties, and often desire to filter, compare, group, aggregate and rank entities based on quantities ... Examples of quantity-centric information needs are ...
[Ir além de Fact / Entity Retrieval com IR e Q&A, Busca Exploratória]
[Seriam perguntas para sistemas de Data Retrieval e CWA e não para Information Retrieval e OWA?]
Instead of a KB, we could turn to domain-specific databases on the web, but finding the right sources in an “ocean of data” and assessing their quality, freshness and completeness is itself a big challenge.
[E encontrar qual DB para responder essas perguntas também não é trivial. ]
3.3 Commonsense Knowledge
Commonsense knowledge (CSK) is the AI term for world knowledge that virtually all humans agree on.
[Não todos, mas uma comunidade / grupo e isso pode ser delimitado no KG como uma forma de contexto para as afirmações de senso comum]
CSK is difficult to acquire by machines, because of sparseness and bias in online contents, suggesting prejudiced or sensational statements
[O que está disponível na Web tem viés ... mas também é algo que muitas pessoas concordam mesmo podendo ser danoso]
A variation of CSK that matters for human-computer interaction is socio-cultural knowledge: behavioral patterns that do not necessarily hold universally, but are widely agreed upon within a large socio-cultural group.
[Senso Comum contextualizado]
[Em caso de fenomenos socias não é deterministico apesar de ser estatísticamente mais provável, "gestação pode acabar em aborto e também em morte materna", "crianças vivem em orfanatos, moram com avós", "um casal não é formado só por homem e mulher" ...]
[Usar o tempo verbal da pergunta para identificar o contexto temporal e assumir que o tempo verbal no presente se remete a situação corrente/vigente é baseado em Censo Comum]
[Aqui entram os exemplos de perguntas feitas por Brasileiros e respostas dadas por Portugueses que, apesar de falarem praticamente a mesma língua, acabam divergindo nas interpretações. E também aos regionalismos que temos dentro do próprio país. ]
4 OPPORTUNITIES FOR DB RESEARCHERS
4.1 KB Coverage of Salient Facts
... in general there is little hope that this mission can be achieved from semi-structured data alone. We need to turn to textual contents, while still exploiting markup if present ...
[Técnicas para extair conhecimento de outras fontes, a Identificação de Entidades de texto é bem explorada, mas a Extração de Relações ainda tem precisão abixo de 80%]
[E como motivar a divulgação de base de dados estruturadas como Bancos Relacionais para serem convertidas em KGs? As ténicas de conversão já existem ... ]
Creative Use of Language Models
[Existem em português (BERTimbau) e existem no domínio de dados científicos (aluno da PUC)]
The fully trained models are then “fine-tuned” to all kinds of use cases such as question answering, sentiment classification, summarization, chatbots and more. By providing relation-specific patterns or generic hyper-patterns (i.e., templates for patterns) for cloze questions (or, equivalently, basic Who/Where/When questions), relation extraction can be cast into masked-word predictions over an LM, leveraging neural learning for machine reading comprehension [15].
[Usar Modelos de Linguagem pré treinados em outras aplicações/tarefas além da extração de relações]
The bottom line is that neural language models are amazing data resources of great value and versatility. It has even been hypothesized that LMs can replace explicit KBs, by predicting components of SPO triples instead of looking them up [24 ]. This is quite a long shot, though, with several showstoppers coming to mind:
• Predictions vs. Queries: LMs always return a ranked list of predictions, with a confidence score distribution that is rarely calibrated and thus difficult to interpret. In other words, an LM will never return a definite answer. This is problematic when the number of ground-truth facts is variable and a priori unknown
[Similaridade por embeddings somente para resposta aproximada, em reposta exata usa graph query na proposta]
[Respostas aproximadas baseadas na similaridade entre as representações
vetoriais. Como calibrar qual o valor de similaridade traz uma ou mais
respostas úteis (não necessariamente exata)? Obter o top-1 mais
semelhante não garante. ]
• Frequency Fallacies: LM predictions are strongly affected by (direct or indirect) co-occurrence frequencies in the corpora on which the LM was trained. This induces a bias for prominent entities; predicting a rarely occurring output is a challenge.
[O viés estatístico não garante a resposta correta. Combinar com consultas estruturas e não substituí-las pode ser mais interessante. ]
• Knowledge Life-cycle: Since all knowledge is latently captured by the LM’s neural network parameters, it is unclear how to maintain the knowledge: correcting errors, updating statements, adding new ones etc. Thus, the mission-critical issue of knowledge life-cycle management is disregarded.
[Manutenção do KG]
4.2 Entities with Quantities
Search engines handle quantity lookups for given entities fairly well (e.g., “Brigid Kosgei personal best”), but largely fail on quantity filter queries (e.g., “. . . under 2:25:00”) due to their lack of understanding units and numeric comparisons.
[Extrair quantidades e suas unidades de medida de textos para popular o KG e responder a perguntas do tipo How many/How much]
Contextualizing Quantity Facts: Finally, the third issue – contextualization of entity-quantity pairs – is crucial for proper interpretation of statements and correct query answering. For example, for the query “hybrid cars with battery range above 50 km”, the “battery” cue is decisive, as the total fuel-based range is not of interest. Likewise, interpreting financial numbers such as revenue or earnings mandates the extraction of temporal and spatial context (e.g., revenue in the last quarter of 2020 in EU countries)
[Contexto não seria somente para fatos que relacionam entidades e quantidades]
[Também são afirmações que requerem contexto, exemplo: Brasil população 200 milhões, segundo Censo2010 realizado em Ago-2010]
Beyond Filter Queries: Quantity filter queries are just a building block and first step.
[Operações com valores numéricos contidos no KG devem levar em consideração as unidades de medida, o momento da medição, etc ... Não usar banana e lápis para extrair uma métrica .... ]
Take-Away: Capturing quantity properties of entities in sports, finance, technology and health is important for KB coverage towards analytic tasks. This is a big gap in today’s major KBs, and search engines are not a good proxy. Extraction from tables, lists and possibly text sources poses difficult problems that require rethinking RE methodology, ...
[IoT e computação de vestir vão coletar os dados numéricos mas será que estão fazendo de um modo a permitir que sejam divulgados e integrados em KG abertos para análises contextualizadas?]
Comentários
Postar um comentário
Sinta-se a vontade para comentar. Críticas construtivas são sempre bem vindas.