小白学RAG:图谱构建与评测框架

知识图谱(Knowledge Graph, KG)与大语言模型(Large Language Model, LLM)是人工智能领域的两大核心技术范式,分别代表了符号化与数据驱动的知识处理路径。

本文介绍KG-LLM-Bench,这是一个可扩展的基准测试集,涵盖了五种知识图谱理解任务,用于分析 LLMs 如何处理上下文中的知识图谱。

https://arxiv.org/html/2504.07087v1


知识图谱构建挑战

知识图谱是以三元组为基本语义单元,以有向标签图为数据结构的大规模知识系统 。它旨在将现实世界的实体、概念及其相互关系进行结构化、体系化的描述,并支持高效的知识推理和语义计算 。作为一种重要的知识表示形式,知识图谱在搜索、问答、推荐系统、反欺诈等领域有着广泛应用 。

知识图谱构建挑战

大语言模型凭借其在海量无标注数据上的预训练,习得了强大的语义理解和自然语言生成能力,这使其在处理各种NLP任务方面展现出巨大潜力 。这种能力与知识图谱的符号化、结构化特性形成了天然的互补。


大模型构建知识图谱

大语言模型极大地简化了从非结构化文本中抽取结构化知识的流程,将其从复杂的符号工程转变为一种提示驱动的自动化流程 。

其核心流程可概括为以下步骤:

大模型构建知识图谱

1. 文本分块(Text Chunking): 由于大模型的上下文窗口存在限制,对于大型文档,需要将其切分为多个带有重叠的文本块进行处理,以确保上下文的连贯性,避免关键信息被切断 。

2. 大模型驱动的抽取(LLM-Powered Extraction): 大模型通过精心设计的提示,可以直接对每个文本块进行知识抽取。这包括命名实体识别(NER)、实体链接(Entity Linking)和关系抽取(RE)三个关键步骤 。模型能够将抽取结果直接以预定义的格式,如JSON三元组数组,进行输出 。

3. 实体标准化(Entity Standardization): 抽取完成后,需要对同一实体在不同文本块中的不同表述进行统一化处理。例如,将“AI”和“人工智能”映射到同一个图谱节点,以确保数据的一致性并避免冗余 。

4. 隐藏关系的推断(Inferring Hidden Connections): 大模型不仅能抽取显式关系,还能利用其在预训练中习得的丰富知识,推断出文本中未明确提及的实体间关系。例如,它能从关于“工业革命”和“人工智能”的不同文本块中,推断出两者之间存在“技术创新发展”的关联,这种推断出的关系可以以特定样式(如虚线)在图谱中进行标注,以与直接抽取的事实进行区分 。


知识融合与知识推理

大模型在知识图谱生命周期的其他环节也发挥着重要作用。

  • 本体构建与丰富: 本体是知识图谱的模式或骨架,定义了实体类型、关系和约束。传统上,本体的创建和维护需要领域专家耗时耗力地手动建模 。大模型凭借其强大的语义理解能力,可以辅助甚至自动化本体的生成、对齐和丰富,从而显著降低本体构建的门槛和成本 。
  • 知识融合: 知识融合旨在整合来自不同来源、不同格式的知识,并解决实体冗余和数据冲突。大模型可以提升知识融合的自动化水平,从而降低整个构建过程的成本 。

知识图谱的核心价值之一是其推理能力。大模型可以与知识图谱协同工作,增强其推理能力 。一方面,大模型可以将知识图谱作为可调用的外部工具,在需要确定性答案时,利用图谱的结构化推理来给出可靠、明确的答案 。

另一方面,当知识图谱因知识不完备而无法给出答案时,大模型可以凭借其泛化能力提供粗粒度的推理 。在更复杂的“多跳推理”(multi-hop reasoning)任务中,大模型可以利用知识图谱将问题分解为子问题,通过追踪图谱中的关系路径来逐步获取信息,最终生成全面且可解释的答案 。


KG-LLM-Bench 框架的构建方法

知识图谱文本化 (Text Representation of KG)

首先,定义一系列的文本化函数 (f)。这些函数的作用是将结构化的知识图谱子图(G)转换成文本表示(xG)。这个过程是框架的核心研究点之一,不同的文本化策略会直接影响后续的 LLM 性能。

知识图谱文本化

查询构建 (Query Construction)

针对不同的任务类型(如三元组检索、最短路径寻找),框架会生成相应的自然语言问题(q)和对应的正确答案(a)。这些生成函数是随机的,但通过固定随机种子,确保了实验的可复现性。

模型生成与评估 (Model Generation and Evaluation)

LLM 接收文本化后的知识图谱(xG)作为上下文,并回答问题 q。LLM 生成的答案(y^)会与预先生成的正确答案(a)进行比较。


KG-LLM-Bench 五个基本任务

1. 三元组检索(Triple Retrieval)

问题分为两种——正向和负向。

正向问题:直接从知识图谱中提取真实存在的三元组(主体、关系、客体)来提问。
负向问题:通过替换三元组中的主体、关系或客体,构造出在知识图谱中不存在的错误三元组来提问。

2. 最短路径(Shortest Path)

评估 LLM 在知识图谱中找到两个实体之间最短路径的能力。最短路径通常代表了两个实体之间最强、最直接的关联。

3. 按关系聚合(Aggregation By Relation)

测试 LLM 的局部聚合能力。它要求模型从一个中心实体出发,对与其相连的边进行计数。

4. 邻居属性聚合(Aggregation of Neighbor Properties)

任务是“按关系聚合”的延伸,要求模型进行多跳(two-hop)聚合,需要更复杂的推理能力。

5. 最高度数节点(Highest Degree Node by Direction)

评估 LLM 的全局图推理能力。它要求模型识别出知识图谱中拥有最多连接(入向、出向或总数)的实体。


KG-LLM-Bench 实验细节

实验使用了来自 WikiDataSets 的“国家”知识图谱。这是一个包含历史国家信息的子图,数据来自 Wikidata。

该知识图谱包含 3,552 个核心实体(国家)、49 个核心关系(国家与国家之间的关系),以及连接国家与其他概念(如语言、事件)的27,226个属性实体和162个属性关系。

这是一个包含历史国家信息的子图,数据来自 Wikidata

每个问题都是基于一个包含 200 条边的子图生成的。为每个任务生成了 100 组“子图-问题-答案”数据,并对所有实体进行了假名化处理,以确保LLM不依赖其预训练知识。

研究评估了五种常见的知识图谱文本化策略,每种策略在紧凑性、可读性和结构化方面各有权衡:

1. List-of-Edges:最简单的三元组表示,每行一个(主体,谓语,客体)事实。

2. Structured YAML:使用YAML语法,以层级结构按主体实体分组关系。

3. Structured JSON:与YAML类似,但使用JSON语法。

4. RDF Turtle:一种W3C标准格式,使用前缀和分号来分组同一主体的陈述。

5. JSON-LD:一种基于JSON的格式,通过包含上下文和URI,提供了人类可读的结构和语义网兼容性。

研究人员选择了 七种不同规模和架构 的大型语言模型进行评估,包括:

  • Llama 3.3-70B 和 Llama 3.2-1B
  • GPT-4o-Mini
  • Claude-3.5-Sonnet
  • Amazon Nova Lite 和 Amazon Nova Pro
  • Gemini-1.5-Flash

Structured JSON 和 List-of-Edges 整体表现最佳,而 RDF Turtle 和 JSON-LD 表现最差。

七种不同规模和架构 的大型语言模型进行评估

表现较差的格式(如 RDF Turtle 和 JSON-LD)可能因为其复杂的编码策略和 URI 使用,使得模型更难解析。此外,它们会显著增加输入令牌数,可能导致性能下降。


本文转自:Coggle数据科学,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。

最新文章