小白学RAG：图谱构建与评测框架

demi 在周一, 09/01/2025 - 16:09 提交

知识图谱（Knowledge Graph, KG）与大语言模型（Large Language Model, LLM）是人工智能领域的两大核心技术范式，分别代表了符号化与数据驱动的知识处理路径。

本文介绍KG-LLM-Bench，这是一个可扩展的基准测试集，涵盖了五种知识图谱理解任务，用于分析 LLMs 如何处理上下文中的知识图谱。

知识图谱构建挑战

知识图谱是以三元组为基本语义单元，以有向标签图为数据结构的大规模知识系统。它旨在将现实世界的实体、概念及其相互关系进行结构化、体系化的描述，并支持高效的知识推理和语义计算。作为一种重要的知识表示形式，知识图谱在搜索、问答、推荐系统、反欺诈等领域有着广泛应用。

大语言模型凭借其在海量无标注数据上的预训练，习得了强大的语义理解和自然语言生成能力，这使其在处理各种NLP任务方面展现出巨大潜力。这种能力与知识图谱的符号化、结构化特性形成了天然的互补。

大模型构建知识图谱

大语言模型极大地简化了从非结构化文本中抽取结构化知识的流程，将其从复杂的符号工程转变为一种提示驱动的自动化流程。

其核心流程可概括为以下步骤：

1. 文本分块（Text Chunking）：由于大模型的上下文窗口存在限制，对于大型文档，需要将其切分为多个带有重叠的文本块进行处理，以确保上下文的连贯性，避免关键信息被切断。

2. 大模型驱动的抽取（LLM-Powered Extraction）：大模型通过精心设计的提示，可以直接对每个文本块进行知识抽取。这包括命名实体识别（NER）、实体链接（Entity Linking）和关系抽取（RE）三个关键步骤。模型能够将抽取结果直接以预定义的格式，如JSON三元组数组，进行输出。

3. 实体标准化（Entity Standardization）：抽取完成后，需要对同一实体在不同文本块中的不同表述进行统一化处理。例如，将“AI”和“人工智能”映射到同一个图谱节点，以确保数据的一致性并避免冗余。

4. 隐藏关系的推断（Inferring Hidden Connections）：大模型不仅能抽取显式关系，还能利用其在预训练中习得的丰富知识，推断出文本中未明确提及的实体间关系。例如，它能从关于“工业革命”和“人工智能”的不同文本块中，推断出两者之间存在“技术创新发展”的关联，这种推断出的关系可以以特定样式（如虚线）在图谱中进行标注，以与直接抽取的事实进行区分。

知识融合与知识推理

大模型在知识图谱生命周期的其他环节也发挥着重要作用。

本体构建与丰富：本体是知识图谱的模式或骨架，定义了实体类型、关系和约束。传统上，本体的创建和维护需要领域专家耗时耗力地手动建模。大模型凭借其强大的语义理解能力，可以辅助甚至自动化本体的生成、对齐和丰富，从而显著降低本体构建的门槛和成本。

知识融合：知识融合旨在整合来自不同来源、不同格式的知识，并解决实体冗余和数据冲突。大模型可以提升知识融合的自动化水平，从而降低整个构建过程的成本。

知识图谱的核心价值之一是其推理能力。大模型可以与知识图谱协同工作，增强其推理能力。一方面，大模型可以将知识图谱作为可调用的外部工具，在需要确定性答案时，利用图谱的结构化推理来给出可靠、明确的答案。

另一方面，当知识图谱因知识不完备而无法给出答案时，大模型可以凭借其泛化能力提供粗粒度的推理。在更复杂的“多跳推理”（multi-hop reasoning）任务中，大模型可以利用知识图谱将问题分解为子问题，通过追踪图谱中的关系路径来逐步获取信息，最终生成全面且可解释的答案。

KG-LLM-Bench 框架的构建方法

知识图谱文本化 (Text Representation of KG)

首先，定义一系列的文本化函数 (f)。这些函数的作用是将结构化的知识图谱子图（G）转换成文本表示（xG）。这个过程是框架的核心研究点之一，不同的文本化策略会直接影响后续的 LLM 性能。

查询构建 (Query Construction)

针对不同的任务类型（如三元组检索、最短路径寻找），框架会生成相应的自然语言问题（q）和对应的正确答案（a）。这些生成函数是随机的，但通过固定随机种子，确保了实验的可复现性。

模型生成与评估 (Model Generation and Evaluation)

LLM 接收文本化后的知识图谱（xG）作为上下文，并回答问题 q。LLM 生成的答案（y^）会与预先生成的正确答案（a）进行比较。

KG-LLM-Bench 五个基本任务

1. 三元组检索（Triple Retrieval）

问题分为两种——正向和负向。

正向问题：直接从知识图谱中提取真实存在的三元组（主体、关系、客体）来提问。
负向问题：通过替换三元组中的主体、关系或客体，构造出在知识图谱中不存在的错误三元组来提问。

2. 最短路径（Shortest Path）

评估 LLM 在知识图谱中找到两个实体之间最短路径的能力。最短路径通常代表了两个实体之间最强、最直接的关联。

3. 按关系聚合（Aggregation By Relation）

测试 LLM 的局部聚合能力。它要求模型从一个中心实体出发，对与其相连的边进行计数。

4. 邻居属性聚合（Aggregation of Neighbor Properties）

任务是“按关系聚合”的延伸，要求模型进行多跳（two-hop）聚合，需要更复杂的推理能力。

5. 最高度数节点（Highest Degree Node by Direction）

评估 LLM 的全局图推理能力。它要求模型识别出知识图谱中拥有最多连接（入向、出向或总数）的实体。

KG-LLM-Bench 实验细节

实验使用了来自 WikiDataSets 的“国家”知识图谱。这是一个包含历史国家信息的子图，数据来自 Wikidata。

该知识图谱包含 3,552 个核心实体（国家）、49 个核心关系（国家与国家之间的关系），以及连接国家与其他概念（如语言、事件）的27,226个属性实体和162个属性关系。

每个问题都是基于一个包含 200 条边的子图生成的。为每个任务生成了 100 组“子图-问题-答案”数据，并对所有实体进行了假名化处理，以确保LLM不依赖其预训练知识。

研究评估了五种常见的知识图谱文本化策略，每种策略在紧凑性、可读性和结构化方面各有权衡：

1. List-of-Edges：最简单的三元组表示，每行一个（主体，谓语，客体）事实。

2. Structured YAML：使用YAML语法，以层级结构按主体实体分组关系。

3. Structured JSON：与YAML类似，但使用JSON语法。

4. RDF Turtle：一种W3C标准格式，使用前缀和分号来分组同一主体的陈述。

5. JSON-LD：一种基于JSON的格式，通过包含上下文和URI，提供了人类可读的结构和语义网兼容性。

研究人员选择了七种不同规模和架构的大型语言模型进行评估，包括：

Llama 3.3-70B 和 Llama 3.2-1B
GPT-4o-Mini
Claude-3.5-Sonnet
Amazon Nova Lite 和 Amazon Nova Pro
Gemini-1.5-Flash

Structured JSON 和 List-of-Edges 整体表现最佳，而 RDF Turtle 和 JSON-LD 表现最差。

表现较差的格式（如 RDF Turtle 和 JSON-LD）可能因为其复杂的编码策略和 URI 使用，使得模型更难解析。此外，它们会显著增加输入令牌数，可能导致性能下降。

本文转自：Coggle数据科学，转载此文目的在于传递更多信息，版权归原作者所有。如不支持转载，请联系小编demi@eetrend.com删除。

大语言模型的七大网络安全热门应用	人工智能时代的引领者：AI提示工程激发大语言模型的无限潜力	大语言模型已遭遇瓶颈，是时候重新定义智能了吗？
福布斯2024年十大AI趋势预测	大型语言模型(LLM)的十大漏洞	PowerVR上的LLM加速：LLM性能解析

最新文章

最新文章