重点是开源！用智能体框架提升知识图谱构建效果 AgentRE

1. 背景

关系抽取（Relation Extraction，RE）是指将非结构化文本转化为结构化数据（关系三元组），在知识图谱构建等领域扮演了重要角色。

但是关系抽取往往因为 关系类型的多样性 和 句子中实体关系的模糊性 等问题，导致难以实现高效的RE。

这两年，大语言模型凭借其在自然语言理解和生成方面的强大能力，开始在关系抽取方面得到广泛应用。尽管取得一定进展，但往往局限于监督式微调或少量样本问答（QA）基础抽取，较少在复杂关系抽取场景下得到应用。

将LLMs应用于复杂场景下的RE任务，往往存在以下问题：

• 2.如何在特定或资源匮乏的领域有效实现RE？许多特定领域数据稀缺，使得传统监督模型难以达到理想性能。

• 3.如何以合理的成本实现有效的RE？虽然LLMs性能卓越，但在实际应用中，较小的模型因其较低的计算资源消耗而更具吸引力。因此，利用大型模型的知识来微调小型模型是一个可行的策略。

基于智能体的框架能够赋予LLMs更多能力，如记忆、反思和与外部环境交互，从而促进复杂RE任务的完成。受此启发，作者提出了一种创新的基于智能体的RE框架——AgentRE，用于应对以上关系抽取中面临的问题。

2. 什么是AgentRE?

上图 (a)展示了“文本输入，文本输出（text-in, text-out）”模式下语言模型的RE流程，该模型直接从输入文本或通过简单的提示方法产生带有错误的结果。

图(b)则展示了AgentRE的RE流程，这是一个包含检索和记忆模块的智能体框架，在多次推理回合中利用各种信息，以实现更精确的RE。

首先，AgentRE将大型语言模型（LLM）作为智能体，处理来自不同渠道的数据。借助检索和记忆模块等工具，辅助智能体进行推理。与传统的单轮“文本输入，文本输出”语言模型不同，AgentRE通过多轮交互和推理，拓宽了信息源的利用范围，克服了单轮提取的局限。

其次，在资源有限的情况下，AgentRE能够借助LLM的推理和记忆能力，在提取过程中进行动态总结和反思，从而精进其持续学习能力，通过不断积累经验与知识，提升提取效能。

最后，将AgentRE的推理路径转化为包含多种推理策略的高质量数据，如直接生成、分步提取和基于思维链的提取。这些丰富的数据可用于微调小型模型，引导它们灵活选择不同的提取策略，从而在成本可控的前提下，提升模型的提取表现。

图(a)AgentRE的整体架构，其中LLM扮演智能体的角色，通过与检索、记忆和提取模块的协同工作，从输入文本中提炼出关系三元组。

图(b)至(d)分别展示了检索、记忆和提取模块的内部结构。

• 检索模块（Retrieval Module） ：负责维护静态知识库，便于存储和检索信息，这包括训练集中的标注样本以及相关的标注指南等资料。

• 记忆模块（Memory Module） ：负责维护动态知识库，用于记录当前提取结果的短期记忆，以及用于总结和反思历史操作的长期记忆。通过在记忆模块中进行读写操作，记录并利用以往的提取经验。

• 提取模块（Extraction Module） ：利用检索和记忆模块提供的信息，通过多种推理方法从输入文本中抽取结构化信息（关系三元组）。

2.1 检索模块

检索模块负责从现有数据集中提取相关样本，并搜集补充知识，辅助提取模块完成关系提取（RE）任务。可检索的数据范围广泛且类型繁多，主要分为两大类。

• 标注数据：带有明确输入输出关系的标注数据，这些数据可以作为少量样本整合进LLM的上下文中，帮助模型把握当前任务的输入输出关系。

为了高效地管理和运用这两类数据，设计了两种特定的检索模块：

• 样本检索模块

• 相关信息检索模块。

一旦获取了富有信息量的标记数据和其它相关信息，检索模块就可以利用这些数据：

• 一种直接的方法是将它们合并为提示，以此整合有益信息。这些提示词模板如上图所示。提示词分为不同颜色标记的多个部分，每个部分都有清晰的标签，引导模型处理输入文本并生成适当的输出。：

• 紫色部分用于任务描述和输入句子

• 蓝色部分用于示例和可能的关系类型

• 青绿色部分用于相关信息

• 黑色部分用于输出。

2.1.1 样本检索

如图(b)下部展示，样本检索模块利用编码器将当前文本转化为嵌入向量。计算训练数据集中样本与当前文本的相似性，以检索与当前文本相似的样本。

例如，对于句子“5月9日，诺贝尔文学奖得主、作家莫言在北京发表了演讲。”，样本检索模块可以从训练数据集中检索出相关样本，如文本“When the newly minted Nobel Prize in Literature, British novelist Kazuo Ishiguro, found himself…”及其对应的关系三元组标签(Kazuo Ishiguro, 获奖, Nobel Prize in Literature)。

提取过程可能被分解为两个阶段：

• 首先是识别句子中潜在的关系类型

• 然后基于这些识别出的候选关系类型进行提取

检索候选关系类型的过程在图(b)中以虚线箭头表示。实现这种检索的一种有效方法是开发一个在数据集上训练的分类器，预测给定文本中最可能出现的关系。此外，利用LLMs的推理能力也可以实现检索关系类型的任务。

2.1.2 相关信息检索

如图(b)的上部展示，相关信息检索模块的目的是检索与特定句子相关的知识点。相较于样本检索使用的嵌入检索技术，本模块运用了多元化的检索手段，融合向量与实体，实现精确匹配与模糊语义匹配的有机结合。

以句子“5月9日，诺贝尔文学奖得主、作家莫言在北京发表了演讲。”为例，本模块不仅提取句子的语义信息，还识别出其中的潜在实体，如莫言、诺贝尔奖和北京，并利用这些实体检索相关背景知识。

此外，以诺贝尔奖为起点，还能从标注指南中检索到关于奖项关系类型的详细描述，包括关系两端实体的定义和深入阐释。

采用多种策略从不同数据源中检索相关知识，比如从知识图谱中检索实体的属性和关系，从标注指南中检索关系类型的解释性信息，或是从外部百科全书中检索相关背景知识。

2.2 记忆模块

记忆模块负责在提取过程中动态地利用现有知识，并进行反思和总结，更好地完成后续的提取任务。

仿照人脑的记忆机制，模型的记忆被划分为短期记忆和长期记忆。

2.2.1 短期记忆

短期记忆记录了初步的提取经验。

如图(c)所示，对于句子“博物馆位于莫言的故乡，高密东北乡。”，模型提取的结果是(莫言, 出生地, 高密东北乡)和(博物馆, 位于, 高密东北乡)。其中第一个关系三元组是正确的，但第二个由于博物馆的指代不明确而被标记为错误。短期记忆中，通过记录这些正确与错误的结果，模型便能在后续的提取中将它们作为参考。这个过程相当于从过往经验中汲取教训。具体来说，模型会分别在正确记忆和错误记忆中添加新的条目。

2.2.2 长期记忆

长期记忆涵盖了对过往记忆的深入反思与更新，如图(c)所示。

在长期记忆中，AgentRE能够基于准确的成果对长期记忆进行刷新，并针对不准确的结果进行深思熟虑。

以图(c)的示例为鉴，得到正确的提取成果后，AgentRE便将其关于莫言的记忆从“莫言，著名作家，1955年2月17日出生，本名管谟业”更新为“莫言，著名作家，1955年2月17日出生于高密东北乡，本名管谟业”。对于错误的结果，AgentRE则进行反思。比如，面对一个错误的提取成果和相关的标注准则，它会产生反思文本“ 根据标注准则，不完整的实体，如博物馆，本不应被提取 ”。因此，当接收到下一个输入文本“以最有影响力的当代作家和学者王先生命名的博物馆……”，AgentRE便能借助先前的反思避免重蹈覆辙。

2.3 提取模块

AgentRE中提取模块借鉴了 ReAct 的互动式方法，通过多轮的思考、行动、观察来推进，如图(d)所描绘。

在此框架下，检索与记忆模块被视作智能体可调用的外部工具。智能体通过一系列API接口，输入工具名称和参数，随后获得反馈结果。这种设计赋予了智能体灵活调用工具、选择工具种类及调用方式的能力。

以图(d)中的句子为例：“5月9日，诺贝尔文学奖得主、作家莫言在北京发表了演讲。”在首回合，智能体识别出可能的关系类型，随后决定调用SearchAnnotation API来获取。进入第二轮，智能体运用SearchKG API检索有关莫言的既有知识。最终，在搜集到充分的信息后，智能体执行Finish操作，以产出提取成果。

在提取过程中，AgentRE并非总是遵循一连串完整的ReAct互动。会根据输入文本的复杂度，灵活选择最合适的提取策略。

比如，在直接提取中，预测的关系三元组直接从文本中导出；在分阶段提取中，先筛选关系类型，再进行三元组的提取；或者采用思维链（CoT）提取，最终结果通过逐步推导生成。

2.4 小模型的精炼

在真实场景中，部署具备强大推理能力的LLMs智能体以完成信息提取任务，往往需要高昂的成本。

而相对较小的大型语言模型（SLLMs）在推理能力上通常表现逊色。为了弥补这一鸿沟，作者提出了一种蒸馏学习的方法，通过利用大型模型的历史推理路径来引导小模型的学习。

对不同类型问题采用多样化的推理策略，可以显著增强模型解决问题的适应性。例如：

• 在关系提取（RE）任务中，文本中明确表述的直接关系可以直接推断并生成结构化输出。

• 对于那些包含更复杂关系的句子，采用基于思维链（CoT）的推理方法，可以引导模型逐步逼近最终结果，减少错误。

AgentRE推理框架通过智能体有效地为不同情境定制了多样化的推理方法。为了赋予SLLMs相似的能力，并简化推理过程，建议从AgentRE的历史推理路径中提炼出更简洁的推理逻辑，用以指导小模型的学习。

3. 效果评估

3.1 测评数据集

为验证AgentRE的效能，在以下两个数据集进行测试：

• DuIE：作为规模最大的中文关系抽取数据集，囊括了48类预设关系类型。覆盖了传统简单的关系类型，也涵盖了涉及众多实体的复杂关系类型。该数据集的标注文本源自百度百科、百度信息流及百度贴吧，共包含210,000句样本与450,000个关系实例。

• SciERC：专为科学领域设计的英文命名实体识别与关系抽取数据集。其标注数据源自Semantic Scholar Corpus，覆盖了500篇科学文章摘要。SciERC数据集共标注了8,089个实体和4,716个关系，平均每篇文档包含9.4个关系。

3.2 测试基准方法

将AgentRE与数种基于LLM的信息抽取模型/框架进行了对比：

• ChatIE：通过与ChatGPT的对话，提出了一种零次学习IE方法，将零次学习IE视为一种多轮问答过程。先识别潜在的关系类型，再基于这些类型抽取关系三元组。

• GPT-RE：在少量学习框架内采用任务感知检索模型，并整合CoT自动推理机制，以解决输入-标签映射中的实例相关性和解释问题。

• CodeKGC：运用Python类来表达关系的框架模式，通过推理依据增强信息抽取的准确性。

• CodeIE：将IE任务转化为代码形式，借助LLMs的代码推理能力。

• UIE：引入了一种结构化编码语言，用于文本到结构化输出的生成，适用于T5模型的预训练。

• USM：一个集结构化与概念能力于一体的统一语义匹配框架，专为信息抽取设计，基于RoBERTa构建。

• InstructUIE：在Flan-T5上实施基于指令的微调，以提升任务的泛化能力。

ChatIE和CodeKGC运用LLMs进行零次学习，而CodeIE、CodeKGC和GPT-RE则采用少量学习策略。UIE、USM和InstructUIE则采用监督微调（SFT）。GPT-RE还在特定任务上对如text-davinci-003这样的大型模型进行了微调，成本较高。

3.3 测评结果

实验结果如上图，仅采用F1分数作为评价标准。

对于比较基准模型/框架，尽量引用原始发表数据，或通过复现其公布的模型与源代码来获取结果。

为了确保实验比较的公正性，主要采用同一基础大型语言模型，如gpt-3.5-turbo。对于那些采用不同基础模型的方法，在表格中以斜体字呈现了它们的原始成果，并补充了使用gpt-3.5-turbo作为基础模型所得到的结果。

上表根据三种不同的实验范式划分：

• 零样本学习（ZFL）

• 少样本学习（FSL）

• 有监督的微调（SFT）

在SFT设置下，这些方法大致可分为三类，根据模型参数规模如下：

• 1）UIE使用的T5-v1.1-large和USM使用的RoBERTa-Large，参数规模分别为0.77B和0.35B。

• 2）InstructUIE使用的Flan-T5和AgentRE-SFT使用的Llama-2-7b，参数规模分别约为11B和7B。

• 3）GPT-RE-SFT使用的gpt-3.5-turbo，参数规模约为175B。

在ZSL组中，ChatIE-multi的表现超过了ChatIE-single，说明 多轮对话的有效性 。AgentRE-ZSL的卓越表现则反映了其在高效利用辅助信息方面的优势。

在FSL组中，CodeKGC-FSL超越了基于对话的ChatIE，而GPT-RE与其表现相匹配，突显了结构化推理和精确样本检索的优势。AgentRE-FSL显著超越了当前最佳模型，展示了其在 利用标记数据和辅助信息方面的卓优势 。

在SFT设置下，对较小模型如UIE和USM进行微调，虽然优于基线模型，但仍不及AgentRE-FSL。AgentRE-SFT在InstructUIE上的表现显著更佳，证明了 AgentRE中蒸馏学习的有效性 。然而，GPT-RE-SFT在SciERC上取得了最佳性能，尽管由于其庞大的模型规模和基于text-davinci-003的API训练带来了更高的训练成本。

3.4 消融实验

消融实验探究了AgentRE在不同配置下的表现：

• 缺少检索模块（AgentRE-w/oR）

• 缺少记忆模块（AgentRE-w/oM）

• 两者皆无（AgentRE-w/oRM）

依据上表，AgentRE-w/oRM的性能显著不足，表明这两个模块的关键作用。

AgentRE-w/oR和AgentRE-w/oM相较于AgentRE-w/oRM展现出更好的效果，表明独立引入记忆和检索模块的好处。

完整框架AgentRE整合了这两个模块，达到了最佳表现，证明结合检索能力获取相似样本和利用记忆模块优化先前提取的协同效应。

3.4.1 检索模块分析

影响检索模块效果的主要变量包括用于数据表示和检索的模型，以及检索过程中可用的内容。

上表结果表明：无论是统计方法还是基于嵌入的方法，都显著优于随机检索。这表明，检索与输入文本更紧密相关的标记样本，对于辅助模型的决策过程、提高其抽取精度具有显著效果。在评估的模型中，BGE在两个数据集上均展现出最好的性能。

检索内容：在为检索模块选定了基础模型之后，进一步探讨不同类型可用信息对检索的影响。

上表列出了实验结果，其中“None”和“AgentRE-w/oM”分别代表没有和仅有完整检索模块的变体。此外，“-samples”、“-doc”和“-KG”分别表示缺少标记样本检索、注释指南检索和知识图谱检索组件的变体。

结果证实，忽略任何类型的信息都会降低AgentRE的性能，尤其是移除标记样本（-samples）对性能的影响最为显著。

为探究记忆模块对信息抽取效能的影响，分析了在DuIE数据集上，AgentRE在不同记忆配置下，随着训练样本数量增加的F1、召回率和精确度得分，如上图所示，图中的X轴代表训练样本的数量。对比模型包括不包含记忆模块的AgentRE-w/oM、搭载浅层记忆的AgentRE-wM），以及融合了浅层与深层记忆的AgentRE-wM+。相较于缺乏记忆功能的模型，这些搭载记忆模块的模型能够同时利用输入样本及历史抽取记录。

• 搭载记忆模块的模型（AgentRE-wM和AgentRE-wM+）在所有评价指标上均优于无记忆模块的版本，凸显了记忆模块在提升抽取精度方面的积极作用。

• 随着数据量的增加，搭载记忆模块的模型表现更佳，这表明了利用过往抽取经验进行动态学习的有效性。

• AgentRE-wM+在数据输入增多时相较于AgentRE-wM展现出更卓越的性能，这暗示了一种全面的记忆方法，超越了单纯的个体样本追踪，能够进一步提升抽取效能。

本文转载自，作者：

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/baihuokuaixun/33492.html

重点是开源！ 用智能体框架提升知识图谱构建效果 AgentRE