一、概述
Title: InstructUIE: Multi-task Instruction Tuning for Unified Information Extraction
Paper:
1Motivation
大语言模型解锁了非常强的多任务能力,但是大模型在信息抽取任务上表现比较差,例如gpt-3.5-turbo在Ontonotes数据集上的f1只有18.22。
2.1 整体结构
说明:
1)基于Instruction tuning技术,实现了一个信息抽取的统一框架,可以实现各式各样的信息抽取任务,并且能挖掘内部任务之间的依赖关系。
2)将三大信息抽取任务都转化成Multi-Task Instruction Tuning的形式来解决。每个部分包括Instruction,Options,text三个输入,并且按照特定格式输出最终结果。
2.2 引入辅助任务(子任务)提高精度
说明:为了在更细粒度的水平上提高性能,设计了与主要任务一起训练的辅助任务,其中对于实体抽取、关系抽取、事件抽取分别设置了不同的辅助任务。详情如下:
2.3 prompts样例
说明:prompts中按照不同的任务给出instructions,并且给出输出格式要求
2.4 提出了新的评测benchmark
提出了IE INSTRUCTIONS,32个不同信息提取数据集的基准(benchmark),采用统一的文本到文本格式,带有有专家编写的instructions,用于评测本文方法的有效性。
3 Conclusion
1000个样本监督学习:取得了和BERT监督学习可比较的一个效果。
zero-shot:在zero-shot的能力上取得了sota,比gpt3.5sota也好得多。
二、详细内容
1 与UIE以及USM等方法对比
不同方法优缺点总结:
1)LMM:例如chatgpt等大模型在IE任务中表现不佳,本文提出InstructUIE探索大模型解决信息抽取新范式。
2)UIE:text-to-structure,对于不同的下游任务,需要单独进行finetune,遇到新label schema或者低资源情况下效果比较差。
3)USM: 是一个统一的IE任务框架,它将IE任务转换为se-mantic匹配问题。缺点一:它将IE转换为语义匹配任务,这使得很难与生成语言模型集成。缺点二:该方法要求对每个单词进行语义匹配,这导致训练和推理时间显著增加。
2 Experiments
2.1 有监督学习(每个数据集10000样本)
实体抽取结果:
关系抽取和事件抽取结果:
结论:
1. NER:所有数据集都只有1万的训练集,平均F1 85%,超过了BERT的80%,20个任务有17个都超过BERT,很多超过了5个点,最多超过25个点,落败的数据集上训练集只有别人的20%,但是模型比BERT大很多。
2. RE:平均f1: 67.98%。
3. EE:Event trigger f1: 71.69%,Event Argument F1 metric,比UIE和SUM都好很多。
实验设置详情:
1)Backbone:11B TlanT5
2)Dataset:IE INSTRUCTIONS涉及三种信息抽取任务,named entity extraction, relation extraction, and event extraction,每个数据集sample10000数据
3)对比Baseline:UIE:text-to-structure generation framework,USM:将IE任务转化成语义匹配任务,BERT
4)Metrics:Micro-F1,NER:实体边界和类型都要对,RE:主实体,副实体,关系都要对。EE事件触发:触发类型和触发词都要对,事件参数:role type 和 event type匹配
2.2 few-shot结果(非训练集评测)
结论:
2.3 与chatgpt对比
结论:在信息抽取任务上,比chatgpt效果要好非常多
三、总结
四、参考
[1] Wang X, Zhou W, Zu C, et al. InstructUIE: Multi-task Instruction Tuning for Unified Information Extraction[J]. arXiv preprint arXiv:2304.08085, 2023.
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://jmbhsh.com/baihuokuaixun/33295.html