作者:香港城市大学、中国科学技术大学 许德容
论文地址: https://journal.hep.com.cn/fcs/EN/10.1007/s11704-024-40555-y
代码地址:https://github.com/quqxui/Awesome-LLM4IE-Papers
今天跟大家分享一篇来自于香港城市大学、中国科学技术大学、腾讯优图实验室总结的大模型生成式信息抽取综述,该文章已经被期刊Frontiers of Computer Science接受。具体的,该文根据统一的范式囊括了四个信息抽取子任务和若干细分任务。并从六个技术技术角度总结了现有的研究。另外,还总结了信息抽取常用的数据集,以及一些特定的领域应用和评估工作。作者希望通过总结的文章为该领域的学者与实践人员提供一个整体化的视角。
图表 1 LLMs已经广泛应用于生成式信息抽取(IE)的研究中。这些研究涵盖了各种学习范式、多样化的LLM架构以及专门为单个子任务设计的框架,和能够同时处理多个子任务的通用框架。
信息抽取是自然语言处理中的一个关键领域,它将纯文本转化为结构化知识。IE是许多下游任务的基础要求,例如知识图谱构建、知识推理和问答。典型的IE任务包括命名实体识别(NER)、关系抽取(RE)和事件抽取(EE)。与此同时,大型语言模型(LLMs)的出现(例如GPT-4、Llama)极大地推动了自然语言处理的发展,它们在文本理解、生成和泛化方面具有强大的能力。因此,近年来对生成式IE方法的兴趣大幅增加,这些方法采用LLMs生成结构化信息,而不是从纯文本中提取结构化信息。与辨别式方法相比,这些方法在实际场景中可能更加实用,因为它们可以高效处理包含数百万实体的schema,而不会出现明显的性能下降。
一方面,LLMs在各种IE任务的不同场景中吸引了研究人员的极大关注。除了在命名实体识别(NER)、关系抽取(RE)和事件抽取(EE)等单个IE任务中表现出色外,LLMs还具有在通用格式中有效建模各种IE任务的能力。这是通过捕捉任务间的相互依赖关系,并通过指导性提示实现的效果。另一方面,最近的研究表明,LLMs不仅可以通过微调从IE训练数据中学习,还可以在少样本甚至零样本的情况下,仅依靠上下文示例或指令来提取信息。 然而,对于上述两类研究工作:1)涵盖多个任务的通用框架;2)缺乏训练数据的场景,现有的综述研究并没有充分探索它们。
在这项综述中,作者对大型语言模型(LLMs)用于生成式信息抽取(IE)的研究工作进行了全面的探索。为了实现这一目标,作者主要使用两个分类法对现有的代表性工作进行分类:(1)IE子任务的分类法,旨在对使用LLMs单独或统一提取的不同类型的信息进行分类;(2)学习范式的分类法,对如何利用LLMs进行生成式IE的各种新方法进行分类。此外,作者还展示了专注于特定领域的研究,以及评估/分析了LLMs在IE中性能的研究。此外,作者还比较了几种代表性方法在不同设置下的效果,以更深入地了解它们的潜力和局限性,并对利用LLMs进行生成式IE的挑战和未来方向进行深入分析。
预备知识
生成式信息抽取任务可以用如下公式概况:
其中X=[x1,x2,…,xn ]是待提取的文本序列, Y=[y1,y2,…,ym ]是目标序列,P是提示词。 信息抽取主要包括如下三个任务及其子任务:
- Named Entity Recognition(NER)包括两个任务:Entity Identification和Entity Typing。前者任务涉及识别实体的范围(例如,“Steve”),而后者任务则专注于为这些识别出的实体赋予类型(例如,“PERSON”)。
- Relation Extraction(RE)在不同的研究中可能有不同的设置。作者根据其他研究使用三个术语进行分类:
- (1) Relation Classification指的是对给定的两个实体之间的关系类型进行分类;
- (2) Relation Triplet 指的是识别关系类型以及相应的头实体和尾实体范围;
- (3) Relation Strict指的是给出正确的关系类型、范围以及头实体和尾实体的类型。
- Event Extraction(EE)可以分为两个子任务:
- (1) Event Detection(在某些研究中也称为事件触发词提取)旨在识别和分类最能清晰表示事件发生的触发词和类型。
- (2) Event Arguments Extraction旨在从句子中识别和分类作为事件中特定角色的论元。
信息抽取任务
论文中首先对信息抽取(IE)的各个子任务涉及的相关技术进行全面介绍。还进行实验分析,评估各种方法在代表性数据集上的性能。
命名实体识别
- 命名实体识别 (NER) 是信息抽取的一个重要组成部分,可以看作是关系抽取 (RE) 和事件抽取 (EE) 的前身或子任务。这也是自然语言处理领域中的一项基本任务,因此吸引了研究人员的极大关注,以探索llm时代的新可能性。 表格1中展示了在5个主要数据集上的NER实验结果对比,作者可以从结果中观察到以下几点:
- 少样本和零样本范式下的模型与SFT和DA范式下的模型仍然存在巨大的性能差距。
- 尽管backbone之间的差异不大,但ICL范式下的不同方法之间有着明显性能差距。例如,GPT-NER在每个数据集上与其他方法的F1值至少有6%的差距,最高可达19%。
- 与ICL范式相比,在SFT范式下的不同模型性能只有微小的差异,即使它们的骨干参数可能相差数百倍。
表格 1:命名实体识别(NER)的Micro-F1比较结果。† 表明是判别式模型。作者展示了一些通用IE模型和判别式模型,以供比较。学习范式包括跨域学习(CDL)、零样本提示(ZS Pr)、上下文学习(ICL)、监督微调(SFT)、数据增强(DA)。Uni. ?表示模型是否为通用IE框架。所有后续表的设置都与此格式一致。
关系抽取
关系抽取(RE)在信息抽取中也起着重要作用,正如上文中提到的,在不同的研究中,RE通常有不同的设置。 如表格2和表格3所示,作者统计发现,由于学习了多种任务之间的依赖关系,通用信息抽取模型通常偏向于解决更难的Relation Strict子任务,而特定任务的方法大多解决较为简单的RE子任务(如Relation Classification)。此外,与 NER 相比,可以发现不同方法在 RE 中的性能差异更为明显,这表明 LLM 在 RE 任务中的潜力仍有很大的挖掘空间。
表格 2:Relation Strict Extraction中的Micro-F1比较结果。† 表明是判别式模型。
表格 3:Relation Classification中的Micro-F1比较结果。
事件抽取
事件可以定义为在特定环境中发生的具体事件或事故。最近,许多研究旨在通过使用 LLMs 提取事件触发器和论据来理解事件并捕捉它们之间的相关性,这对各种推理任务至关重要。 在表格4中,作者收集了最近一些工作在最常用的EE数据集(ACE05)上的实验结果。可以看出,目前绝大多数方法都是基于 SFT 范式的,而使用 LLMs 进行零样本或少样本学习的方法较少。值得注意的是,表格中的生成式方法表现远远优于判别式方法,尤其是在Arg-C这一指标上,这表明生成式 LLMs 在 EE 中具有巨大的潜力。
表格 4:事件抽取在ACE05数据集上的实验结果对比。评测任务包括:触发词识别(Trg-I)、触发词分类(Trg-C)、论元识别(Arg-I)和论元分类(Arg-C)。† 表明是判别式模型。
通用信息抽取框架:
不同的信息抽取(IE)任务高度多样化,具有不同的优化目标和任务特定的模式,因此需要独立的模型来处理大量IE任务、设置和场景的复杂性。许多研究仅关注IE的一个子任务。然而,最近LLMs的进展促进了一些研究工作提出统一的生成式框架。该框架旨在对所有IE任务进行建模,捕捉IE的共同能力并学习跨多个任务的依赖关系。作者将通用框架分为两种格式:自然语言(基于NL-LLMs)和代码语言(基于Code-LLMs),以讨论它们如何使用统一的范式对这多个不同的任务进行统一建模,如图所示。 基于自然语言的方法将所有IE任务统一到一个通用的自然语言模式中;基于代码的方法通过生成具有通用编程模式的代码输出来统一IE任务。一般来说,NL-LLMs based 的方法在广泛的文本上进行训练,能够理解和生成人类语言,这使得提示和指令更加简洁和易于设计。然而,由于IE任务具有与大模型训练数据不同的独特语法和结构,NL-LLMs可能难以产生非自然文本的输出。而作为一种形式化语言,代码具有准确表示不同模式下的知识的内在能力,这使得它更适合于结构预测。但是,基于代码的方法通常需要大量的文本来定义一个Python类,这反过来限制了上下文的样本大小。 通过实验比较,作者可以观察到,在大多数数据集上,统一的IE模型在命名实体识别(NER)、关系抽取(RE)和实体抽取(EE)任务中优于单个特定任务的模型。
学习范式:
同时,论文根据信息抽取技术对所有方法进行了分类。
数据增强 (Data augmentation)
数据增强涉及生成有意义且多样化的数据,以有效增强训练样本,同时避免引入不真实、误导性和偏差的模式。近年来,强大的大语言模型在数据生成任务中表现出色,吸引了许多研究人员使用大语言模型生成用于信息抽取(IE)的合成数据。根据技术手段,数据增强策略大致可以分为以下四类,如图 5 所示:
- 数据标注 (Data annotation): 该策略直接利用大语言模型(LLMs)生成带标注的结构化数据,用于信息抽取(IE)。通过这种方法,可以减少传统数据标注所需的人力成本,同时加快标注数据的生成。
- 知识检索 (Knowledge retrieval): 该策略通过大语言模型(LLMs)高效地检索与信息抽取(IE)相关的知识或信息,其方式类似于检索增强生成(Retrieval-Augmented Generation,RAG)。这种方法能够从模型中提取有用知识,用于指导信息抽取任务。
- 逆向生成 (Inverse generation): 该策略通过将结构化数据作为输入,鼓励大语言模型生成自然语言文本或问题。这种方法与大语言模型的训练范式一致,能够更好地利用模型生成能力来扩展数据或设计问答任务。
- 用于微调的合成数据 (Synthetic datasets for fine-tuning):该策略通过查询大语言模型生成一些合成数据,用于指令微调(instruction-tuning)。这种方法利用大语言模型生成高质量的合成数据,从而提升其在特定任务上的性能。
Prompt设计 (Prompt design)
Prompt工程是一种无需改变大语言模型(LLMs)网络参数的技术,用于增强其能力。该方法通过使用任务特定的指令(即Prompt)来引导模型的行为。实践证明,Prompt设计在各种应用中非常成功。毫无疑问,有效的Prompt设计在提升LLMs在信息抽取(IE)任务中的性能方面也起着重要作用。在本节中,作者根据不同的策略对Prompt设计方法进行分类,并详细解释这些技术背后的动机:
- 问答 (Question answer, QA):LLMs通常通过基于对话的方法进行指令微调 [219,220],然而,与信息抽取任务对结构化预测的需求相比,这种方法存在一定的差距。QA式的Prompt设计旨在通过自然语言问答的方式,将任务需求转化为模型可理解的指令。
- 思维链 (Chain-of-thought, CoT):CoT是一种Prompt策略,通过向LLMs提供逐步且连贯的推理链作为提示,来增强模型的性能 [221]。这种方法能够引导模型生成更清晰的推理逻辑,特别适用于需要复杂推理的任务。
- 自我改进 (Self-improvement):尽管CoT技术可以在一定程度上激发LLMs的推理能力,但不可避免地,模型仍然可能生成事实性错误。自我改进策略旨在通过引导模型反思和修正其输出,进一步提升其生成的准确性和可靠性。
其他技术
- 零样本学习(Zero-shot learning):零样本学习的主要挑战在于确保模型能够有效地泛化到未经过训练的任务和领域,同时使大语言模型(LLMs)的预训练范式能够与这些新任务保持一致。
- 受约束的自回归生成(Constrained decoding generation):指的是在生成文本时,遵循特定的约束或规则的过程。
- 小样本学习(Few-shot learning):小样本学习仅能访问少量带标注的示例,因此面临诸如过拟合以及难以捕捉复杂关系等挑战。
- 监督微调(Supervised fine-tuning):利用所有训练数据对大语言模型进行微调是最常见且最有前景的方法。这种方法使模型能够捕捉数据中潜在的结构化模式,并对未见过的样本具有良好的泛化能力。
在特定领域的应用
不可忽视的是,大语言模型(LLMs)在从某些特定领域中提取信息方面具有巨大的潜力,例如:多模态领域(Multimodal),多语言领域(Multilingual),医学领域(Medical),科学领域(Scientific),天文学领域(Astronomical),历史领域(Historical),法律领域(Legal)等,如下图所示:
数据集
作者列举了一些典型的IE数据集,以方便研究人员查找
讨论和未来方向
该团队总结了一些仍待解决的挑战和值得讨论的研究方向:
- 通用信息抽取。以往的生成式IE方法和基准往往针对特定领域或任务进行定制,限制了它们的泛化能力。尽管最近提出了一些使用LLM的统一方法,但它们仍然存在一定的局限性(例如,长上下文输入限制,结构化输出的不对齐)。因此,进一步发展能够灵活适应不同领域和任务的通用IE框架是一个有前景的研究方向。
- 低资源信息抽取。基于LLM的生成式IE系统在资源有限的场景中仍然面临挑战。有必要进一步探索LLM的上下文学习,特别是在改进示例选择方面。未来的研究应考虑发展稳健的跨领域学习技术,例如领域自适应或多任务学习,以利用资源丰富的领域外的知识。此外,还应探索使用LLM的高效数据标注策略。
- 高效的提示词设计。设计有效的指令对LLM的性能有重要影响。 指令设计的一个方面是构建输入和输出对,以更好地与LLM的预训练阶段(例如代码生成)对齐。另一个方面是优化指令,以便更好地理解和推理模型(例如思维链),通过鼓励LLM进行逻辑推理或可解释的生成。 此外,研究人员可以探索交互式指令设计(例如多轮问答),在这种情况下,LLM可以自动迭代地改进生成的抽取结果或提供反馈。
- 开放式场景信息抽取。在开放式信息抽取中,IE模型面临更大的挑战,因为它们不提供任何候选标签集,完全依赖模型理解任务的能力。LLM凭借其知识和理解能力,在某些开放式信息抽取任务中具有显著优势。然而,在更具挑战性的任务中仍然存在性能不佳的情况,需要研究人员进一步探索。