DEGREE: A Data-Efficient Generation-Based Event Extraction Model

论文：2108.12724.pdf (arxiv.org)

代码：PlusLabNLP/DEGREE: Code for our NAACL-2022 paper DEGREE: A Data-Efficient Generation-Based Event Extraction Model. (github.com)

期刊/会议：NAACL 2022

摘要

事件抽取需要专家进行高质量的人工标注，这通常很昂贵。因此，学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。在本文中，我们关注低资源端到端事件抽取，并提出了DEGREE，这是一个数据高效模型，将事件抽取表述为一个条件生成问题。给定一篇文章和一个手动设计的提示，DEGREE学会将文章中提到的事件总结成一个遵循预定义模式的自然句子。然后用确定性算法从生成的句子中抽取出最终的事件预测。DEGREE有三个优势，训练数据少，学得好。首先，我们设计的提示(prompts)为DEGREE提供语义指导，以利用标签语义，从而更好地捕获事件论元。此外，DEGREE能够使用额外的弱监督信息，例如提示中编码的事件描述。最后，DEGREE以端到端的方式联合学习触发词和论元，这鼓励模型更好地利用它们之间的共享知识和依赖关系。实验结果表明，DEGREE算法在低资源事件抽取方面具有良好的性能。

1、简介

事件抽取(EE)旨在从给定的段落中抽取事件，每个事件由一个触发词和几个具有特定角色的参与者(论元)组成。例如，在图1中，Justice:Execute事件是由单词“execution”触发的，该事件包含三个论元角色，包括执行执行的Agent(Indonesia)、被执行的Person(convicts)和事件发生的Place(文中未提到)。之前的工作通常将EE分为两个子任务:(1)事件检测，它识别事件触发词及其类型;(2)事件论元抽取，它抽取给定事件触发词的论元及其角色。EE已被证明有益于广泛的应用，例如，构建知识图谱，问答，以及其他下游研究。

大多数先前关于EE的工作依赖于大量的标注数据进行训练。但是，获得高质量的事件标注的成本很高。例如，使用最广泛的EE数据集之一ACE 2005语料库需要语言学专家进行两轮标注。高昂的标注成本使得这些模型难以扩展到新的领域和新的事件类型。因此，如何学习仅用少量标注示例的数据训练高效EE模型是一个至关重要的挑战。

在本文中，我们专注于低资源事件抽取，其中只有少量的训练示例可用于训练。我们提出了DEGREE (Data-Efficient GeneRation-Based Event Extraction，基于数据高效生成的事件抽取)，这是一种基于生成的模型，它将段落和手动设计的提示(prompt)作为输入，并学习按照预定义的模板将文章总结成自然的句子，如图2所示。然后可以使用确定性算法从生成的句子中抽取事件触发词和论元。

DEGREE具有以下优势，训练数据少，学得好。首先，框架通过提示中设计的模板提供标签语义。如图2中的示例所示，提示符中的单词“somewhere”指导模型预测与角色Place的位置相似的单词。此外，该模板的句子结构和“攻击”一词描述了角色“attacker”和角色“target”之间的语义关系。有了这些指导，DEGREE可以用更少的训练示例做出更准确的预测。其次，提示(prompt)可以包含关于任务的附加弱监督信号，例如事件描述和类似的关键字。这些资源通常很容易获得。例如，在我们的实验中，我们从标注指南中获取信息，标注指南随数据集一起提供。这些信息有助于DEGREE在资源不足的情况下学习。最后，DEGREE设计用于端到端事件抽取，可以同时解决事件检测和事件论元抽取问题。利用两个任务之间的共享知识和依赖关系使我们的模型数据效率更高。

现有的EE研究通常只具备上述一两个优点。例如，以前基于分类的模型很难对标签语义和其他弱监督信号进行编码。最近提出的基于生成的事件抽取模型以管道方式解决了这一问题;因此，他们**(生成的事件抽取模型)不能利用子任务之间的共享知识**。此外，它们生成的输出不是自然句子，这阻碍了标签语义的利用。因此，我们的DEGREE模型在低资源事件抽取方面可以获得比以前的方法更好的性能，我们将在第3节中演示。

我们的贡献可归纳如下:

我们提出了DEGREE，这是一种基于生成的事件抽取模型，通过更好地结合标签语义和子任务之间的共享知识，可以用更少的数据进行更好的学习(第2节)。

ACE 2005和ERE-EN的实验证明了DEGREE在低资源环境下的强大表现(第3节)。

我们在低资源和高资源环境下进行了全面的消融研究，以更好地理解我们模型的优缺点(第4节)。

2、数据有效的事件抽取

我们引入了用于低资源事件抽取的基于生成的模型DEGREE。与之前的工作不同，将事件抽取分离为两个pipelined任务(事件检测和事件论元抽取)，DEGREE是为端到端事件抽取而设计的，同时预测事件触发词和论元。

2.1 DEGREE Model

我们将事件抽取表述为一个条件生成问题。如图2所示，给定一段文章和我们设计的提示(prompt)，DEGREE按照特定格式生成输出。然后，可以使用确定性算法从生成的输出中解析事件触发词和论元角色的最终预测。与之前基于分类的模型相比，生成框架提供了一种灵活的方式来包含额外的信息和指导。通过设计适当的提示(prompt)，我们鼓励DEGREE更好地捕获实体之间的依赖关系，从而减少所需的训练示例数量。

所需的提示(prompt)不仅提供信息，而且还定义输出格式。如图2所示，它包含以下组件:

事件类型定义描述给定事件类型的定义。例如，“The event is related to conflict and some violent physical act“。描述一个Conflict：Attack event。

事件关键词显示与给定事件类型在语义上相关的一些单词。例如，war、attack和terrorism是Conflict的三个事件关键字:Attack event。在实践中，我们从标注指南中收集了三个在例句中作为触发词出现的单词。

E2E template定义预期的输出格式，可以分为两部分。第一部分称为ED模板，其设计为“Event trigger is < trigger >”，其中“< trigger >”是作为占位符的特殊token。第二部分是EAE模板，根据给定的事件类型而有所不同。例如，在图2中，定义的EAE模板 Conflict: Attack event is “some attacker attacked some facility, someone, or some organization by some way in somewhere.” 每个以“some-”开头的下划线字符串作为Conflict: Attack event的论元角色对应的占位符。例如，“some way”对应角色“Instrument”，“somewhere”对应角色“Place”。注意，每个事件类型都有自己的EAE模板。我们在表1中列出了三个EAE模板。EAE模板的完整列表和构造细节可以在附录A中找到。

2.2 训练

DEGREE的训练目标是生成一个输出，用正确标签替换E2E模板中的占位符。以图2为例，DEGREE期望将“< Trigger >”替换为正确触发词(detonated)，将“some attack”替换为role Attacker(Palestinian)的正确论元，并将“some way”替换为role Instrument(bomb)的正确论元。如果同一个角色有多个论元，则用“and”连接;如果一个角色没有预测论元，模型应该保留相应的占位符(即E2E模板中的“some-”)。对于输入通道中给定事件类型有多个触发词的情况，训练DEGREE以生成包含多个E2E模板的输出文本，这样每个E2E模板对应一个触发词及其论元角色。超参数设置详见附录B。

2.3 推理

我们枚举所有事件类型，并为每种事件类型生成输出。在我们获得生成的句子后，我们将输出与E2E模板进行比较，以确定字符串格式的预测触发词和论元。最后，我们应用字符串匹配来将预测的字符串转换为通道中的跨度偏移。如果预测的字符串多次出现在段落中，我们选择与触发词预测匹配的所有跨度偏移量，并选择最接近给定触发词跨度的偏移量进行论元预测。

2.4 讨论

注意，E2E模板对DEGREE起着重要作用。首先，它作为控制信号并定义预期的输出格式。第二，它提供标签语义来帮助DEGREE做出准确的预测。E2E模板中的占位符(以“some-”开头的单词)为DEGREE提供了一些关于论元实体类型的提示。例如，当看到“somewhere”时，DEGREE倾向于生成一个地点而不是一个人。此外，“some-”以外的词描述了角色之间的关系。例如，由于E2E模板的存在，DEGREE可以知道角色“attacker”和角色“target”(谁在攻击谁被攻击)之间的关系。该指导帮助DEGREE学习实体之间的依赖关系。

与之前基于生成的方法不同，我们有意地在自然句中编写E2E模板。这不仅更好地使用标签语义，而且使模型更容易利用预训练解码器的知识。在第4节中，我们将提供实验来证明使用自然句的优势。

模板构建成本。DEGREE确实需要人力来设计模板;但是，编写这些模板要比收集复杂的事件标注容易得多。如表1所示，我们使EAE模板尽可能简单和简短。因此，对于非语言专家的人来说，编写一个模板只需要大约一分钟。事实上，之前的几项工作也使用构造的模板作为弱监督信号来改进模型。在第4节中，我们将研究不同的模板如何影响性能。

效率的考虑。DEGREE需要在推理期间枚举所有事件类型，这在扩展到包含许多事件类型的应用程序时可能会导致效率方面的考虑。这个问题对于我们在两个数据集(ACE 2005和ERE-EN)上的实验来说是次要的，就事件类型的数量而言，这两个数据集的规模相对较小。由于标注的成本很高，几乎没有任何用于大规模端到端事件抽取的公共数据集，当实验规模扩大时，我们无法提供更彻底的研究。我们把对标和提高DEGREE效率的工作留在场景中，考虑将更多样化和更全面的事件类型作为未来的工作。

2.5 DEGREE在pipeline框架中

DEGREE很灵活，可以很容易地修改为DEGREE(PIPE)，它首先关注事件检测(ED)，然后解决事件论元抽取(EAE)。DEGREE(PIPE)由两个模型组成:(1)DEGREE(ED)，它旨在为给定的事件类型精确地触发事件;(2)DEGREE(EAE)，它为给定的事件类型和相应的触发词标识论元角色。DEGREE(ED)和DEGREE(EAE)与DEGREE类似，但提示(prompt)和输出格式不同。我们将其区别描述如下。

DEGREE(ED)。DEGREE(ED)的提示包含以下组件:

事件类型定义与DEGREE相同。
事件关键字与DEGREE的关键字相同。
ED模板设计为“Event trigger is < trigger >”，这实际上是E2E模板的第一部分。

与DEGREE类似，DEGREE(ED)的目标是生成一个输出，用事件触发词替换ED模板中的“< trigger >”。

DEGREE(EAE)。DEGREE(EAE)的提示包含以下组件:

事件类型定义与DEGREE相同。
查询触发词是一个字符串，指示给定事件类型的触发词。例如，“The event trigger word is detonated”指出“detonated”是给定的触发词。
EAE模板是前面提到的特定于事件类型的模板。它实际上是E2E模板的第二部分。

与DEGREE类似，DEGREE(EAE)的目标是生成一个输出，用事件论元替换EAE模板中的占位符。

在第3节中，我们将比较DEGREE和DEGREE(PIPE)，以研究在低资源设置下以端到端方式处理事件抽取的好处。

3、实验

我们进行了低资源事件抽取的实验，以研究DEGREE的表现。

3.1 实验设置

数据集：ACE 2005(ACE05-E、ACE05-E+)、ERE-EN。

低资源下的数据划分设置：我们生成不同比例(1%，2%，3%，5%，10%，20%，30%，50%)的训练数据来研究训练集大小的影响，并使用原始开发集和测试集进行评估。附录C列出了更多关于数据划分生成过程和数据统计的详细信息。

评估指标：Trigger F1-score、Argument F1-score。

对比baseline：OneIE、BERT_QA、TANL、Text2Event.

3.2 主要的结果

表2给出了三个训练数据占比不同的数据集的触发词分类F1-scores和论元分类F1-scores。结果如图3所示。由于我们的任务是端到端事件抽取，所以在比较模型时，论元分类F1-score是我们考虑的更重要的度量。

从图3和表2中，我们可以观察到，当使用不到10%的训练数据时，DEGREE和DEGREE(PIPE)都优于所有其他基线。在极低数据的情况下，性能差距变得更加显著。例如，当只有1%的训练数据可用时，DEGREE和DEGREE(PIPE)在触发词分类F1分数上取得了超过15分的提高，在论元分类F1分数上取得了超过5分的提高。这证明了我们设计的有效性。基于生成的模型，经过精心设计的提示，能够利用标签语义和额外的弱监督信号，从而帮助在低资源条件下的学习。

另一个有趣的发现是，DEGREE和DEGREE(PIPE)似乎更有利于预测论元，而不是预测触发词。例如，最强的基线OneIE需要20%的训练数据来实现对DEGREE和DEGREE(PIPE)的触发词预测的竞争性能;然而，它需要大约50%的训练数据才能在预测论点方面达到竞争性表现。原因是，对于论元预测来说，捕获依赖关系的能力比触发词预测更重要，因为与触发词相比，论元通常是相互强烈依赖的。因此，我们的论元预测模型的改进更为显著。

此外，我们观察到，在低资源设置下，DEGREE略优于DEGREE(PIPE)。这为在低资源环境中联合预测触发词和论元的好处提供了经验证据。

最后，我们对少样本实验和零样本实验进行了附加实验。结果可以在附录E中找到。

3.3 高资源下的事件抽取

虽然我们专注于低资源事件抽取的数据高效学习，但为了更好地理解我们模型的优点和缺点，我们还研究了高资源设置下的DEGREE，以进行对照比较。

而基线。除了上面提到的EE模型:OneIE， BERT_QA， TANL， Text2Event，我们还考虑以下针对高资源设置的基线。dbRNN 是基于分类的模型，为事件抽取添加依赖桥。DyGIE++ 是一种采用跨度图传播技术的基于分类的模型。Joint3EE是一种基于分类的模型，使用实体、触发词和论元的标注联合训练。MQAEE将EE转换为一系列问答问题，用于论元抽取。BART-Gen是一个基于生成的模型，只关注事件论元抽取。附录D显示了基线的实现细节。

事件抽取的结果。表3显示了高资源事件抽取的结果。在触发词预测(Tri-C)方面，DEGREE和DEGREE(PIPE)优于所有基线，除了当前最先进的模型OneIE。对于论元预测(Arg-C)，我们的模型相对于OneIE在现有两个数据集有明显的提升。当有足够的训练示例时，模型可以从数据中学习更复杂的特征，这些特征不一定遵循所学习的依赖关系。因此，DEGREE相对于DEGREE(PIPE)的优势就不那么明显了。这个结果证明了我们的假设，即DEGREE对于低资源设置具有更好的性能，因为它能够更好地捕获依赖关系。

事件论元抽取的结果。在表4中，我们还研究了事件论元抽取任务的性能，其中模型使用提供的恒却触发器进行论元预测。有趣的是，DEGREE(EAE)实现了相当强的性能，并以很大的幅度超过了其他基准。结合表3中的结果，我们假设事件论元抽取是一项比事件触发词检测更具挑战性的任务，它需要更多的训练示例才能学习得很好。因此，我们提出的模型利用了使用标签语义来更好地捕获依赖关系的优势，实现了事件论元抽取的最新技术。

4、消融实验

在本节中，我们将介绍全面的消融实验，以证明我们的设计是正确的。为了更好地理解设计的提示中每个组件的贡献及其对不同任务的影响，我们在低资源和高资源情况下都去掉了DEGREE(EAE)和DEGREE(ED)。

提示中组件的影响。拆除ACE05-E事件检测提示部分时性能变化如表5所示。删除任何一个事件类型定义、事件关键字和ED模板都会降低性能。结果表明，三种成分都是必要的。

表6展示了不同组件在ACE05-E中对事件论元抽取的影响。删除事件类型定义、查询触发词和EAE模板中的任何一个都会导致性能下降，这验证了它们的必要性。我们观察到，查询触发词在三者中起着最重要的作用，当给定的训练数据较少时，利用这些弱监督信号的优势变得更加明显。

不同模板设计的效果。为了验证使用自然句子作为输出的重要性，我们研究了EAE模板的三种变体:

自然的句子。我们建议的模板描述在第2节，例如，“somebody was born in somewhere.”，其中“somebody”和“somewhere”是占位符，可以被相应的论元替换。
带有特殊标记的自然句。它类似于自然句子，除了使用特定于角色的特殊标记而不是“some-”词。例如，“< Person > was born in < Place >。”我们认为这是为了研究角色的标签语义。
带有特殊标记的类似html的句子。为了研究使用自然句的重要性，我们还考虑了类似html的句子，例如“< Person > < /Person> < Place > < /Place > ”。该模型旨在将论元预测放在相应的HTML标记之间。

EAE模板在ACE05-E上的所有变体的结果如表7所示。我们注意到，用自然语言风格编写模板可以获得更好的性能，特别是当只有少量数据可用时(10%的数据)。这表明我们的设计能够在生成过程中利用预训练的知识。此外，当用特殊标记替换自然语言占位符时，性能下降了1个F1。这证实了为不同的角色利用标签语义是有益的。

对模板设计敏感。最后，我们研究了我们的模型对模板的敏感性。除了最初设计的事件论元抽取模板外，我们还组合了另外两组具有不同构造规则的模板(例如，不同的词选择和不同的角色顺序)。表8显示了使用不同模板集的结果。在使用不同模板时，我们观察到性能波动，这表明模板的质量确实在一定程度上影响了性能。因此，我们在设计模板时需要谨慎。然而，即使我们的模型可能对模板设计敏感，它仍然优于OneIE和BART-Gen，它们分别是最佳的基于分类的模型和最佳的基于生成的基线。

5、相关的工作

完全监督的事件抽取。事件抽取已经研究了十多年和大多数传统的事件抽取工作遵循完全监督的设置。他们中的许多人使用基于分类的模型和使用pipeline-style的框架来抽取事件。为了更好地利用事件触发词和论元中的共享知识，一些工作建议合并全局特征来共同决定触发词和论元。

最近，很少有人提出了基于生成的事件抽取模型。TANL将事件抽取视为增强的自然语言之间的翻译任务。他们预测的目标增强语言通过使用括号和竖条符号将标签嵌入到输入通道中。TempGen是一种基于模板的角色填充实体抽取模型，它生成将角色实体填充到非自然模板序列的输出。与生成自然句子的DEGREE不同，TANL和TempGen的输出序列设计阻碍了模型充分利用标签语义。BART-Gen也是一个基于生成的模型，专注于文档级事件论元抽取。它们通过管道解决事件抽取问题，从而防止跨子任务共享知识。所有这些完全监督的方法都可以通过大量带标注的数据实现显著的性能。然而，它们的设计并不针对低资源场景，因此，正如我们在第1节中提到的，这些模型不能同时享受DEGREE在低资源事件抽取方面获得的所有好处。

低资源事件抽取。在数据较少的场景中对事件抽取越来越感兴趣。Liu等人使用机器阅读理解公式在低资源状态下进行事件抽取。Text2Event是一种从序列到结构的生成范式，它首先以线性化的格式呈现事件，然后训练生成模型来生成线性化的事件序列。Text2Event不自然的输出格式阻碍了模型充分利用预训练的知识。因此，他们的模型在只有极低数据可用的情况下不足(如第3节所示)。

另一项研究是使用元学习来应对标签较少的挑战。然而，他们的方法只能应用于事件检测，这与我们研究端到端事件抽取的主要重点不同。

6、总结与未来工作

在本文中，我们提出了DEGREE，一个数据高效的基于生成的事件抽取模型。DEGREE需要更少的训练数据，因为它更好地利用了标签语义和弱监督信息，并通过联合预测触发词和论元来捕获更好的依赖关系。我们的实验结果和消融研究表明了DEGREE在低资源事件抽取方面的优越性。

DEGREE假设一些弱监督的信息(事件的描述、类似的关键字和人工编写的模板)对用户来说是可访问的，或者成本不高。这个假设可能适用于大多数情况。我们将模板构建的自动化留给以后的工作，这可以进一步减轻在大规模语料库中部署DEGREE时所需的工作。

DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读

DEGREE: A Data-Efficient Generation-Based Event Extraction Model

摘要

1、简介