Query and Extract: Refining Event Extraction as Type-oriented Binary Decoding
论文:https://arxiv.53yu.com/pdf/2110.07476.pdf
代码:https://github.com/VT-NLP/Event_Query_Extract
期刊/会议:ACL 2022
摘要
事件抽取通常被建模为一个多分类问题,其中事件类型和论元角色被视为原子符号。这些方法通常仅限于一组预定义的类型。我们提出了一种新颖的事件抽取框架,该框架使用事件类型和论元角色作为自然语言查询,从输入文本中抽取候选触发词和论元。通过查询中的丰富语义,我们的框架受益于注意力机制,可以更好地捕获事件类型或论元角色与输入文本之间的语义相关性。此外,查询-抽取公式允(query-and-extract formulation)许我们的方法利用来自各种本体的所有可用事件标注作为统一模型。在ACE和ERE上的实验表明,我们的方法在每个数据集上都达到了最先进的性能,并且在零样本事件抽取上显著优于现有方法。
1、简介
事件抽取(Grishman, 1997; Chinchor and Marsh, 1998; Ahn, 2006)是一项从自然语言文本中识别和分类事件触发词和参与者的任务。如图1所示,married和left分别是Marry和Transport事件类型的两个事件提到的触发词。left事件提到了两个论元:she is an Artifact, and Irap is the Destination.
传统研究通常将事件抽取建模为多类分类问题(McClosky et al, 2011; Li et al, 2013; Chen et al, 2015; Yang and Mitchell, 2016; Nguyen et al, 2016; Lin et al, 2020),其中首先定义了一组事件类型,然后有监督的机器学习方法将检测并将每个候选事件提到或论元分类为其中一个目标类型。但是,在这些方法中,每个事件类型或论元角色都被视为原子符号,忽略了它们丰富的语义。一些研究通过利用事件类型结构(Huang et al, 2018),种子事件提及(Bronstein et al, 2015; Lai and Nguyen, 2019),或问题回答(QA)(Du and Cardie, 2020; Liu et al, 2020)。然而,这些方法仍然是为单个目标事件本体设计的,因此仅限于单个目标事件本体,例如ACE (Consortium, 2005)或ERE (Song et al, 2015)。
随着多个本体的存在和处理新出现的事件类型的挑战,有必要研究可泛化的事件抽取方法,并且可以使用来自不同事件本体的所有可用训练数据。
为此,我们提出了一个遵循查询-抽取范式的新的事件抽取框架。我们的框架将事件类型和论元角色表示为具有丰富语义的自然语言查询。然后,通过利用我们提出的注意力机制来捕获它们与输入文本的交互,查询用于抽取相应的事件触发词和论元。具体来说,(1)对于触发词检测,我们根据每个事件类型的类型名和原型触发词的简短列表将每个事件类型化为一个查询,并根据每个token的查询感知嵌入对其进行二元解码(binary decoding)。(2)对于论元抽取,我们将每个事件类型下定义的所有论元角色放在一起作为一个查询,然后采用多路注意力机制对每个事件提及的所有论元进行一次性编码(one-time encoding),每个论元预测为二元解码(binary decoding)。
与之前的研究相比,我们的方法可以自然地将各种本体作为统一模型处理(Nguyen and Grishman, 2016; Wadden et al, 2019; Lin et al, 2020),我们的二元解码机制直接适用于表示为自然语言查询的任何事件类型或论元角色,从而有效地利用跨本体事件标注并进行零样本预测。此外,与基于QA的方法相比(Du and Cardie, 2020; Liu et al, 2020; Li et al, 2020a)也可以进行零样本论元抽取,我们的方法不需要为论元角色单独创建高质量的问题,也不需要为不同的论元角色单独创建多次编码,因此更加准确和高效。
我们在两个公共基准数据集ACE和ERE上评估了我们的方法,并在标准监督事件抽取和具有挑战性的迁移学习设置中展示了最先进的性能,这些设置可以推广到新的事件类型和本体。值得注意的是,在零样本迁移到新事件类型时,我们的方法在触发词检测方面优于强基线16%,在论元检测方面优于强基线26%。我们工作的总体贡献是:
- 我们将事件抽取细化为查询和抽取范式,这比以前的自顶向下分类或基于QA的方法更一般化和高效。
- 我们设计了一个新的事件抽取模型,利用事件类型和论元角色的丰富语义,提高了准确性和泛化性。
- 我们在有监督和零样本事件抽取方面建立了ACE和ERE的最新性能,并演示了我们的框架作为跨本体迁移的有效统一模型。
2、我们的方法
如图2所示,给定一个输入句子,我们首先通过将其作为对句子的查询来确定每个事件类型的候选触发词。每个事件类型(如Attack)都用自然语言文本表示,包括其类型名称和原型触发词的短列表,如入侵(invaded)和空袭(airstrikes),这些触发词是从训练示例中选择的。然后,我们将输入句子与事件类型查询连接起来,用预训练好的BERT编码器对它们进行编码(Devlin et al, 2019),计算每个输入token在事件类型查询的顺序表示上的注意力分布,最后将每个token分类为一个二元标签,表明它是否是特定事件类型的候选触发词。
为了抽取每个候选触发词的论元,我们遵循类似的策略,并将其对应事件类型的预定义论元角色集作为对输入句子的查询。我们使用另一个BERT编码器来学习输入句子的上下文表示和论元角色的查询。然后,将输入句子中的每个实体作为候选论元,计算实体与候选论元角色之间的多向注意力语义相关性,最后根据每个论元角色将每个实体划分为一个二元标签。
2.1 触发词检测
事件类型表示:表示事件类型的一种简单而直观的方法是使用类型名称。但是,由于类型名称的模糊性以及每种类型提到的事件的多样性,类型名称本身不能准确地表示事件类型的语义。例如,Meet可以指有an organized event,也可以指get together或matching的活动。受之前研究的启发(Bronstein et al, 2015;Lai and Nguyen, 2019),我们使用一个简短的原型触发词列表来丰富每个事件类型的语义。
强化上下文表示:给定每个事件类型的查询,我们的目标是从输入句子中自动抽取相应的事件触发词。为了实现这一目标,我们需要捕获每个输入token与事件类型的语义相关性。因此,我们应用注意力机制来学习事件类型查询上下文表示序列的权重分布,并为每个token获得一个事件类型感知上下文表示:
2.2 事件论元检测
在检测到每种事件类型的事件触发词之后,我们根据每种事件类型的预定义论元角色进一步抽取它们的论元。
此外,之前的研究(Hong et al, 2011; Li et al, 2013; Lin et al, 2020)揭示了实体或论元角色之间的潜在关系对于抽取论元也很重要。例如,如果实体e 1被预测为攻击(Attack)事件的攻击者(Attacker),而e 1 位于(located in)另一个实体e 2 中,那么e 2 很可能扮演攻击(Attack)事件的Place论元角色。为了捕捉实体之间的潜在关系,我们进一步计算它们之间的自注意
同样地,为了捕捉论元角色之间的潜在关系,我们还计算了它们之间的自注意
3、实验
3.1 实验设置
数据集:ACE2005、ERE。
我们进一步设计了两个更具挑战性和实用性的设置,以评估该方法如何利用来自不同本体的资源:(1)跨本体直接迁移(cross-ontology direct transfer),我们只使用来自ACE或ERE的标注进行训练,并直接在另一个事件本体上测试模型。这与迁移学习文献中的领自适应设置相对应;(2)联合本体增强(joint-ontology enhancement),将来自ACE和ERE的标注作为训练集,分别在ACE或ERE本体上测试方法。这与迁移学习文献中的多领域学习设置相对应。直观地说,具有良好可移植性的方法应该更多地受益于来自其他本体的增强训练数据。我们遵循ACE和ERE相同的训练/开发/测试分割作为有监督的事件抽取。
3.2 监督的事件抽取
3.3 零样本事件抽取
3.4 跨本体迁移
3.5 消融实验
4、相关工作
传统事件抽取研究(McClosky et al, 2011; Li et al, 2013; Chen et al, 2015; Cao et al, 2015; Feng et al, 2016; Yang and Mitchell, 2016; Nguyen et al, 2016; Zhang et al, 2017; Wadden et al, 2019; Lin et al, 2020; Wang et al, 2021)通常使用多分类器检测事件触发词和论元。与所有这些将事件类型和论元角色视为符号的方法不同,我们的方法将它们视为具有丰富语义的查询,并利用输入token与每个事件类型或论元角色之间的语义交互。
一些研究已经探索了基于种子事件触发词的事件类型的语义(Bronstein et al, 2015; Lai and Nguyen, 2019; Zhang et al, 2021),事件类型结构(Huang et al, 2016, 2018),定义(Chen et al, 2019)和潜在表征(Huang and Ji, 2020)。然而,它们很难推广到论元抽取。基于问答的事件抽取(Du and Cardie, 2020; Liu et al, 2020; Li et al, 2020a; Lyu et al, 2021)可以利用事件类型的语义和大规模问答数据集。与这些基于QA方法相比,有三种不同的关键设计,使我们的方法具有更好的性能和广泛性。(1)我们的方法直接将事件类型和论元角色作为查询。相比之下,以前的基于QA的方法依赖于模板或生成模块来创建自然语言问题。然而,很难为每种事件类型找到最佳的问题格式,许多研究(Du and Cardie, 2020; Li et al, 2020b)已经表明,MRC或QA模型对问题的微小变化很敏感。(2)基于QA的方法一次只能检测一个论元角色,而我们的方法通过一次编码和解码抽取一个事件触发词的所有论元,效率更高,并且利用了候选论元或论元角色之间的隐式关系。(3)基于QA的方法依赖于跨度预测来抽取论元,而不需要抽取实体,这可能导致更多的实体边界误差。因此,我们选择预训练一个名称标记模型,并对系统检测到的实体使用二元解码。此外,将事件抽取任务完全适应基于跨度的问答是相当具有挑战性的。主要原因是每个句子可能包含特定事件类型的多个触发词。即使我们可以形式化一个问题,例如,“what is the trigger for Attack?”模型很难正确地返回事件触发词的所有跨度。
5、总结和未来工作
我们使用查询-抽取范式改进了事件抽取,并设计了一个新的框架,该框架利用事件类型和论元角色的丰富语义,并使用注意力机制捕获它们与输入文本的交互,以抽取事件触发词和论元。实验结果表明,我们的方法在有监督事件抽取方面达到了最先进的性能,并对新事件类型和跨本体显示出突出的准确性和泛化性。在未来,我们将探索事件类型和论元角色的更好表示,并将它们结合提示调优方法进一步提高事件抽取的准确性和泛化性。