Saliency as Evidence: Event Detection with Trigger Saliency Attribution
论文:https://aclanthology.org/2022.acl-long.313.pdf
代码:https://github.com/jianliu-ml/SaliencyED
期刊/会议:ACL 2022
摘要
事件检测(ED)是事件抽取的关键子任务,它试图识别文本中特定类型的事件触发词。尽管ED取得了重大进展,但现有方法通常遵循“一个模型适合所有类型”的方法,这种方法认为事件类型之间没有差异,通常会导致相当倾斜的性能。找出性能倾斜的原因对ED模型的鲁棒性至关重要,但迄今为止对这一问题的探索很少。这项研究深入研究了这个问题,并提出了一个新概念,称为触发词显著性归因(trigger salience attribute),它可以明确量化事件的潜在模式。在此基础上,我们开发了一种新的ED训练机制,可以区分触发词依赖和上下文依赖类型,并在两个基准测试中取得了良好的性能。最后,通过强调触发词依赖和上下文依赖类型的许多不同特征,我们的工作可能会促进对这个问题的更多研究。
1、简介
之前的ED方法通常采用“一个模型适合所有类型”的方法,认为事件类型之间没有区别,并使用单一模型来解决所有事件(Ji and Grishman, 2008; Li et al, 2013; Chen et al, 2015; Lin et al, 2020)。然而,这种方法在不同类型上产生了相当倾斜的性能。以ACE基准为例,我们注意到最先进的ED模型(Wadden et al, 2019)在类型DIVORCE的F1中可以达到90%,但对于类型START-POSITION只有50%,更令人惊讶的是,DIVORCE的训练集比START-POSITION的训练集小8倍。找出倾斜性能潜在的原因对ED模型的鲁棒性至关重要;然而,这一问题在目前的研究中还不够充分。
在本研究中,我们重新审视了上述问题,并首次将偏斜的表现归因于事件的上下文模式(contextual patterns of events)。让我们考虑图1中所示的DIVORCE和START-POSITION的两个典型实例。直观地说,它们展示了不同的模式:DIVORCE事件更依赖触发词,触发词(即“离婚(divorced)”明确指示事件的发生;相比之下,START-POSITION事件更依赖于上下文——事件语义主要由上下文而不是触发词“成为(become)”表示,后者只是一个简单的动词。我们假设ED模型在依赖上下文的类型上表现不佳,因为捕获上下文语义具有挑战性(Lu et al, 2019; Liu et al, 2020b)。根据上述直觉,产生了两个问题:(i)我们能否定量地估计一个事件的模式?(ii))如何通过描述这些模式来增强ED模型的鲁棒性?
为了解决第一个问题,我们引入了一个名为触发词显著性归因的新概念,它可以明确量化事件的上下文模式。图2说明了关键思想:为了确定事件在多大程度上依赖于触发词或依赖于上下文,我们测量触发词对整体事件语义表达的贡献。具体来说,我们首先为每个句子分配一个表示整体事件语义的全局事件标签。然后,受到特征归因方法的启发(Simonyan et al, 2014; Sundararajan et al, 2017),我们将每个单词视为一个特征,并计算其贡献(即显著性值)来预测全局事件标签。最后,通过检查ground-truth触发词的显著性值,我们可以判断一个事件在多大程度上依赖触发词或上下文:例如,较高的值表明触发词对事件的贡献更大,这意味着事件更依赖触发词。
为了回答第二个问题,我们开发了一种新的基于触发词显著性归因的训练机制,将显著性作为证据来增强学习。我们的方法简单而直接——我们没有使用单一模型来检测所有事件类型,而是将具有相似模式的事件类型分组在一起(通过触发词显著性归因进行评估),并为每个组开发单独的模型。这种策略使不同的模型能够捕获不同的模式——例如,上下文依赖类型的模型可以专注于挖掘上下文信息进行学习。为了进一步促进学习,我们还提出了两种显著性探索策略来增强上述框架,可以明确地将显著性信息集成到学习中,并产生更好的表现,特别是对于上下文依赖类型(§6.2)。
为了验证我们方法的有效性,我们对两个ED基准(即ACE 2005 (LDC, 2005)和MAVEN (Wang et al, 2020))进行了广泛的实验。结果表明:(i)我们的触发词显著性归因方法可以捕捉到潜在的模式,并很好地解释了倾斜的表现,在ACE 2005和MAVEN上,每个类型F1的Spearman相关系数分别为0.72和0.61;(ii)我们基于显著性的新训练机制在两个基准上的结果有所改善。例如,在ACE 2005上,与联合训练不同事件类型的方法相比,它在F1中产生了2%的绝对增益。最后,在消融研究中,我们比较并强调了触发依赖和上下文依赖事件类型的许多重要特征(例如,语言和词汇模式);我们的工作可能会激发未来对它们模式的研究。
总之,我们的贡献有三个方面:
- 我们分析了一个ED模型的倾斜性能的起源,并提出了一个称为触发词显著性归因的新概念,它可以评估事件的潜在模式。作为一项开创性的研究,我们的发现提出了一种可能性,即传统的“一种模型适合所有类型”范式可能需要改变。
- 我们提出了一种新的基于触发词显著性归因的ED训练机制,在两个基准上取得了有前景的结果,特别是在处理上下文依赖的事件类型时。
- 我们强调了触发词依赖和上下文依赖事件类型的几种不同模式,我们的发现可能会刺激未来对它们差异的研究。
2、背景和相关工作
事件检测:一般采样预训练语言模型微调的方式,可以融入句法信息、文档及线索、外部监督信号去加速学习。然而,大多数方法不区分事件类型,只训练一个模型来识别所有事件类型,导致在不同事件类型上的性能相当不均衡。两项重大工作(Lu et al, 2019; Liu et al, 2020b)观察到在上下文依赖文本上的表现相对较差,并提出了更好的上下文探索策略来改善训练。尽管如此,他们的位置是提高性能,而不是调查根本原因。另一方面,我们的方法以全新的视角看待问题,旨在定义学习事件的基本模式。
3、触发词显著性归因
类型水平的显著性估计:基于词级显著性,我们测量类型级触发显著性值(关于事件类型T )为:
4、显著性增强ED
基于触发词显著性归因,我们设计了一种新的ED训练范式,可以区分具有相似模式的事件类型进行学习,并取得了良好的效果。图3显示了概述,下面是技术细节。
5、实验
数据集:ACE2005、MAVEN。
实验结果:
6、总结
在本研究中,我们分析了ED模型的倾斜性能的起源,并引入了一个称为触发词显著性归因的新概念来量化事件的模式。我们为ED设计了一种新的训练范式,可以区分学习的触发词依赖类型和上下文依赖类型,在两个基准上产生了有希望的结果。我们还广泛研究了这两种类型之间的差异,我们的工作可能会促进未来对这一问题的研究。在未来,我们将把我们的方法应用到上下文模式很重要的其他任务中(例如,关系抽取)。