Saliency as Evidence: Event Detection with Trigger Saliency Attribution 论文解读

简介: 事件检测(ED)是事件抽取的关键子任务,它试图识别文本中特定类型的事件触发词。尽管ED取得了重大进展,但现有方法通常遵循“一个模型适合所有类型”的方法,这种方法认为事件类型之间没有差异,通常会导致相当倾斜的性能。

Saliency as Evidence: Event Detection with Trigger Saliency Attribution


170775473ffc45a6a0b74270aa0cd81c.png


文:https://aclanthology.org/2022.acl-long.313.pdf

代码:https://github.com/jianliu-ml/SaliencyED

期刊/会议:ACL 2022


摘要


事件检测(ED)是事件抽取的关键子任务,它试图识别文本中特定类型的事件触发词。尽管ED取得了重大进展,但现有方法通常遵循“一个模型适合所有类型”的方法,这种方法认为事件类型之间没有差异,通常会导致相当倾斜的性能。找出性能倾斜的原因对ED模型的鲁棒性至关重要,但迄今为止对这一问题的探索很少。这项研究深入研究了这个问题,并提出了一个新概念,称为触发词显著性归因(trigger salience attribute),它可以明确量化事件的潜在模式。在此基础上,我们开发了一种新的ED训练机制,可以区分触发词依赖和上下文依赖类型,并在两个基准测试中取得了良好的性能。最后,通过强调触发词依赖和上下文依赖类型的许多不同特征,我们的工作可能会促进对这个问题的更多研究。


1、简介


之前的ED方法通常采用“一个模型适合所有类型”的方法,认为事件类型之间没有区别,并使用单一模型来解决所有事件(Ji and Grishman, 2008; Li et al, 2013; Chen et al, 2015; Lin et al, 2020)。然而,这种方法在不同类型上产生了相当倾斜的性能。以ACE基准为例,我们注意到最先进的ED模型(Wadden et al, 2019)在类型DIVORCE的F1中可以达到90%,但对于类型START-POSITION只有50%,更令人惊讶的是,DIVORCE的训练集比START-POSITION的训练集小8倍。找出倾斜性能潜在的原因对ED模型的鲁棒性至关重要;然而,这一问题在目前的研究中还不够充分。


在本研究中,我们重新审视了上述问题,并首次将偏斜的表现归因于事件的上下文模式(contextual patterns of events)。让我们考虑图1中所示的DIVORCE和START-POSITION的两个典型实例。直观地说,它们展示了不同的模式:DIVORCE事件更依赖触发词,触发词(即“离婚(divorced)”明确指示事件的发生;相比之下,START-POSITION事件更依赖于上下文——事件语义主要由上下文而不是触发词“成为(become)”表示,后者只是一个简单的动词。我们假设ED模型在依赖上下文的类型上表现不佳,因为捕获上下文语义具有挑战性(Lu et al, 2019; Liu et al, 2020b)。根据上述直觉,产生了两个问题:(i)我们能否定量地估计一个事件的模式?(ii))如何通过描述这些模式来增强ED模型的鲁棒性?


9c5ebe1dda334a43a46322d95e46397c.png


为了解决第一个问题,我们引入了一个名为触发词显著性归因的新概念,它可以明确量化事件的上下文模式。图2说明了关键思想:为了确定事件在多大程度上依赖于触发词或依赖于上下文,我们测量触发词对整体事件语义表达的贡献。具体来说,我们首先为每个句子分配一个表示整体事件语义的全局事件标签。然后,受到特征归因方法的启发(Simonyan et al, 2014; Sundararajan et al, 2017),我们将每个单词视为一个特征,并计算其贡献(即显著性值)来预测全局事件标签。最后,通过检查ground-truth触发词的显著性值,我们可以判断一个事件在多大程度上依赖触发词或上下文:例如,较高的值表明触发词对事件的贡献更大,这意味着事件更依赖触发词。


25fb0d849ad0490c8ac5392b4ad56158.png


为了回答第二个问题,我们开发了一种新的基于触发词显著性归因的训练机制,将显著性作为证据来增强学习。我们的方法简单而直接——我们没有使用单一模型来检测所有事件类型,而是将具有相似模式的事件类型分组在一起(通过触发词显著性归因进行评估),并为每个组开发单独的模型。这种策略使不同的模型能够捕获不同的模式——例如,上下文依赖类型的模型可以专注于挖掘上下文信息进行学习。为了进一步促进学习,我们还提出了两种显著性探索策略来增强上述框架,可以明确地将显著性信息集成到学习中,并产生更好的表现,特别是对于上下文依赖类型(§6.2)。


为了验证我们方法的有效性,我们对两个ED基准(即ACE 2005 (LDC, 2005)和MAVEN (Wang et al, 2020))进行了广泛的实验。结果表明:(i)我们的触发词显著性归因方法可以捕捉到潜在的模式,并很好地解释了倾斜的表现,在ACE 2005和MAVEN上,每个类型F1的Spearman相关系数分别为0.72和0.61;(ii)我们基于显著性的新训练机制在两个基准上的结果有所改善。例如,在ACE 2005上,与联合训练不同事件类型的方法相比,它在F1中产生了2%的绝对增益。最后,在消融研究中,我们比较并强调了触发依赖和上下文依赖事件类型的许多重要特征(例如,语言和词汇模式);我们的工作可能会激发未来对它们模式的研究。


总之,我们的贡献有三个方面:


  • 我们分析了一个ED模型的倾斜性能的起源,并提出了一个称为触发词显著性归因的新概念,它可以评估事件的潜在模式。作为一项开创性的研究,我们的发现提出了一种可能性,即传统的“一种模型适合所有类型”范式可能需要改变。


  • 我们提出了一种新的基于触发词显著性归因的ED训练机制,在两个基准上取得了有前景的结果,特别是在处理上下文依赖的事件类型时。


  • 我们强调了触发词依赖和上下文依赖事件类型的几种不同模式,我们的发现可能会刺激未来对它们差异的研究。


2、背景和相关工作


事件检测:一般采样预训练语言模型微调的方式,可以融入句法信息、文档及线索、外部监督信号去加速学习。然而,大多数方法不区分事件类型,只训练一个模型来识别所有事件类型,导致在不同事件类型上的性能相当不均衡。两项重大工作(Lu et al, 2019; Liu et al, 2020b)观察到在上下文依赖文本上的表现相对较差,并提出了更好的上下文探索策略来改善训练。尽管如此,他们的位置是提高性能,而不是调查根本原因。另一方面,我们的方法以全新的视角看待问题,旨在定义学习事件的基本模式。

image.png


3、触发词显著性归因


image.png


类型水平的显著性估计:基于词级显著性,我们测量类型级触发显著性值(关于事件类型T )为:


image.png


4、显著性增强ED


基于触发词显著性归因,我们设计了一种新的ED训练范式,可以区分具有相似模式的事件类型进行学习,并取得了良好的效果。图3显示了概述,下面是技术细节。


d15794dbbb2445d3be353645edf54bc1.png

image.png


5、实验


数据集:ACE2005、MAVEN。


93af9f5665c74400982b4572cfb7d0ed.png


实验结果:


e4df1a11ff3d439f92ff22bf9c2fb126.png

d1c190bfff1e41689c0c360eb4290d82.png


bf0e28b911974bcf90792e4d1e21663c.png


72d9b7f67f5a4bba9d60e8f84fb7cc84.png

1f298ac899b94075adf797835e9b217e.png


845dfe54b826413ca1bfdf73a0dd37fe.png

32037f34dbd74c0ea21e9355235950a7.png


6、总结


在本研究中,我们分析了ED模型的倾斜性能的起源,并引入了一个称为触发词显著性归因的新概念来量化事件的模式。我们为ED设计了一种新的训练范式,可以区分学习的触发词依赖类型和上下文依赖类型,在两个基准上产生了有希望的结果。我们还广泛研究了这两种类型之间的差异,我们的工作可能会促进未来对这一问题的研究。在未来,我们将把我们的方法应用到上下文模式很重要的其他任务中(例如,关系抽取)。

目录
相关文章
|
设计模式 前端开发 Java
DTO和VO的区别及使用场景详解
DTO和VO的区别及使用场景详解
6764 1
|
自然语言处理 区块链 Python
传统的序列模型CRF与HMM区别
传统的序列模型CRF与HMM区别
|
安全 网络协议 物联网
AliOS Things开发前准备 |《AliOS Things快速开发指南》
在运行AliOS Things系统之前,您需要做好一系列准备工作,包括搭建环境、安装驱动设备、下载AliOS Things系统源码、安装开发工具AliOS Studio等。本文详细介绍如何完成这些准备工作。
AliOS Things开发前准备 |《AliOS Things快速开发指南》
|
存储 Linux Go
基于MinIO搭建高性能文件服务器
基于MinIO搭建高性能文件服务器
1429 0
基于MinIO搭建高性能文件服务器
|
网络协议 JavaScript 安全
第十一篇 前沿趋势与展望:深入探索GraphQL、RESTful API、WebSocket、SSE及QUIC与HTTP/3
第十一篇 前沿趋势与展望:深入探索GraphQL、RESTful API、WebSocket、SSE及QUIC与HTTP/3
303 1
|
Ubuntu 开发工具 git
ESP32-C3 VScode开发环境搭建(基于ESP-IDF—Windows和Ubuntu双环境)
对于ESP32-C3开发,自己对Arduino环境使用起来很是不习惯,既然乐鑫官方都出对应的环境,还是来试试官方环境
3181 0
ESP32-C3 VScode开发环境搭建(基于ESP-IDF—Windows和Ubuntu双环境)
|
Unix Shell Linux
阿里云命令行工具
阿里云命令行工具
156 3
|
存储 开发者 Python
Python从入门到精通:2.2.1异常处理与文件操作——学习try/except语句进行异常处理
Python从入门到精通:2.2.1异常处理与文件操作——学习try/except语句进行异常处理
305 3
|
缓存 安全 API
对象存储OSS产品常见问题之多租户系统用程序统计每个租户的下行流量如何解决
对象存储OSS是基于互联网的数据存储服务模式,让用户可以安全、可靠地存储大量非结构化数据,如图片、音频、视频、文档等任意类型文件,并通过简单的基于HTTP/HTTPS协议的RESTful API接口进行访问和管理。本帖梳理了用户在实际使用中可能遇到的各种常见问题,涵盖了基础操作、性能优化、安全设置、费用管理、数据备份与恢复、跨区域同步、API接口调用等多个方面。
627 0
|
网络虚拟化 网络架构 内存技术
vlan的作用及配置命令
vlan的作用及配置命令