【论文精读】COLING 2022 - CLIO: Role-interactive Multi-event Head Attention Network for DEE

简介: 将网络上的大量非结构化文本转换为结构化事件知识是NLP的一个关键但尚未解决的目标,特别是在处理文档级文本时。

【论文原文】:CLIO: Role-interactive Multi-event Head Attention Network for Document-level Event Extraction


【作者信息】:Ren, Yubing and Cao, Yanan and Fang, Fang and Guo, Ping and Lin, Zheng and Ma, Wei and Liu, Yi


论文:https://aclanthology.org/2022.coling-1.221.pdf
代码:-


博主关键词:事件抽取,对比学习,特征融合


推荐论文:无


2dfc83da3b3a49aba17d60024c0d9ae3.png


摘要


将网络上的大量非结构化文本转换为结构化事件知识是NLP的一个关键但尚未解决的目标,特别是在处理文档级文本时。现有的方法在文档级事件抽取(DEE)中仍十分困难,因为它有两个内在的挑战:(a)嵌套论元,这意味着一个论元是另一个论元的子字符串。(b)多个事件,这表明我们应该确定多个事件并为它们集合论元。在本文中,我们提出了一个角色交互的多事件头注意力网络(CLIO)来共同解决这两个挑战。关键思想是将不同的事件映射到多个子空间(即多事件头)。在每个事件子空间中,我们将每个角色的语义表示为更接近其对应的论元,然后确定当前事件是否存在。为了进一步优化事件表示,我们提出了一种事件表示增强策略,将预训练的嵌入空间正则化,使其更加各向同性。我们在两个广泛使用的DEE数据集上的实验表明,CLIO比以前的方法取得了一致的改进。


1、简介


文档级事件抽取(DEE)与SEE相比,文本长度的增加带来了更多的挑战,DEE仍然表现不佳。


最近,研究人员对DEE投入越来越多的经历。他们的工作可以大致分为基于分类的模型(Zhang et al, 2020; Xu et al, 2021; Huang and Jia, 2021; Huang and Peng, 2021),基于标记的模型(Yang et al, 2018; Du and Cardie, 2020),以及基于生成的模型(Li et al, 2021; Y ang et al, 2021; Du et al, 2021)。最先进的方法(Liu et al, 2021)将DEE框架为机器阅读理解任务,由两种数据增强机制辅助。尽管学者们在DEE方面做了很多有价值的尝试,但目前的方法在DEE方面仍然面临着以下关键的挑战:


嵌套论元:在文档中,有许多嵌套论元(即一个论元是另一个论元的子字符串),它们属于不同的角色。图1给出了一个例子。在Transportation事件中,truck(扮演着Origin角色),Ryder truck(扮演着Vehicle角色),是一个嵌套事件论元。根据我们的统计,在WikiEvents (Li et al, 2021)和RAMS (Ebner et al, 2020)数据集中,分别有14.23%和13.94%的文档有嵌套论元。不幸的是,传统的基于标记的方法不能完全识别这些嵌套论元,这些方法不能为一个token分配多个标签。


b46dfcf63ca04b00942c7a411301a427.png


多个事件:如图1所示,单个文档中有三种事件:Transportation、ExchangeBuySell和Meet,DEE不仅应该标识所有事件,还应该为相应的事件分配论元。多个事件的问题在DEE中很常见(WikiEvents中86.88%的文档涉及多个事件)。更重要的是,这些事件的论元均匀地分散在句子中,很难实现准确的论点组合。以往的作品通常采用固定的文档表示来检测所有事件类型。但是,不同的事件类型有不同的角色和论元,文档表示的重点也应该不同。


对于通常属于不同角色的嵌套论元,直觉上我们应该为每个角色独立抽取论元。假设一个事件中有N个角色,我们可以通过标记每个角色下的论元来执行N 个独立的抽取。这样可以同时识别角色Origin的论元子串truck和角色Vehicle的论元Ryder truck。要解决多个事件的挑战,一种直观的方法是独立检测每个事件类型并为其组装论元。对于一种事件类型,由于角色的减少,论元抽取可以更简单。相反,使用特定于此事件类型的角色信息可以更好地检测当前事件类型。我们认为,这两个挑战可以通过将每个事件类型映射到特定的子空间来共同解决。


类似于多头注意力(Vaswani et al, 2017),我们为DEE提出了一个角色交互的多事件头注意力网络(CLIO)。CLIO中最关键的部分是角色交互的多事件头注意力模块,它可以共同解决上述两个挑战。首先,我们的注意力模块以角色为中心的方式工作。也就是说,对于每个角色,我们立地抽取其所有对应的论元。这样可以为一个token分配多个角色标签,很好地解决了论元嵌套的问题。其次,我们的注意力模块通过将每个事件类型映射到每个事件头来为每个事件类型分配子空间。通过这种方式,我们可以独立地检测每个事件类型并为其组装论元,这可以解决多个事件的挑战。在每个事件头中,我们使用特定于此事件的角色信息来表示文档。这种特定于事件的文档表示减轻了从单个文档检测多个事件的困难。


综上所述,我们的贡献如下:


  • 我们提出了一个角色交互的多事件头注意力网络,以同时处理嵌套论元和多个事件的挑战。


  • 我们在两个广泛使用的DEE数据集上进行实验。实验结果表明,CLIO算法优于以往的方法,在面对DEE的关键挑战时有明显的改善。


2、方法


image.png


图2说明了CLIO的体系结构,它由三个关键组件组成:(1)角色交互多事件头部注意,(2)多事件抽取,(3)事件表示增强。角色交互多事件头部注意模块可以同时解决嵌套论元和多个事件的挑战。


0ea6854fe7e2430894584f351c4be6a5.png


2.1 编码


首先,我们通过连接文档D 和角色集R来构造一个扩展序列S = [CLS]  D  [SEP]  R  [SEP]。接下来,我们使用隐藏大小为D 的BERT (Devlin et al, 2019)来编码序列S 中每个单词的上下文嵌入:


image.png


基于规范的显著性评分:直观地说,并不是文档中的每个单词都是重要的。因此,我们在词嵌入的l2范数的基础上,引入了基于范数的显著性评分来衡量词表达本质意义的能力。l2范数的这一特征已经被一些有前途的工作所证明(Luhn, 1958; Chen et al, 2020; Liu et al, 2020)。


我们使用词嵌入的l2范数作为它们的权重:


image.png


2.2 角色交互的多事件头注意力


在这一步中,目标是同时解决嵌套论元和多个事件的挑战。我们比较了每种事件类型下的角色嵌入和词嵌入,并选择具有较高语义重叠的角色词对作为论元抽取结果。我们首先考虑单个事件类型,然后将其扩展到所有事件类型。


角色交互事件注意力:在每种事件类型中,我们测量每个角色-词对之间的关联程度。我们首先将单词和角色的原始d维特征通过两个完全连接的层投射到更小的d 维中:


image.png


38a4b93fb92742038d637a852d6e5ae9.png


对于DEE数据集,每个事件类型t i 都有一个预定义的角色集R t i 。我们将其形式化为事件模式掩码M (参见图3):


image.png


2.3 多事件抽取


image.png

Y event ∈R l×2是事件类型的ground truth。


2.4 事件表征增强


我们发现上述阶段的语言建模产生了各向异性的词嵌入。因此,我们应用事件内对比学习,通过正则化预训练的嵌入空间,使其更具各向同性来增强事件表示。在DEE中,我们需要让每个角色更接近它的论元(正例),同时让每个角色远离其他单词(负例)。给定一个角色,有多个论元,也就是说,有不止一个正例。

image.png


2.5 联合训练


总体损失函数分为三个部分:事件论元抽取损失L E A E 、事件类型检测损失L E D 和对比损失L C L 。我们让这三个目标以相同的速度共同学习,并一起更新模型参数。我们有以下训练损失:


image.png


3、实验


数据集:WikiEvents、RAMS。


评估指标:precision、recall、F1.


baseline:BERT-CRF、SpanSel、Head-Expand、BERT-Gen、DocMRC。


主要结果:

5917b60209614200a998371c436e68ed.png

3df36649a379498c9508768b6c60a711.png


结论:1、CLIO能够准确地抽取嵌套论元。2、CLIO能处理复杂多事件场景。


4、总结


本文提出了一种面向DEE的角色交互多事件头注意力网络(CLIO)。通过将不同的事件映射到多个子空间,我们将DEE分解为多个子步骤,以处理嵌套的论元和多个事件。为了进一步优化事件表示,我们应用事件表示增强策略来正则化预训练的嵌入空间,使其更加各向同性。实验结果表明,CLIO算法的性能明显优于以往的方法,特别是在面对DEE的特定挑战时。在未来的工作中,我们希望探索特定于事件的高级词汇表示。


【论文速递 | 精选】


fcc8fa9f87404652beb9e08a0ac9652d.png


论坛地址:https://bbs.csdn.net/forums/paper


最近工作

目录
打赏
0
0
0
0
3
分享
相关文章
【博士每天一篇论文-算法】Collective Behavior of a Small-World Recurrent Neural System With Scale-Free Distrib
本文介绍了一种新型的尺度无标度高聚类回声状态网络(SHESN)模型,该模型通过模拟生物神经系统的特性,如小世界现象和无标度分布,显著提高了逼近复杂非线性动力学系统的能力,并在Mackey-Glass动态系统和激光时间序列预测等问题上展示了其优越的性能。
57 1
【博士每天一篇论文-算法】Collective Behavior of a Small-World Recurrent Neural System With Scale-Free Distrib
【文献学习】Channel Estimation Method Based on Transformer in High Dynamic Environment
一种基于CNN和Transformer的信道估计方法,用于在高度动态环境中跟踪信道变化特征,并通过实验结果展示了其相比传统方法的性能提升。
108 0
【提示学习】Prompt Tuning for Multi-Label Text Classification: How to Link Exercises to Knowledge Concept
文章这里使用的是BCEWithLogitsLoss,它适用于多标签分类。即:把[MASK]位置预测到的词表的值进行sigmoid,取指定阈值以上的标签,然后算损失。
145 0
PTPCG: Efficient Document-level Event Extraction via Pseudo-Trigger-aware Pruned Complete Graph论文解读
据我们所知,我们目前的方法是第一项研究在DEE中使用某些论元作为伪触发词的效果的工作,我们设计了一个指标来帮助自动选择一组伪触发词。此外,这种度量也可用于度量DEE中带标注触发词的质量。
160 1
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
当在整个文档中描述事件时,文档级事件抽取(DEE)是必不可少的。我们认为,句子级抽取器不适合DEE任务,其中事件论元总是分散在句子中
189 0
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
MUSIED: A Benchmark for Event Detection from Multi-Source Heterogeneous Informal Texts 论文解读
事件检测(ED)从非结构化文本中识别和分类事件触发词,作为信息抽取的基本任务。尽管在过去几年中取得了显著进展
106 0
UnifiedEAE: A Multi-Format Transfer Learning Model for Event Argument Extraction via Variational论文解读
事件论元抽取(Event argument extraction, EAE)旨在从文本中抽取具有特定角色的论元,在自然语言处理中已被广泛研究。
127 0
SS-AGA:Multilingual Knowledge Graph Completion with Self-Supervised Adaptive Graph Alignment 论文解读
预测知识图(KG)中缺失的事实是至关重要的,因为现代知识图远未补全。由于劳动密集型的人类标签,当处理以各种语言表示的知识时,这种现象会恶化。
136 0
【论文速递】ACL 2022 - Prompt for Extraction? PAIE: Prompting Argument Interaction for Event Argument Extr
在本文中,我们提出了一个既有效又高效的模型PAIE,用于句子级和文档级的事件论元抽取(EAE),即使在缺乏训练数据的情况下也能很好地泛化。一方面,PAIE利用抽取目标的提示调优,以充分利用预训练语言模型(PLMs)的优势。
143 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等