TSAR: A Two-Stream AMR-enhanced Model for Document-level Event Argument Extraction论文解读

简介: 以往的研究大多致力于从单个句子中抽取事件,而文档级别的事件抽取仍未得到充分的研究。在本文中,我们专注于从整个文档中抽取事件论元

A Two-StreamAMR-enhanced Model for Document-level Event Argument Extraction


代码:RunxinXu/TSAR: Source code for “A Two-Stream AMR-enhanced Model for Document-level Event Argument Extraction” @ NAACL 2022 (github.com)


论文:[2205.00241] A Two-Stream AMR-enhanced Model for Document-level Event Argument Extraction (arxiv.org)


期刊/会议:NAACL 2022


摘要


以往的研究大多致力于从单个句子中抽取事件,而文档级别的事件抽取仍未得到充分的研究。在本文中,我们专注于从整个文档中抽取事件论元,主要面临两个关键问题:1)触发词与语句论元之间的长距离依赖关系;B)文件中一个事件的分散在上下文中。为了解决这些问题,我们提出了一个Two-Stream Abstract meaning Representation enhance extraction model(TSAR)。TSAR通过双流编码模块(two-stream encoding module)从不同角度对文档进行编码,以利用本地和全局信息,并降低分散在上下文的影响。此外,TSAR还引入了基于局部和全局构建的AMR语义图的AMR引导交互模块(AMR-guided interaction module),以捕获句内和句间特征。引入一种辅助边界损失来显式增强文本跨度的边界信息。大量实验表明,TSAR在公共RAMS和WikiEvents数据集上的性能分别提高了2.54 F1和5.13 F1,在跨句论元抽取方面表现出了优势。


1、简介


事件论元抽取(Event Argument Extraction, EAE)旨在识别作为事件论元的实体,并预测它们在事件中扮演的角色,这是事件抽取(Event Extraction, EE)的关键步骤。它有助于将非结构化文本转换为结构化事件知识,可以进一步用于推荐系统、对话系统等。大多数先前的研究假设事件仅仅出现在单个句子中,因此聚焦在句子级别的研究上。然而,在现实场景中,事件通常是通过由多句话组成的整个文档来描述的(例如,一篇新闻文章或一份财务报告),这仍然有待研究。


d4cf7f63e05942a59a11c59cc18b8783.png


图1演示了文档级EAE的一个示例,其中Transport事件由shipment触发。与句子级的EAE不同,从整个文档中抽取论点面临两个关键挑战。(1)触发词与论元之间的远距离依赖(long-distance dependency)。这些论元通常位于与触发词不同的句子中,而且它们的距离可能相当远。在图1中,虽然触发词shipment在第2句中,但vehicle(车辆)、origin(原产地)、artifact(工件)和importer(进口商)等论元位于第1句或第3句中,这极大地增加了抽取的难度。为了适应长范围抽取,不仅要对句内语义进行建模,而且要对句间语义进行建模。(2)语境分散(distracting context)。虽然一份文档自然包含了比一句话更多的上下文,但有些内容会让人分心。上下文可以误导论元抽取。如图1所示,不需要第4句,就可以更容易地确定origin论元 U.S. ,第4句没有提供事件的有用信息,但包含了许多可能分散注意力的place(位置)实体,如Saudi Arabia(沙特阿拉伯)、Russia(俄罗斯)或Iran(伊朗)。在剔除那些分散注意力的信息的同时,找出有用的上下文仍然具有挑战性。


最近,Du和Cardie使用了一种基于标记的方法,该方法无法处理嵌套论元。相反,基于跨度的方法预测候选跨度的论元角色。一些研究直接生成基于序列到序列模型的论元。然而,如何在触发词和论元之间建模长距离依赖关系,以及如何显式地处理分散注意力的上下文,在很大程度上仍有待探索。


在本文中,为了解决上述两个问题,我们提出了一个双流增强抽取模型(two - stream AMR-enenhanced extraction model, TSAR)。为了利用文档中的基本上下文,并避免被干扰所误导,我们引入了一个双流编码模块。它由一个全局编码器和一个局部编码器组成,前者使用尽可能多的上下文对全局语义进行编码,以收集足够的上下文信息;后者专注于最基本的信息,并谨慎地考虑额外的上下文。这样,TSAR可以利用不同编码视角的互补优势,从而更好地利用可行上下文来受益于抽取。此外,为了模拟远程依赖关系,我们引入了AMR引导的交互模块。抽象语义表示(AMR)图包含了不同概念之间丰富的层次语义关系,有利于复杂事件的抽取。从这种语言驱动的角度出发,我们将文档的线性结构转换为全局和局部的图结构,然后使用图神经网络来增强交互,特别是那些非局部元素。最后,由于TSAR在span级别抽取论元,其中span边界可能是模糊的,我们引入了一个辅助边界损失来增强具有校准边界的span表示。


总之,我们的贡献有三方面。1)提出了文档级EAE的双流编码模块,该模块通过两个不同的视角对文档进行编码,从而更好地利用上下文。2)引入了AMR引导的交互模块,以促进文档内部的语义交互,从而更好地捕获长距离依赖关系。3)我们的实验表明,TSAR在公共RAMS和WikiEvents数据集上分别提高了2.54 F1和5.13 F1,特别是在跨句事件论元抽取方面。


2、相关工作


2.1 句子级事件抽取


以往的研究主要集中在句子级别的事件抽取上。Li等人(2014)以及Judea和Strube(2016)使用手工特征从句子中抽取事件。Chen等人(2015)首先提出了神经管道模型来抽取事件,而Nguyen等人(2016)利用联合模型来减轻误差传播。为了更好地模拟单词之间的相互作用,Liu等人(2018);Yan等人(2019);Ma等人(2020)利用依赖树,Wadden等人(2019)列举了所有可能的跨度,并在跨度图中传播信息。也考虑了数据增强(Yang等人,2019)。此外,一些工作试图将事件抽取任务重新定义为其他任务。例如,Du和Cardie (2020b)和Zhou等人(2021)将事件抽取作为问题回答,Xiangyu等人(2021)将其建模为序列到序列的任务。然而,所有这些模型都只能从单个句子中抽取事件。因此,它们无法处理更常见的情况,其中事件论元通常分布在文档中的多个句子中。


2.2 文档级事件抽取


为了从一整篇多句文章中抽取事件,文档级事件抽取越来越受到人们的关注。Yang和Mitchell(2016)利用定义良好的特征来抽取句子中的论元,而最近的方法是基于神经网络的。一些研究首先识别文档中的实体,然后将这些实体分配为特定的论元角色(Yang等人,2018;Zheng等人,2019;Xu等人,2021)。不同的是,一些研究试图同时联合抽取实体和论元角色,这可以进一步分为基于标记的方法和基于span的方法。基于标记的方法直接对文档中的每个标记进行BIO范式的序列标记,而基于跨度的方法预测候选文本跨度的论元角色,这些候选文本跨度通常有最大长度限制。另一项研究将任务重新定义为序列到序列的任务(Du等人,2021a,b;Li等人, 2021),或机器阅读理解任务(Wei et al, 2021)。


作为一种基于span的方法,TSAR不同于以前的方法,它只是简单地将其编码为一个长句子。相反,TSAR引入了双流编码模块和AMR引导的交互模块来建模句内和句间语义,以及辅助边界损失来增强跨界边界信息。


3、任务描述


image.png


4、方法


图2显示了我们的模型TSAR的整体架构。文档被送入双流编码模块,然后由AMR引导的交互模块导出全局和局部上下文化表示。信息融合模块融合这两个流表示,分类模块最终预测候选跨度的论元角色。


c3bf923e1d154acf91bd60dc981fa288.png


4.1 双流编码器模块


虽然文档提供了更多的上下文,但它也不可避免地介绍了与事件无关的和分散注意力的信息。这些噪声信号可能对论元抽取有害,如图1所示。为了捕捉有用的信息和过滤干扰信息,我们提出了一个双流编码器模块,由一个全局编码器和一个局部编码器组成,全局编码器了解所有上下文,局部编码器只谨慎地关注最基本的信息。因此,我们可以利用它们的互补优势,更好地利用上下文信息。


具体来说,全局编码器和局部编码器共享相同的基于transformer的预训练语言模型,例如BERT。通过在self-attention模块中控制单词的感受野,我们可以从不同的角度对文档进行编码。在全局编码器中,注意力技术与传统的Transformer相同:


image.png


其中Q、K、V分别为query、key、value矩阵,d m 为模型维数。然而,在局部编码器中,我们引入了掩码矩阵M MM,这样标记只能关注句子本身和触发词所在的句子,以避免冗余的分散注意力的信息:


image.png


SEN(w j )是单词w i 所属的句子,t是事件的触发词。


因此,我们用两个不同的流对文档进行编码,一个是全局编码器E n c o d e r G ,一个是局部编码器E n c o d e r L ,最后得到两个表示,Z G和Z L :


image.png


4.2 AMR引导交互模块


从文档中抽取论元的一个关键挑战是捕捉句内和句间特征。因此,我们提出了一种AMR引导的交互模块,该模块采用抽象语义表示图,提供丰富的语义结构,便于概念之间的交互,同时从语言驱动的角度提供文档的逻辑意义,有利于语言理解。


AMR语义图将句子的意义表示建模为一个有根的、有向的、有标签的图。具体来说,AMR解析器将一个自然的句子可以被解析成一个AMR图G=(V,E)。该节点V=(a,b)∈V代表一个概念,对应于跨度从w a 到w b 在原点的句子,而边缘代表一个特定的AMR关系(细节在附录a)。因此,AMR侧重于语义关系而不是语法的,哪个更高层和有利于事件了解和结构更接近事件trigger-arguments结构。例如,图3演示了如何将句子解析为AMR语义图。由于事件论元在文本中扮演着重要的角色,它们中的大多数(如果不是全部)将涉及到AMR图(RAMS和WikiEvents数据集中90%和88%的论元)。我们使用最先进的AMR解析器(Fernandez Astudillo等人)(2020),为下游应用程序实现了令人满意的结果(在AMR2.0数据上高达81.3 Smatch)。由于AMR关系类型的数量很大,导致所需参数过多,我们也遵循Zhang和Ji(2021)将关系类型聚类为主要类别。更多的细节可以在附录A中找到。


4d02e21ee32b414d80e5e59485c3c5a9.png


AMR引导的交互模块附加在全局和局部编码器之后,如图2所示。在组合、交互和分解范式下,我们使用AMR图作为信息交互的骨架。


从局部角度,我们为文档中的每个句子构建AMR图,并且它们彼此隔离。初始化时,节点u = ( a u , b u ) 的向量表示由其对应文本跨度的局部表示的平均值组成(composed):


image.png


与Zeng等人(2020)类似,我们随后使用L LL层堆叠图卷积网络通过具有不同关系类型的边来建模不同概念节点之间的交互(interactions)作用。给定第l层节点u,定义信息交互聚合操作如下:


image.png


4.3 信息融合模块


image.png


最后,边界损失定义为以下检测起始和结束位置的交叉熵损失。


image.png


4.4 分类模块


image.png


其中y i : j 是正确的论元角色,P ( r i : j ) 是基于I i : j通过前向网络导出的。


最后,我们以端到端的方式训练模型,最终的损失函数为L = L c + λ L b ,λ 为超参数。


5、实验


5.1 数据集


我们在两个公共文档级事件论元抽取数据集上评估我们的模型,RAMS v1.0 (Ebner et al, 2020)和WikiEvents (Li et al, 2021)。RAMS包含9,124个人工标注的示例,有139种事件类型和65种论元角色,以及超过21k个论元。WikiEvents是另一个人工标注的数据集,具有50种事件类型和59个事件论元角色,以及超过3.9k个事件。我们遵循RAMS和WikiEvents数据集的官方训练/开发/测试分割,并使用Ebner等人(2020)提供的评估脚本来评估性能。RAMS和WikiEvents数据集的详细数据统计如表1所示。


76fce47711e442aea760f39f98e7b448.png


5.2 实验设置和评估指标


在我们的实现中,我们使用B E R T b a s e (Devlin et al, 2019)和R o B E R T a l a r g e (Liu et al, 2019)作为TSAR的骨干网络编码器,全局和局部编码器共享参数。详细的超参数见附录B。


继Zhang等人(2020b)之后,我们报告了RAMS数据集的Span F1和Head F1。Span F1要求预测的论元跨度完全匹配正确的,而Head F1放松了约束,只评估论元跨度的头词。一个span的头词定义为在依赖树中到根的弧距离最小的词。此外,继Li等人(2021)之后,我们报告了WikiEvents数据集的Head F1和Coref F1分数。如果抽取的论元与Ji和Grishman(2008)使用的正确论元是相关的,则该模型在Coref F1中被给予完整的分数。


5.3 主要的结果


Baseline:1) BERT-CRF (Shi and Lin, 2019)是一种基于标记的方法,采用了一种基于BERT的BIO-style序列标记模型。2) Two-Step (Zhang et al, 2020b)是一种基于span的方法,它首先识别可能的参数span的头词,然后扩展到全span。B E R T − C R F T C D 和T w o − S t e p T C D 是指采用类型约束解码机制(Ebner et al, 2020)。3) FEAE (Wei et al, 2021),框架感知事件论元抽取,是一项基于问答的并行工作。4) BERT-QA (Du and Cardie, 2020c)也是一种基于问答的模型。BERT-QA和BERT-QA- doc抽取分别在句子级和文档级上运行。5) BART-Gen (Li et al, 2021)将任务制定为sequence-to-sequence的任务,并使用B A R T l a r g e  (Lewis et al, 2020)以预定义的格式生成相应的论元。


ad0b1c06d3994fa38d43563092ef51ef.png


表2说明了RAMS数据集上的开发集和测试集的结果。由图可知,在基于B E R T b a s e 的模型中,TSAR的性能优于以往的其他方法。例如,在开发集中,与之前的方法相比,TSAR产生了4.93 ~ 7.13 Span F1和3.70 ~ 6.00 Head F1的改进,在测试集中达到8.76 Span F1。此外,在基于大型预训练语言模型的模型中,TSAR优于BART-Gen 2.54 Span F1和1.21 Head F1。这些结果表明,以双流方式编码文档,并引入AMR图来促进交互,有利于捕获句内和句间特征,从而提高性能。

此外,我们跟随Li等人(2021)评估了论元识别和论元分类,并报告了Head F1和Coref F1。识别需要模型正确检测论元跨度边界,而分类则需要进一步正确预测其论元作用。如表3所示,在这两项任务中,TSAR的表现始终优于其他人。与BART-Gen相比,TSAR在论元识别方面提高了4.87/3.23 Head/Coref F1,在论元分类方面提高了5.13/3.68 Head/Coref F1。在基于B E R T b a s e  的模型中也出现了类似的结果,Head F1在鉴别和分类上分别提高了5.69 ~ 36.37和11.95 ~ 33.34。这些结果表明,TSAR不仅在论元跨度边界的检测上,而且在预测它们的作用方面优于其他方法。


44a1ba004f5b453d99882aa075e9df95.png


6、分析


6.1 跨句子论元抽取


由于文档中有多个句子,一些事件论元位于远离触发词的位置,这大大增加了抽取的难度。为了探索处理TSAR这种跨句论元的效果,我们根据论元与触发词之间的句子距离将RAMS数据集中的事件论元分为5个bins,即d = { − 2 , − 1 , 0 , 1 , 2 }。我们为不同的方法在RAMS开发集中报告Span F1。如表4所示,跨句论元(d ≠ 0 )的Span F1远低于局部论证(d = 0 ),这表明捕获触发词和跨句论元之间的长距离依赖关系是一个巨大的挑战。然而,TSAR仍然超过了其他强大的基线。具体而言,T S A R b a s e 和T S A R l a r g e 与之前的技术相比分别提高了0.4和0.7 F1。更重要的是,在抽取跨句论元时,T S A R b a s e 和T S A R l a r g e平均提高了2.3和2.7。结果支持了我们的观点,即TSAR在捕捉句内和句间特征方面都很出色,特别是在触发词和论元之间的距离方面。


1afbb6c6af4c42ed8a8d3b6464ccbe1f.png


6.2 消融实验


我们进行了一项消融实验,以探索不同模块在TSAR中的有效性。表5显示了T S A R l a r g e在RAMS数据集上的结果。我们还提供了T S A R b a s e 的结果,以及附录C中WikiEvents数据集上的结果。


9ca319e6cb3c42fe8db07a7b3bfc958c.png


首先,我们删除了双流编码模块中的全局或局部编码器。如表5所示,在没有全局编码器和局部编码器的测试集上,删除会导致性能下降,例如,Head F1下降3.04和1.71。这表明全局编码器和局部编码器是相互补充的,它们都是TSAR所必需的。


其次,一旦我们移除AMR引导的交互模块,测试集上的Head F1将下降1.83。结果表明,AMR图提供的语义结构有助于文档论元的抽取。


最后,边界损失的去除导致边界信息在span表示中丢失,这也导致开发集和测试集的Head F1分别下降1.62和0.78。


6.3 案例研究


在本节中,我们将展示不同方法中抽取结果的一个具体案例。如图5所示,stabbings 触发一个 Attack 事件,带有三个论元。由于 Nine people 位于触发词(stabbings)附近,所有的方法都正确地预测到它是目标。然而,抽取 Minnesota 和 Dahir Adan 要求捕获远距离依赖。尽管Two-Step和BART-Gen错误地预测了 place 是 Iraq 和 Syria ,Two-Step甚至没有抽取出 Attacker,但TSAR成功地抽取出了跨句论点。这可以归因于我们的AMR增强模块捕获 Minnesota 是 attack 的 place,在语义上与触发词stabbings高度相关。


0dc6c475c16b4eff86708c2b28f4d6b1.png


6.4 错误分析


为了进一步探究不同模型所产生的误差并详细分析原因,我们从RAMS测试集中随机选择200个样本,并手动将预测结果与正确标注进行比较。我们将错误分为五类,如图4所示。错误跨度是指将特定角色分配给与正确跨度不重叠的错误跨度。我们发现,这通常是由于否定词,如不,和共指跨度的标注。过度抽取表示模型预测了一个论元角色,而该论元角色在文档中并不存在。一些抽取的跨度是正确跨度的子字符串(Partial),或者与它们有一些重叠(Overlap)。


791b02362d9f442987c998ad475377c0.png


这两种错误通常归因于数据集中的标注不一致,例如名词前面的形容词、量词和冠词(例如,a和the)是否应该属于正确论元。此外,在如图4所示的正确跨度中存在逗号等标点符号的情况下,也会出现Partial错误。最后,尽管模型成功地识别了正确跨度,但它仍然可以将错误的论元角色分配给跨度(错误角色)。我们比较了T w o − s t e p T C D和T S A R b a s e 的误差。我们观察到TSAR将错误数从275个减少到233个,尤其是错误角色和过度抽取,分别减少了27个和16个错误。


7、总结


从整个文档中抽取事件论元是具有挑战性的,因为触发词和论元之间的依赖关系很长,而且上下文会分散人的注意力。为了解决这些问题,我们提出了Two-Stream AMR-enhanced extraction model (TSAR)。TSAR使用双流编码器从不同角度对文档进行编码,然后使用AMR引导的交互模块促进文档级语义交互。引入辅助边界损失来增强跨域的边界信息。在RAMS和WikiEvents数据集上的实验表明,TSAR比以前最先进的方法有很大的优势,分别提高了2.51和5.13 F1,特别是在跨句论元抽取方面。

目录
相关文章
|
存储 机器学习/深度学习 人工智能
PTPCG: Efficient Document-level Event Extraction via Pseudo-Trigger-aware Pruned Complete Graph论文解读
据我们所知,我们目前的方法是第一项研究在DEE中使用某些论元作为伪触发词的效果的工作,我们设计了一个指标来帮助自动选择一组伪触发词。此外,这种度量也可用于度量DEE中带标注触发词的质量。
126 1
|
机器学习/深度学习 移动开发 自然语言处理
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
当在整个文档中描述事件时,文档级事件抽取(DEE)是必不可少的。我们认为,句子级抽取器不适合DEE任务,其中事件论元总是分散在句子中
132 0
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
|
机器学习/深度学习 自然语言处理 算法
ACL 2019 - AMR Parsing as Sequence-to-Graph Transduction
我们提出了一个基于注意力的模型,将AMR解析视为序列到图的转导。与大多数依赖于预训练的对齐器、外部语义资源或数据扩充的AMR解析器不同
153 0
ACL 2019 - AMR Parsing as Sequence-to-Graph Transduction
|
机器学习/深度学习 数据挖掘
ACL2023 - An AMR-based Link Prediction Approach for Document-level Event Argument Extraction
最近的工作引入了用于文档级事件论元提取(文档级EAE)的抽象语义表示(AMR),因为AMR提供了对复杂语义结构的有用解释,并有助于捕获长距离依赖关系
191 0
|
自然语言处理 Java 计算机视觉
ACL2023 - AMPERE: AMR-Aware Prefix for Generation-Based Event Argument Extraction Model
事件论元抽取(EAE)识别给定事件的事件论元及其特定角色。最近在基于生成的EAE模型方面取得的进展显示出了与基于分类的模型相比的良好性能和可推广性
181 0
|
机器学习/深度学习 自然语言处理 数据挖掘
UnifiedEAE: A Multi-Format Transfer Learning Model for Event Argument Extraction via Variational论文解读
事件论元抽取(Event argument extraction, EAE)旨在从文本中抽取具有特定角色的论元,在自然语言处理中已被广泛研究。
89 0
|
机器学习/深度学习 自然语言处理 测试技术
Query and Extract Refining Event Extraction as Type-oriented Binary Decoding 论文解读
事件抽取通常被建模为一个多分类问题,其中事件类型和论元角色被视为原子符号。这些方法通常仅限于一组预定义的类型。
70 0
|
自然语言处理 知识图谱
ACL2022 Document-Level Event Argument Extraction via Optimal Transport
事件论元抽取(EAE)是事件抽取的子任务之一,旨在识别每个实体在特定事件触发词中的作用。尽管先前的工作在句子级EAE方面取得了成功,但对文档级的探索较少。
113 0
|
存储 移动开发 自然语言处理
Document-Level event Extraction via human-like reading process 论文解读
文档级事件抽取(DEE)特别困难,因为它提出了两个挑战:论元分散和多事件。第一个挑战意味着一个事件记录的论元可能存在于文档中的不同句子中
94 0
|
机器学习/深度学习 自然语言处理 数据可视化
M2E2: Cross-media Structured Common Space for Multimedia Event Extraction 论文解读
我们介绍了一个新的任务,多媒体事件抽取(M2E2),旨在从多媒体文档中抽取事件及其参数。我们开发了第一个基准测试
108 0