Document-Level Event Argument Extraction via Optimal Transport
论文:https://aclanthology.org/2022.findings-acl.130/
代码:-
期刊/会议:ACL 2022
摘要
事件论元抽取(EAE)是事件抽取的子任务之一,旨在识别每个实体在特定事件触发词中的作用。尽管先前的工作在句子级EAE方面取得了成功,但对文档级的探索较少。特别是,尽管句子的句法结构已被证明对句子级EAE有效,但先前的文档级EAE模型完全忽略了文档的句法结构。因此,在这项工作中,我们研究了句法结构在文档级EAE中的重要性。具体来说,我们建议使用最优传输(Optimal Transport,OT)来诱导基于句子级句法结构的文档结构,并针对EAE任务进行定制。此外,我们提出了一种新的正则化技术,以明确约束无关上下文词在EAE最终预测中的贡献。我们在基准文档级EAE数据集RAMS上进行了广泛的实验,从而获得了最先进的性能。此外,我们在ACE 2005数据集上的实验通过建立新的最先进的结果,揭示了所提出的模型在句子级EAE中的有效性。
1、简介
需要更好的方法来修剪文档中基于依赖关系的结构,以更好地保留重要单词并排除有噪声的单词。与之前的工作不同,以前的工作采用简单的基于语法的规则,即到依赖路径的距离(Zhang et al,2018),我们认为修剪操作也应该意识到单词的语义。换句话说,应该考虑两个标准,即句法和语义相关性。具体地说,如果一个词与依赖结构中的事件触发词/论元词有很小的距离(即,基于语法的重要性),并且它在语义上与依赖路径中的一个词相关(即,根据语义的重要度),则该词被保留在文档级EAE的文档结构中。注意,单词之间的语义相似性可以从模型诱导的单词表示中获得。这一想法的一个关键挑战是句法和语义距离的不同性质,这使确定单词对结构的重要性的信息组合变得复杂。此外,一个单词的保留决定也应结合EAE文档结构中其他单词的潜在贡献。因此,受依赖路径作为文档结构修剪的锚的启发,我们建议将单词的句法和语义距离的联合考虑问题转化为在非DP和在DP单词之间找到最佳对齐。最优对齐将通过最优传输(OT)方法来解决,其中在联合优化问题中同时建模单词与依赖路径上单词的句法和语义距离。OT是一种已建立的机制,用于根据两组点(即,在我们的情况下,在DP词外和DP词上)的成对运输成本和在这些点上累积的配送质量,有效地找到两组点之间的最佳运输计划(即,对齐)。我们建议在我们的文档级EAE问题中,利用单词的语义相似性来获得它们的运输成本,同时利用到事件触发词/论元的句法距离来计算OT的单词质量分布。最后,为了修剪文档结构,如果通过OT解决方案将一个非DP字与一个在DP字对齐,则该非DP字被认为对文档结构很重要(因此被保留)。修剪后的文档结构将被用来学习输入文档的表示向量,以使用图卷积网络(GCN)执行论元角色预测(Kipf and Welling,2017)。
尽管基于OT的修剪方法可以帮助排除文档结构中EAE的不相关单词,但由于输入编码器中的上下文化(例如,BERT),它们的噪声信息可能仍然被编码在相关单词的表示中。因此,为了改进表示学习,我们提出通过一种基于修剪后的文档结构的新正则化技术来明确约束不相关单词对表示学习的影响。特别是,我们试图将不相关的单词添加回修剪后的结构(从而恢复原始树),并确保由于这种添加而导致的表示向量的变化最小化。因此,除了修剪后的结构外,我们在原始依赖结构上应用GCN模型,以获得单词的另一组表示向量。最后,在最终损失函数中,我们引入了从修剪后的结构和原始结构获得的表示向量之间的差异,以实现对无关单词的贡献约束。在我们的实验中,我们在句子级和文档级EAE基准数据集上评估了我们的模型,通过在这两种情况下建立新的最先进的结果来证明所提出的模型的有效性。
2、模型
问题定义:EAE的目标是识别实体提及对特定事件触发词的作用。这个任务可以定义为多分类问题。正式的来讲,给出一个文档D = [ w 1 , w 2 , … , w n ] ,触发词w t 和候选论元w a ,这个目标是预测标签L = [ l 1 , l 2 , … , l m ] 中的一个标签作为候选论元w a 在触发词w t引发的作用。标签集L 中包含了一个特殊标签None,来表示论元w a和触发词w t 之间没有关系。
模型总览:所提出的模型由四个主要组件组成:1)输入编码器,用于使用高维向量表示文档中的单词;2) 依赖项修剪,使用最优传输(OT)来修剪依赖树中的不相关单词;3) 正则化,明确地最大限度地减少不相关单词对表征学习的贡献;以及4)预测,以使用针对文档的单词诱导的表示来进行最终预测。
2.1 输入编码器
使用高维的向量x i 来表示每一个单词w i ∈ D 。向量xi由以下向量串联而成:A)上下文化单词嵌入:我们输入文本[ C L S ] w 1 , w 2 , … , w n [SEP]送入BERTbase模型(Devlin et al,2019);我们使用w i在最后一层中的隐藏状态作为上下文化的单词嵌入。注意,对于由多个分词组成的单词,我们取其分词表示的平均值;和B)距离嵌入:我们使用从距离嵌入表(随机初始化)获得的高维向量来表示单词w i到触发词和论元词(即,∣ i − t ∣和∣ i − a ∣)的相对距离。在训练期间更新距离嵌入表。此外,在我们的实验中,我们发现固定BERT参数更有帮助。因此,为了将向量x i 定制为EAE任务,我们将向量X = [ x 1 , x 2 , … , x n ] 馈送到双向长短期记忆网络(BiLSTM)。从BiLSTM获得的隐藏状态,H = [ h 1 , h 2 , … , h n ] ,将被后续组件使用。
2.2 依赖项剪枝
为了使用输入文档D 的句法结构,我们利用了文档中句子的依赖树。在这里,我们使用斯坦福CoreNLP解析器生成的依赖树的无向版本。为了连接句子的依赖树以形成D 的单个依赖图,类似于(Gupta et al,2019),我们为D 中的每对连续句子在依赖树的根之间添加一条边。因此,生成的D 的句法树,称为T ,将包含所有单词w i ∈ 。D 的完整树T 可能包含用于w a 相对于事件触发词w t 的论元角色预测的相关和不相关单词。因此,有必要修剪该树以仅保留相关单词,从而防止不相关单词为表示学习引入的潜在噪声。受先前工作中句子级EAE依赖路径有效性的启发(Li et al,2013),我们使用T TT中事件触发词w t 和论元候选w a 之间的依赖路径(DP)作为锚来剪枝不相关的单词。特别是,除了DP中的单词(可能会错过一些重要的上下文单词进行预测)之外,我们试图只重新训练T 中在句法和语义上与DP中的词接近的非DP单词(即,将DP单词和非DP单词对齐)。我们建议使用最优传输(OT)来联合考虑该单词对齐的语法和语义。在下文中,我们首先正式描述OT。然后,我们将提供如何利用OT来实现我们的想法的详细信息。
2.3 正则化
2.4 预测
3、实验
实验结果:
消融实验:
4、总结
在这项工作中,我们提出了一个新的文档级EAE的文档结构感知模型。我们的模型采用了句子的依赖树,并提出了一种基于最优传输的新技术来修剪EAE任务中文档的依赖树。此外,我们引入了一种新的正则化方法来明确约束无关词对表示学习的贡献。我们的大量实验证明了所提出的模型的有效性。未来,我们计划将我们的模型应用于其他IE任务。