A Multi-Format Transfer Learning Model for Event Argument Extraction via Variational Information Bottleneck
论文:https://arxiv.53yu.com/pdf/2208.13017.pdf
代码:未开源
期刊/会议: COLING 2022
摘要
事件论元抽取(Event argument extraction, EAE)旨在从文本中抽取具有特定角色的论元,在自然语言处理中已被广泛研究。以往的大多数工作都在特定的EAE数据集上取得了良好的性能。然而,这些架构通常很难适应具有各种标注模式或格式的新数据集/场景。此外,它们依赖于大规模的标记数据进行训练,这在大多数情况下由于标记成本高而无法实现。本文提出了一种具有变分信息瓶颈的多格式迁移学习模型,该模型利用现有数据集中的信息,特别是公共知识,在新的数据集中进行EAE。具体来说,我们引入了一个特定共享的提示框架,以从不同格式的数据集中学习格式共享和特定格式的知识。为了进一步利用EAE的常识,消除不相关的噪声,我们将变分信息瓶颈集成到体系结构中,对共享表示进行细化。我们在三个基准数据集上进行了广泛的实验,并在EAE上获得了新的最先进的性能。
1、简介
在本文中,我们回答的问题是“我们能否从现有的复杂事件抽取数据集中迁移到不同格式的知识?”有几个事件抽取数据集,如ACE 2005 (Doddington et al, 2004), RAMS (Ebner et al, 2020)和WikiEvents (Li et al, 2021)。这些数据集包含丰富的事件类型和语义角色,它们可能具有重叠知识,有助于提高新数据集或低资源抽取的性能。如图1所示,ACE2005和WikiEvents数据集都包含相同的“attack”事件类型,但名称不一致。此外,一些共享的论元角色(例如,“Target”、“Attacker”、“Place”和“Instrument”)在两个数据集中都有标记。所有这些信息表明,事件知识可以在两个数据集之间传递。
然而,不同事件论元之间的迁移抽取是一项具有挑战性的任务。(C1)一个挑战是由于事件记录的复杂结构,各种数据集的格式不一致。因此,很难找到一个统一的模型来抽取不同格式的论元。更具体地说,1)两个数据集可能有不同的事件类型,它可能有不同的论元结构;2)两个数据集中相同的事件类型或论元类型可能有不同的名称。例如,ACE2005和WikiEvents中的事件名称分别为“Conflict Attack”和“Conflict Attack Detonate explosion”(图1);3)同一事件类型的论元角色集在不同的数据集中可能不同。例如,事件“Attack”的论元角色“Victim”和“ExplosiveDevice”分别只出现在ACE2005和WikiEvents中(图1)。(C2)另一个挑战是不同数据集之间的标注可能存在差距,这给迁移学习带来了噪声。两个数据集可能有显著的语义差异,因为它们可能属于不同的领域。此外,标注指南在不同的数据集之间可能是矛盾的。我们的实验还表明,合并两个数据集可能会降低性能。
以往的工作主要将论元抽取视为一种序列标记,无法转化为新的事件论元类型(Yang et al, 2018)。然后,提出了一个基于机器阅读理解问题(MRC)的模型,使用自然问题抽取论点(Liu et al, 2020;Du and Cardie, 2020)。最近,提示学习(Schick and Schütze, 2020;Liu et al, 2021b)基准模型(Ma et al, 2022;Chen et al,2020)和基于生成的模型(Chen等人,2020;Du et al,2021;Li et al,2021)用于事件论元抽取。这些研究启发我们设计一个统一的模型,可以抽取不同格式的EAE论元。此外,一些研究研究了跨语言事件抽取(Subburathinam et al, 2019)和零样本事件抽取(Chen et al, 2020;Feng et al, 2020),在零样本设置下。换句话说,这些研究在源语言或领域上进行训练,并将其转移到目标领域,而目标领域没有训练数据。与它们不同的是,我们在不同格式的源数据集和目标数据集上训练我们的模型,其中格式共享知识是必不可少的。
为了应对上述挑战,我们提出了一种基于信息瓶颈的EAE多格式迁移学习模型UnifiedEAE,该模型可以利用所有异构格式的事件抽取数据集。首先,我们采用特定共享的提示(Shared-Specific Prompt, SSP)框架来捕获格式共享和特定格式的知识,以抽取不同格式的论元。然后,为了更好地捕获格式共享表示,我们将变分信息瓶颈(VIB)合并到格式共享模型(SharedVIB)中。VIB被广泛用于忘记不相关信息,保留重要信息用于预测(Li and Eisner, 2019;Tishby et al.,2000)。我们利用它来增强模型以学习格式共享知识。我们在三个公开可用的数据集上进行了一系列实验,并获得了新的最先进的性能。我们的UnifiedEAE也能有效地提高低资源EAE的性能。结果表明,该模型能够捕获格式共享知识,忽略不同数据集之间的噪声。
综上所述,本文的主要贡献总结如下。
- 我们设计了一个统一的架构,可以从不同格式的EE数据集中学习共享格式和特定格式的知识。
- 利用信息瓶颈技术增强模型,消除不相关信息,保留格式共享知识,学习不同数据集之间的格式共享知识。
- 在三个数据集上的大量实验表明了我们模型的巨大优势。此外,我们的模型在低资源事件论元抽取方面表现良好。
2、相关工作
2.1 事件论元抽取
事件抽取可以分为两个子任务,事件识别和事件论元抽取(EAE) (Zhang et al, 2020;Chen et al, 2015;Lin et al, 2022)。我们专注于EAE任务,其目的是基于给定的事件类型和触发词抽取论元(Wei et al, 2021;Ma et al, 2022)。Wei等人(2021)为每个论元角色添加了约束,以考虑相互作用。事件论元抽取采用数据增强(Liu et al, 2021a)。为了避免误差传播并学习子任务之间的关系,端到端模型联合执行两个子任务(Zhang et al, 2019;Wadden et al, 2019;Li et al, 2021)。一些研究将事件论证抽取看作是一个机器阅读理解问题(MRC),它抽取论元基于自然问题(Liu et al, 2020;Du and Cardie, 2020)。最近,提示学习(Schick and Schütze, 2020;Liu et al, 2021b)基准模型(Ma et al, 2022;Chen et al, 2020)和基于生成的模型(Chen et al, 2020;Du et al,2021;Li et al,2021)用于事件论元抽取。在本文中,我们的目标是将现有事件抽取数据集的知识迁移到目标数据集,由于这项任务的复杂性,因此没有得到很好的研究。
2.2 NLP中的知识迁移
为了降低对标记数据的要求,迁移学习在自然语言处理领域得到了高度重视(Liu et al, 2017; Ruder et al, 2019; Raffel et al, 2020; Zhou et al, 2020)。Liu等人(2017)提出了一种对抗性多任务学习框架来学习共享和私有表示。跨语言事件抽取旨在将知识从源语言转移到目标语言(Subburathinam et al, 2019)。零样本迁移学习也在语义角色标注(SRL) (Peng et al, 2016),事件抽取(Chen et al, 2020;Feng et al,2020)和抽象意义表示(AMR) (Huang et al,2018)。与它们不同的是,我们专注于具有各种复杂格式的事件论元抽取数据集之间的迁移学习,其中格式共享知识和格式特定知识都很重要。
2.3 信息瓶颈
最近,信息瓶颈(information bottleneck,IB)被应用于NLP任务,如词聚类(Pereira et al, 1994)、依赖解析(Mahabadi et al, 2021)、摘要(West et al, 2019)、可解释性(Zhou et al, 2021)。Li和Eisner(2019)使用IB通过去除与任务无关的信息来压缩单词的隐藏表示。Sun等人(2021)采用IB原理进行图结构学习。变分IB (VIB)被用作正则化技术,以改善低资源场景下预训练语言模型的微调(Mahabadi et al ., 2021)。本文尝试使用VIB约束模型学习格式共享信息,用于事件论元抽取。
3、方法
为了在不同格式的数据集之间传递知识,我们提出了一个用于事件论元抽取任务的UnifiedEAE模型(图2)。UnifiedEAE基于共享特定提示(SSP)体系结构,它从多种格式的不同数据集中学习格式共享知识和格式特定知识。然后,通过去除格式无关信息和保留格式不变知识,将变分信息瓶颈集成到格式共享模型(SharedVIB)中,增强模型以学习格式共享知识。
3.1 特定共享的提示
特定共享的提示(SSP)体系结构旨在为EAE学习格式共享知识和特定于格式的知识。该框架由三个事件论元抽取器组成:两个特定格式的抽取器和一个共享格式的抽取器,用于学习特定格式的知识和共享格式的知识。我们采用基于提示的模型作为预测多格式论元的基本抽取器。
基于基本提示的抽取器。根据Ma等人(2022)的研究,我们使用基于BART (Lewis et al., 2020)的提示模型作为事件论元抽取器。该模型由编码器和解码器组成。编码器用于学习事件感知语句表示。然后采用解码器模型,通过提示模板联合抽取所有论元跨度。
编码器:为了考虑事件的位置信息,我们在句子s中触发词t 前后分别插入特殊token “< t >”和“< /t >”,然后输入到BART中,得到事件感知的句子表示H ,
解码器:在解码器中,我们使用带槽的提示符同时抽取论元角色。我们使用Li等人(2021)的手动模板。例如,对于事件类型“Life.Marry”,提示为“Person married Person at Place (and Place)”。我们的目标是预测四个论元角色槽的论元跨度。我们将提示符p 输入到BART解码器以获得提示符表示。
3.2 通过VIB共享知识学习
我们希望共享特定提示架构中的共享模型在学习格式共享知识的同时忘记特定格式知识。但是,我们没有添加目标来增强模型。受(Li and Eisner, 2019)的启发,我们将变分信息瓶颈(VIB)集成到我们的共享模型(SharedVIB)中,以捕获格式共享的知识,同时消除特定于格式的信息。
4、实验
数据集:
实验结果:
分析:
5、总结和未来工作
本文提出了一种统一的事件论元抽取(UnifiedEAE)模型,用于在多格式数据集之间传递知识。首先,引入特定共享的提示体系结构,以基于格式共享和特定格式的表示,抽取具有多种格式的事件论元。然后,为了增强模型以有效地捕获格式共享知识,我们将信息瓶颈集成到我们的体系结构中。利用变分信息瓶颈消除格式特定信息,保留格式共享知识。我们在三个EAE数据集上进行了广泛的实验,并将我们的模型与几个强基线进行了比较。结果表明,我们的UnifiedEAE模型优于最先进的基线。此外,消融研究表明,SharedVIB可以有效地捕获格式共享。该模型在低资源事件论元抽取方面也取得了较好的效果。在进一步的工作中,我们希望将我们的模型应用于其他复杂的任务,如关系抽取和命名实体识别。