UnifiedEAE: A Multi-Format Transfer Learning Model for Event Argument Extraction via Variational论文解读

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 事件论元抽取(Event argument extraction, EAE)旨在从文本中抽取具有特定角色的论元,在自然语言处理中已被广泛研究。

A Multi-Format Transfer Learning Model for Event Argument Extraction via Variational Information Bottleneck


9b1e9df4a9634952968d09c13b58d4ab.png


论文:https://arxiv.53yu.com/pdf/2208.13017.pdf

代码:未开源

期刊/会议: COLING 2022


摘要


事件论元抽取(Event argument extraction, EAE)旨在从文本中抽取具有特定角色的论元,在自然语言处理中已被广泛研究。以往的大多数工作都在特定的EAE数据集上取得了良好的性能。然而,这些架构通常很难适应具有各种标注模式或格式的新数据集/场景。此外,它们依赖于大规模的标记数据进行训练,这在大多数情况下由于标记成本高而无法实现。本文提出了一种具有变分信息瓶颈的多格式迁移学习模型,该模型利用现有数据集中的信息,特别是公共知识,在新的数据集中进行EAE。具体来说,我们引入了一个特定共享的提示框架,以从不同格式的数据集中学习格式共享和特定格式的知识。为了进一步利用EAE的常识,消除不相关的噪声,我们将变分信息瓶颈集成到体系结构中,对共享表示进行细化。我们在三个基准数据集上进行了广泛的实验,并在EAE上获得了新的最先进的性能。


1、简介


在本文中,我们回答的问题是“我们能否从现有的复杂事件抽取数据集中迁移到不同格式的知识?”有几个事件抽取数据集,如ACE 2005 (Doddington et al, 2004), RAMS (Ebner et al, 2020)和WikiEvents (Li et al, 2021)。这些数据集包含丰富的事件类型和语义角色,它们可能具有重叠知识,有助于提高新数据集或低资源抽取的性能。如图1所示,ACE2005和WikiEvents数据集都包含相同的“attack”事件类型,但名称不一致。此外,一些共享的论元角色(例如,“Target”、“Attacker”、“Place”和“Instrument”)在两个数据集中都有标记。所有这些信息表明,事件知识可以在两个数据集之间传递。


然而,不同事件论元之间的迁移抽取是一项具有挑战性的任务。(C1)一个挑战是由于事件记录的复杂结构,各种数据集的格式不一致。因此,很难找到一个统一的模型来抽取不同格式的论元。更具体地说,1)两个数据集可能有不同的事件类型,它可能有不同的论元结构;2)两个数据集中相同的事件类型或论元类型可能有不同的名称。例如,ACE2005和WikiEvents中的事件名称分别为“Conflict Attack”和“Conflict Attack Detonate explosion”(图1);3)同一事件类型的论元角色集在不同的数据集中可能不同。例如,事件“Attack”的论元角色“Victim”和“ExplosiveDevice”分别只出现在ACE2005和WikiEvents中(图1)。(C2)另一个挑战是不同数据集之间的标注可能存在差距,这给迁移学习带来了噪声。两个数据集可能有显著的语义差异,因为它们可能属于不同的领域。此外,标注指南在不同的数据集之间可能是矛盾的。我们的实验还表明,合并两个数据集可能会降低性能。


975784ee6b104c0bbba58731dafc80c9.png


以往的工作主要将论元抽取视为一种序列标记,无法转化为新的事件论元类型(Yang et al, 2018)。然后,提出了一个基于机器阅读理解问题(MRC)的模型,使用自然问题抽取论点(Liu et al, 2020;Du and Cardie, 2020)。最近,提示学习(Schick and Schütze, 2020;Liu et al, 2021b)基准模型(Ma et al, 2022;Chen et al,2020)和基于生成的模型(Chen等人,2020;Du et al,2021;Li et al,2021)用于事件论元抽取。这些研究启发我们设计一个统一的模型,可以抽取不同格式的EAE论元。此外,一些研究研究了跨语言事件抽取(Subburathinam et al, 2019)和零样本事件抽取(Chen et al, 2020;Feng et al, 2020),在零样本设置下。换句话说,这些研究在源语言或领域上进行训练,并将其转移到目标领域,而目标领域没有训练数据。与它们不同的是,我们在不同格式的源数据集和目标数据集上训练我们的模型,其中格式共享知识是必不可少的。


为了应对上述挑战,我们提出了一种基于信息瓶颈的EAE多格式迁移学习模型UnifiedEAE,该模型可以利用所有异构格式的事件抽取数据集。首先,我们采用特定共享的提示(Shared-Specific Prompt, SSP)框架来捕获格式共享和特定格式的知识,以抽取不同格式的论元。然后,为了更好地捕获格式共享表示,我们将变分信息瓶颈(VIB)合并到格式共享模型(SharedVIB)中。VIB被广泛用于忘记不相关信息,保留重要信息用于预测(Li and Eisner, 2019;Tishby et al.,2000)。我们利用它来增强模型以学习格式共享知识。我们在三个公开可用的数据集上进行了一系列实验,并获得了新的最先进的性能。我们的UnifiedEAE也能有效地提高低资源EAE的性能。结果表明,该模型能够捕获格式共享知识,忽略不同数据集之间的噪声。


综上所述,本文的主要贡献总结如下。


  • 我们设计了一个统一的架构,可以从不同格式的EE数据集中学习共享格式和特定格式的知识。
  • 利用信息瓶颈技术增强模型,消除不相关信息,保留格式共享知识,学习不同数据集之间的格式共享知识。
  • 在三个数据集上的大量实验表明了我们模型的巨大优势。此外,我们的模型在低资源事件论元抽取方面表现良好。


2、相关工作


2.1 事件论元抽取


事件抽取可以分为两个子任务,事件识别和事件论元抽取(EAE) (Zhang et al, 2020;Chen et al, 2015;Lin et al, 2022)。我们专注于EAE任务,其目的是基于给定的事件类型和触发词抽取论元(Wei et al, 2021;Ma et al, 2022)。Wei等人(2021)为每个论元角色添加了约束,以考虑相互作用。事件论元抽取采用数据增强(Liu et al, 2021a)。为了避免误差传播并学习子任务之间的关系,端到端模型联合执行两个子任务(Zhang et al, 2019;Wadden et al, 2019;Li et al, 2021)。一些研究将事件论证抽取看作是一个机器阅读理解问题(MRC),它抽取论元基于自然问题(Liu et al, 2020;Du and Cardie, 2020)。最近,提示学习(Schick and Schütze, 2020;Liu et al, 2021b)基准模型(Ma et al, 2022;Chen et al, 2020)和基于生成的模型(Chen et al, 2020;Du et al,2021;Li et al,2021)用于事件论元抽取。在本文中,我们的目标是将现有事件抽取数据集的知识迁移到目标数据集,由于这项任务的复杂性,因此没有得到很好的研究。


2.2 NLP中的知识迁移


为了降低对标记数据的要求,迁移学习在自然语言处理领域得到了高度重视(Liu et al, 2017; Ruder et al, 2019; Raffel et al, 2020; Zhou et al, 2020)。Liu等人(2017)提出了一种对抗性多任务学习框架来学习共享和私有表示。跨语言事件抽取旨在将知识从源语言转移到目标语言(Subburathinam et al, 2019)。零样本迁移学习也在语义角色标注(SRL) (Peng et al, 2016),事件抽取(Chen et al, 2020;Feng et al,2020)和抽象意义表示(AMR) (Huang et al,2018)。与它们不同的是,我们专注于具有各种复杂格式的事件论元抽取数据集之间的迁移学习,其中格式共享知识和格式特定知识都很重要。


2.3 信息瓶颈


最近,信息瓶颈(information bottleneck,IB)被应用于NLP任务,如词聚类(Pereira et al, 1994)、依赖解析(Mahabadi et al, 2021)、摘要(West et al, 2019)、可解释性(Zhou et al, 2021)。Li和Eisner(2019)使用IB通过去除与任务无关的信息来压缩单词的隐藏表示。Sun等人(2021)采用IB原理进行图结构学习。变分IB (VIB)被用作正则化技术,以改善低资源场景下预训练语言模型的微调(Mahabadi et al ., 2021)。本文尝试使用VIB约束模型学习格式共享信息,用于事件论元抽取。


3、方法


为了在不同格式的数据集之间传递知识,我们提出了一个用于事件论元抽取任务的UnifiedEAE模型(图2)。UnifiedEAE基于共享特定提示(SSP)体系结构,它从多种格式的不同数据集中学习格式共享知识和格式特定知识。然后,通过去除格式无关信息和保留格式不变知识,将变分信息瓶颈集成到格式共享模型(SharedVIB)中,增强模型以学习格式共享知识。


c6586f8af57c4871b941305b64eb56a6.png


image.png


3.1 特定共享的提示


特定共享的提示(SSP)体系结构旨在为EAE学习格式共享知识和特定于格式的知识。该框架由三个事件论元抽取器组成:两个特定格式的抽取器和一个共享格式的抽取器,用于学习特定格式的知识和共享格式的知识。我们采用基于提示的模型作为预测多格式论元的基本抽取器。


基于基本提示的抽取器。根据Ma等人(2022)的研究,我们使用基于BART (Lewis et al., 2020)的提示模型作为事件论元抽取器。该模型由编码器和解码器组成。编码器用于学习事件感知语句表示。然后采用解码器模型,通过提示模板联合抽取所有论元跨度。


编码器:为了考虑事件的位置信息,我们在句子s中触发词t 前后分别插入特殊token “< t >”和“< /t >”,然后输入到BART中,得到事件感知的句子表示H ,


image.png


解码器:在解码器中,我们使用带槽的提示符同时抽取论元角色。我们使用Li等人(2021)的手动模板。例如,对于事件类型“Life.Marry”,提示为“Person married Person at Place (and Place)”。我们的目标是预测四个论元角色槽的论元跨度。我们将提示符p 输入到BART解码器以获得提示符表示。


image.png


3.2 通过VIB共享知识学习


我们希望共享特定提示架构中的共享模型在学习格式共享知识的同时忘记特定格式知识。但是,我们没有添加目标来增强模型。受(Li and Eisner, 2019)的启发,我们将变分信息瓶颈(VIB)集成到我们的共享模型(SharedVIB)中,以捕获格式共享的知识,同时消除特定于格式的信息。


image.png

image.png


4、实验


数据集:


83b485ee64c7457a8d3fdf887bd0b39d.png

4baae32dbbdc457cb56da3255c72588c.png


实验结果:


806943ee9d79413ca6557d2076847777.png


分析:


d711d6c95f4e4d18bee71b6d518766bd.png

91d367730f8046688baa064b2b4dc479.png

81bcf230f4764c8795f123341e4dde0e.png

989df2dd974644188cb2a35231f60d3e.png


5、总结和未来工作


本文提出了一种统一的事件论元抽取(UnifiedEAE)模型,用于在多格式数据集之间传递知识。首先,引入特定共享的提示体系结构,以基于格式共享和特定格式的表示,抽取具有多种格式的事件论元。然后,为了增强模型以有效地捕获格式共享知识,我们将信息瓶颈集成到我们的体系结构中。利用变分信息瓶颈消除格式特定信息,保留格式共享知识。我们在三个EAE数据集上进行了广泛的实验,并将我们的模型与几个强基线进行了比较。结果表明,我们的UnifiedEAE模型优于最先进的基线。此外,消融研究表明,SharedVIB可以有效地捕获格式共享。该模型在低资源事件论元抽取方面也取得了较好的效果。在进一步的工作中,我们希望将我们的模型应用于其他复杂的任务,如关系抽取和命名实体识别。

目录
相关文章
|
数据挖掘
【提示学习】Automatic Multi-Label Prompting: Simple and Interpretable Few-Shot Classification
文章提出了一种简单确高效地构建verbalization的方法:
|
自然语言处理 算法 vr&ar
X-GEAR:Multilingual Generative Language Models for Zero-Shot Cross-Lingual Event Argument Extraction
我们提出了一项利用多语言预训练生成语言模型进行零样本跨语言事件论元抽取(EAE)的研究。通过将EAE定义为语言生成任务,我们的方法有效地编码事件结构并捕获论元之间的依赖关系。
121 0
|
机器学习/深度学习 数据采集 自然语言处理
MEE: A Novel Multilingual Event Extraction Dataset 论文解读
事件抽取(EE)是信息抽取(IE)的基本任务之一,旨在从文本中识别事件提及及其论点(即参与者)。由于其重要性,已经为事件抽取开发了广泛的方法和资源。
155 0
|
数据挖掘
【提示学习】Prompt Tuning for Multi-Label Text Classification: How to Link Exercises to Knowledge Concept
文章这里使用的是BCEWithLogitsLoss,它适用于多标签分类。即:把[MASK]位置预测到的词表的值进行sigmoid,取指定阈值以上的标签,然后算损失。
|
机器学习/深度学习 移动开发 自然语言处理
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
当在整个文档中描述事件时,文档级事件抽取(DEE)是必不可少的。我们认为,句子级抽取器不适合DEE任务,其中事件论元总是分散在句子中
130 0
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
|
自然语言处理 Java 计算机视觉
ACL2023 - AMPERE: AMR-Aware Prefix for Generation-Based Event Argument Extraction Model
事件论元抽取(EAE)识别给定事件的事件论元及其特定角色。最近在基于生成的EAE模型方面取得的进展显示出了与基于分类的模型相比的良好性能和可推广性
180 0
|
自然语言处理 搜索推荐 数据挖掘
RolePred: Open-Vocabulary Argument Role Prediction for Event Extraction 论文解读
事件抽取中的论元角色是指事件和参与事件的论元之间的关系。尽管事件抽取取得了巨大进展,但现有研究仍然依赖于领域专家预定义的角色。
70 0
|
机器学习/深度学习 数据挖掘
ACL2023 - An AMR-based Link Prediction Approach for Document-level Event Argument Extraction
最近的工作引入了用于文档级事件论元提取(文档级EAE)的抽象语义表示(AMR),因为AMR提供了对复杂语义结构的有用解释,并有助于捕获长距离依赖关系
191 0
|
自然语言处理 算法 知识图谱
DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读
事件抽取需要专家进行高质量的人工标注,这通常很昂贵。因此,学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。
155 0
|
机器学习/深度学习 自然语言处理 测试技术
Query and Extract Refining Event Extraction as Type-oriented Binary Decoding 论文解读
事件抽取通常被建模为一个多分类问题,其中事件类型和论元角色被视为原子符号。这些方法通常仅限于一组预定义的类型。
68 0