UnifiedEAE: A Multi-Format Transfer Learning Model for Event Argument Extraction via Variational论文解读

简介: 事件论元抽取(Event argument extraction, EAE)旨在从文本中抽取具有特定角色的论元,在自然语言处理中已被广泛研究。

A Multi-Format Transfer Learning Model for Event Argument Extraction via Variational Information Bottleneck


9b1e9df4a9634952968d09c13b58d4ab.png


论文:https://arxiv.53yu.com/pdf/2208.13017.pdf

代码:未开源

期刊/会议: COLING 2022


摘要


事件论元抽取(Event argument extraction, EAE)旨在从文本中抽取具有特定角色的论元,在自然语言处理中已被广泛研究。以往的大多数工作都在特定的EAE数据集上取得了良好的性能。然而,这些架构通常很难适应具有各种标注模式或格式的新数据集/场景。此外,它们依赖于大规模的标记数据进行训练,这在大多数情况下由于标记成本高而无法实现。本文提出了一种具有变分信息瓶颈的多格式迁移学习模型,该模型利用现有数据集中的信息,特别是公共知识,在新的数据集中进行EAE。具体来说,我们引入了一个特定共享的提示框架,以从不同格式的数据集中学习格式共享和特定格式的知识。为了进一步利用EAE的常识,消除不相关的噪声,我们将变分信息瓶颈集成到体系结构中,对共享表示进行细化。我们在三个基准数据集上进行了广泛的实验,并在EAE上获得了新的最先进的性能。


1、简介


在本文中,我们回答的问题是“我们能否从现有的复杂事件抽取数据集中迁移到不同格式的知识?”有几个事件抽取数据集,如ACE 2005 (Doddington et al, 2004), RAMS (Ebner et al, 2020)和WikiEvents (Li et al, 2021)。这些数据集包含丰富的事件类型和语义角色,它们可能具有重叠知识,有助于提高新数据集或低资源抽取的性能。如图1所示,ACE2005和WikiEvents数据集都包含相同的“attack”事件类型,但名称不一致。此外,一些共享的论元角色(例如,“Target”、“Attacker”、“Place”和“Instrument”)在两个数据集中都有标记。所有这些信息表明,事件知识可以在两个数据集之间传递。


然而,不同事件论元之间的迁移抽取是一项具有挑战性的任务。(C1)一个挑战是由于事件记录的复杂结构,各种数据集的格式不一致。因此,很难找到一个统一的模型来抽取不同格式的论元。更具体地说,1)两个数据集可能有不同的事件类型,它可能有不同的论元结构;2)两个数据集中相同的事件类型或论元类型可能有不同的名称。例如,ACE2005和WikiEvents中的事件名称分别为“Conflict Attack”和“Conflict Attack Detonate explosion”(图1);3)同一事件类型的论元角色集在不同的数据集中可能不同。例如,事件“Attack”的论元角色“Victim”和“ExplosiveDevice”分别只出现在ACE2005和WikiEvents中(图1)。(C2)另一个挑战是不同数据集之间的标注可能存在差距,这给迁移学习带来了噪声。两个数据集可能有显著的语义差异,因为它们可能属于不同的领域。此外,标注指南在不同的数据集之间可能是矛盾的。我们的实验还表明,合并两个数据集可能会降低性能。


975784ee6b104c0bbba58731dafc80c9.png


以往的工作主要将论元抽取视为一种序列标记,无法转化为新的事件论元类型(Yang et al, 2018)。然后,提出了一个基于机器阅读理解问题(MRC)的模型,使用自然问题抽取论点(Liu et al, 2020;Du and Cardie, 2020)。最近,提示学习(Schick and Schütze, 2020;Liu et al, 2021b)基准模型(Ma et al, 2022;Chen et al,2020)和基于生成的模型(Chen等人,2020;Du et al,2021;Li et al,2021)用于事件论元抽取。这些研究启发我们设计一个统一的模型,可以抽取不同格式的EAE论元。此外,一些研究研究了跨语言事件抽取(Subburathinam et al, 2019)和零样本事件抽取(Chen et al, 2020;Feng et al, 2020),在零样本设置下。换句话说,这些研究在源语言或领域上进行训练,并将其转移到目标领域,而目标领域没有训练数据。与它们不同的是,我们在不同格式的源数据集和目标数据集上训练我们的模型,其中格式共享知识是必不可少的。


为了应对上述挑战,我们提出了一种基于信息瓶颈的EAE多格式迁移学习模型UnifiedEAE,该模型可以利用所有异构格式的事件抽取数据集。首先,我们采用特定共享的提示(Shared-Specific Prompt, SSP)框架来捕获格式共享和特定格式的知识,以抽取不同格式的论元。然后,为了更好地捕获格式共享表示,我们将变分信息瓶颈(VIB)合并到格式共享模型(SharedVIB)中。VIB被广泛用于忘记不相关信息,保留重要信息用于预测(Li and Eisner, 2019;Tishby et al.,2000)。我们利用它来增强模型以学习格式共享知识。我们在三个公开可用的数据集上进行了一系列实验,并获得了新的最先进的性能。我们的UnifiedEAE也能有效地提高低资源EAE的性能。结果表明,该模型能够捕获格式共享知识,忽略不同数据集之间的噪声。


综上所述,本文的主要贡献总结如下。


  • 我们设计了一个统一的架构,可以从不同格式的EE数据集中学习共享格式和特定格式的知识。
  • 利用信息瓶颈技术增强模型,消除不相关信息,保留格式共享知识,学习不同数据集之间的格式共享知识。
  • 在三个数据集上的大量实验表明了我们模型的巨大优势。此外,我们的模型在低资源事件论元抽取方面表现良好。


2、相关工作


2.1 事件论元抽取


事件抽取可以分为两个子任务,事件识别和事件论元抽取(EAE) (Zhang et al, 2020;Chen et al, 2015;Lin et al, 2022)。我们专注于EAE任务,其目的是基于给定的事件类型和触发词抽取论元(Wei et al, 2021;Ma et al, 2022)。Wei等人(2021)为每个论元角色添加了约束,以考虑相互作用。事件论元抽取采用数据增强(Liu et al, 2021a)。为了避免误差传播并学习子任务之间的关系,端到端模型联合执行两个子任务(Zhang et al, 2019;Wadden et al, 2019;Li et al, 2021)。一些研究将事件论证抽取看作是一个机器阅读理解问题(MRC),它抽取论元基于自然问题(Liu et al, 2020;Du and Cardie, 2020)。最近,提示学习(Schick and Schütze, 2020;Liu et al, 2021b)基准模型(Ma et al, 2022;Chen et al, 2020)和基于生成的模型(Chen et al, 2020;Du et al,2021;Li et al,2021)用于事件论元抽取。在本文中,我们的目标是将现有事件抽取数据集的知识迁移到目标数据集,由于这项任务的复杂性,因此没有得到很好的研究。


2.2 NLP中的知识迁移


为了降低对标记数据的要求,迁移学习在自然语言处理领域得到了高度重视(Liu et al, 2017; Ruder et al, 2019; Raffel et al, 2020; Zhou et al, 2020)。Liu等人(2017)提出了一种对抗性多任务学习框架来学习共享和私有表示。跨语言事件抽取旨在将知识从源语言转移到目标语言(Subburathinam et al, 2019)。零样本迁移学习也在语义角色标注(SRL) (Peng et al, 2016),事件抽取(Chen et al, 2020;Feng et al,2020)和抽象意义表示(AMR) (Huang et al,2018)。与它们不同的是,我们专注于具有各种复杂格式的事件论元抽取数据集之间的迁移学习,其中格式共享知识和格式特定知识都很重要。


2.3 信息瓶颈


最近,信息瓶颈(information bottleneck,IB)被应用于NLP任务,如词聚类(Pereira et al, 1994)、依赖解析(Mahabadi et al, 2021)、摘要(West et al, 2019)、可解释性(Zhou et al, 2021)。Li和Eisner(2019)使用IB通过去除与任务无关的信息来压缩单词的隐藏表示。Sun等人(2021)采用IB原理进行图结构学习。变分IB (VIB)被用作正则化技术,以改善低资源场景下预训练语言模型的微调(Mahabadi et al ., 2021)。本文尝试使用VIB约束模型学习格式共享信息,用于事件论元抽取。


3、方法


为了在不同格式的数据集之间传递知识,我们提出了一个用于事件论元抽取任务的UnifiedEAE模型(图2)。UnifiedEAE基于共享特定提示(SSP)体系结构,它从多种格式的不同数据集中学习格式共享知识和格式特定知识。然后,通过去除格式无关信息和保留格式不变知识,将变分信息瓶颈集成到格式共享模型(SharedVIB)中,增强模型以学习格式共享知识。


c6586f8af57c4871b941305b64eb56a6.png


image.png


3.1 特定共享的提示


特定共享的提示(SSP)体系结构旨在为EAE学习格式共享知识和特定于格式的知识。该框架由三个事件论元抽取器组成:两个特定格式的抽取器和一个共享格式的抽取器,用于学习特定格式的知识和共享格式的知识。我们采用基于提示的模型作为预测多格式论元的基本抽取器。


基于基本提示的抽取器。根据Ma等人(2022)的研究,我们使用基于BART (Lewis et al., 2020)的提示模型作为事件论元抽取器。该模型由编码器和解码器组成。编码器用于学习事件感知语句表示。然后采用解码器模型,通过提示模板联合抽取所有论元跨度。


编码器:为了考虑事件的位置信息,我们在句子s中触发词t 前后分别插入特殊token “< t >”和“< /t >”,然后输入到BART中,得到事件感知的句子表示H ,


image.png


解码器:在解码器中,我们使用带槽的提示符同时抽取论元角色。我们使用Li等人(2021)的手动模板。例如,对于事件类型“Life.Marry”,提示为“Person married Person at Place (and Place)”。我们的目标是预测四个论元角色槽的论元跨度。我们将提示符p 输入到BART解码器以获得提示符表示。


image.png


3.2 通过VIB共享知识学习


我们希望共享特定提示架构中的共享模型在学习格式共享知识的同时忘记特定格式知识。但是,我们没有添加目标来增强模型。受(Li and Eisner, 2019)的启发,我们将变分信息瓶颈(VIB)集成到我们的共享模型(SharedVIB)中,以捕获格式共享的知识,同时消除特定于格式的信息。


image.png

image.png


4、实验


数据集:


83b485ee64c7457a8d3fdf887bd0b39d.png

4baae32dbbdc457cb56da3255c72588c.png


实验结果:


806943ee9d79413ca6557d2076847777.png


分析:


d711d6c95f4e4d18bee71b6d518766bd.png

91d367730f8046688baa064b2b4dc479.png

81bcf230f4764c8795f123341e4dde0e.png

989df2dd974644188cb2a35231f60d3e.png


5、总结和未来工作


本文提出了一种统一的事件论元抽取(UnifiedEAE)模型,用于在多格式数据集之间传递知识。首先,引入特定共享的提示体系结构,以基于格式共享和特定格式的表示,抽取具有多种格式的事件论元。然后,为了增强模型以有效地捕获格式共享知识,我们将信息瓶颈集成到我们的体系结构中。利用变分信息瓶颈消除格式特定信息,保留格式共享知识。我们在三个EAE数据集上进行了广泛的实验,并将我们的模型与几个强基线进行了比较。结果表明,我们的UnifiedEAE模型优于最先进的基线。此外,消融研究表明,SharedVIB可以有效地捕获格式共享。该模型在低资源事件论元抽取方面也取得了较好的效果。在进一步的工作中,我们希望将我们的模型应用于其他复杂的任务,如关系抽取和命名实体识别。

目录
相关文章
|
7月前
|
人工智能 前端开发 Java
“最近我给有代码洁癖的同事墙裂安利了通义灵码”
通义灵码2.5.0版本现已全面支持Qwen3,采用混合专家架构,参数量仅为DeepSeek-R1的1/3,是国内首个“混合推理模型”。它在性能评测中超越了DeepSeek-R1、OpenAI-o1等国际主流模型,并全面支持MCP能力,集成国内最大MCP中文社区。作为程序员体验后发现,通义灵码可通过简单指令生成完整项目代码,包括前后端、接口调用等,大幅降低开发门槛。文中通过两个Demo展示了其强大功能:一是聚合多平台热榜数据并推送微信通知;二是基于高德和12306 MCP生成旅游攻略HTML页面。整个过程无需手动编写代码,推荐开发者尝试。
352 47
|
11月前
|
数据采集 人工智能 供应链
《AI赋能工业制造:开启智能生产新时代》
在新一轮科技革命中,人工智能(AI)与工业制造深度融合,推动制造业迈向智能化、数字化新时代。AI通过智能生产调度、设备故障预测、质量检测和供应链优化等应用,显著提升效率和创新能力。特斯拉和富士康的智能工厂展示了AI在实际生产中的巨大潜力。然而,数据质量、技术集成和人才短缺等问题仍需解决。未来,AI将与5G、物联网等技术融合,进一步推动工业制造全面升级。
789 9
|
Web App开发 前端开发 JavaScript
揭秘!前端大牛们如何巧妙利用CSS3,打造炫酷视觉效果!
【10月更文挑战第31天】前端开发面临复杂布局的挑战,本文介绍了几种提升开发效率和代码质量的工具和技术。基础的HTML和CSS可以应对大部分布局需求,而Firefox开发者工具、VS Code、Vue、React等则能应对更复杂的布局,帮助开发者构建高性能、用户友好的网页应用。
289 4
|
安全 Java 编译器
什么是AOP面向切面编程?怎么简单理解?
本文介绍了面向切面编程(AOP)的基本概念和原理,解释了如何通过分离横切关注点(如日志、事务管理等)来增强代码的模块化和可维护性。AOP的核心概念包括切面、连接点、切入点、通知和织入。文章还提供了一个使用Spring AOP的简单示例,展示了如何定义和应用切面。
1468 1
什么是AOP面向切面编程?怎么简单理解?
|
算法
【单目标优化算法】樽海鞘群算法(Matlab代码实现)
【单目标优化算法】樽海鞘群算法(Matlab代码实现)
438 0
|
自然语言处理 算法 搜索推荐
NLTK模块使用详解
NLTK(Natural Language Toolkit)是基于Python的自然语言处理工具集,提供了丰富的功能和语料库。本文详细介绍了NLTK的安装、基本功能、语料库加载、词频统计、停用词去除、分词分句、词干提取、词形还原、词性标注以及WordNet的使用方法。通过示例代码,帮助读者快速掌握NLTK的核心功能。
2641 1
|
PyTorch 算法框架/工具 异构计算
PyTorch 2.2 中文官方教程(十八)(1)
PyTorch 2.2 中文官方教程(十八)
629 2
PyTorch 2.2 中文官方教程(十八)(1)
|
存储 机器学习/深度学习 测试技术
模型量化技术综述:揭示大型语言模型压缩的前沿技术
在这篇文章中,我将在语言建模的背景下介绍量化,并逐一探讨各个概念,探索各种方法论、用例以及量化背后的原理。
603 0
模型量化技术综述:揭示大型语言模型压缩的前沿技术
|
机器学习/深度学习 人工智能 自然语言处理
Is attention all you need? 注意力可能并不是完美的!
Is attention all you need? 注意力可能并不是完美的!
333 1
|
API 数据安全/隐私保护
uniapp中的uview组件库丰富的Keyboard 键盘 用法
uniapp中的uview组件库丰富的Keyboard 键盘 用法
689 0