【论文速递】ACL 2022 - Prompt for Extraction? PAIE: Prompting Argument Interaction for Event Argument Extr

简介: 在本文中,我们提出了一个既有效又高效的模型PAIE,用于句子级和文档级的事件论元抽取(EAE),即使在缺乏训练数据的情况下也能很好地泛化。一方面,PAIE利用抽取目标的提示调优,以充分利用预训练语言模型(PLMs)的优势。

【论文原文】:Prompt for Extraction? PAIE: Prompting Argument Interaction for Event Argument Extraction


【作者信息】:


论文:https://aclanthology.org/2022.acl-long.466.pdf
代码:https://github.com/mayubo2333/PAIE


博主关键词:Ma, Yubo and Wang, Zehao and Cao, Yixin and Li, Mukai and Chen, Meiqi and Wang, Kun and Shao, Jing


推荐论文:无


摘要


在本文中,我们提出了一个既有效又高效的模型PAIE,用于句子级和文档级的事件论元抽取(EAE),即使在缺乏训练数据的情况下也能很好地泛化。一方面,PAIE利用抽取目标的提示调优,以充分利用预训练语言模型(PLMs)的优势。它根据提示在每个角色的输入文本中选择开始/结束标记,引入了两个span选择器。另一方面,它通过多角色提示捕获论元交互,并通过二部匹配损失进行最优跨度分配的联合优化。此外,通过灵活的提示设计,PAIE可以抽取具有相同角色的多个论元,而不是传统的启发式阈值调优。我们在三个基准上进行了广泛的实验,包括句子级和文档级EAE。结果显示,与PAIE相比有了很大的改善(在三个基准上,PAIE-base和PAIE-large的F1平均涨幅分别为3.5%和2.3%)。进一步的分析证明了不同抽取提示调优策略的效率、对少样本设置的泛化和有效性。


1、简介


通过识别事件和论元来理解文本一直是自然语言处理(NLP)的长期目标(Sundheim, 1992)。如图1所示,我们可以很快地理解该文档谈论的是一个Sell事件,有四个涉及的论元,即Vivendi (Seller)、Universal Studios (Artifact)、parks (Artifact)和company (Artifact),其中论元角色在括号中。由于事件检测近年来取得了巨大的成功(Wang et al, 2021),主要的挑战在于事件论元抽取(EAE)。


effa66dfa8ed495bad1e9a584460d9fe.png


典型的EAE工作可以大致分为两类。第一种方法将其表述为语义角色标签问题(Wei等人,2021)。通常有两个步骤——首先确定候选论元范围,然后对它们的角色进行分类。虽然提出了联合模型来共同优化它们,但对候选对象的高度依赖仍然可能受到误差传播的影响(Li et al, 2013)。在第二种方法中,最近的研究倾向于受预训练语言模型(PLMs)的启发,并通过**问答(QA)**解决EAE (Liu et al, 2021a;Wei等,2021;Du和Cardie, 2020;刘等,2020;Li等人,2020)和文本生成(Lu等人,2021;Li et al, 2021)。基于QA的模型可以有效地识别针对特定角色问题的论元边界,而预测则需要逐个进行。基于生成的方法对于生成所有论元是有效的,但是顺序预测会降低长距离和更多论元的性能。此外,最先进的性能仍然不尽人意(约68% F1在ACE2005数据集上)。这里提出了一个有趣的问题,有没有办法将上述方法的优点结合起来,同时提高性能?


本文针对真实场景,要求EAE模型在句子和文档级别上都有效且高效,甚至在没有足够训练数据的少样本设置下。为此,我们强调以下问题:


  • 如何同时抽取所有论元以提高效率?
  • 如何有效地捕捉长文本的论元交互,而不事先知道它们?
  • 我们如何从PLMs中引出更多的知识来降低标注的需求?


在本文中,我们研究了抽取设置下的提示微调,并提出了一种新的方法PAIE,即用于EAE的提示论元交互。它扩展了基于QA的模型来处理多论元抽取,同时充分利用了PLMs的优势。基本思想是设计合适的模板来提示PLM的所有论元角色,并获得特定角色的查询,以共同从文本中选择最佳范围。因此,模板中的每个角色都充当交互的插槽,而不是不可用的论元,在学习过程中,PLM倾向于通过匹配损失用精确的论元填充这些插槽。通过一起预测论元,PAIE享有高效和有效的学习过程。此外,相似角色提示之间的事件间知识迁移,减轻了标注成本的沉重负担。


具体来说,对于提示抽取,我们设计了两个基于角色提示的span选择器,用于在输入文本中选择开始/结束标记。我们将探讨三种类型的提示:手动模板、串联模板和软提示。它们在句子级EAE (S-EAE)和文档级EAE (D-EAE)方面都表现良好,并简化了穷举提示设计的要求。对于联合跨度的选择,我们设计了一种二部匹配损失,使预测与ground truth之间的匹配成本最小,使每个论元都能找到最优的角色提示。它还可以通过灵活的角色提示来处理具有相同角色的多个论元,而不是启发式阈值调优。我们将我们的贡献总结如下:


  • 我们提出了一个新的模型PAIE,该模型对S-EAE和D-EAE都是有效和高效的,并且对少样本设置具有鲁棒性。


  • 我们制定和研究在抽取设置下的提示调优,与最佳跨度分配的联合选择方案。


  • 我们在三个基准上进行了广泛的实验。结果表明,使用PAIE有很好的改善效果(基本模型和大模型的F1平均增益分别为3.5%和2.3%)。进一步的消融研究证明了我们提出的模型的效率和泛化到少样本设置,以及提示调整抽取的有效性。


2、方法


PAIE考虑多个论元及其相互作用,以提示PLM进行联合抽取。如图2所示,我们的模型包含三个核心组件:提示创建、跨度选择器解码和跨度预测。在下面的部分中,我们将首先制定抽取提示符,并依次描述每个组件。


9492b1bc44214b7ba7c97c592e7bfcbc.png


3、实验


本节将围绕以下几个问题进行求解:


  • PAIE能否更好地利用PLMs进行联合抽取来提高S-EAE和D-EAE的性能?
  • 不同的快速训练策略如何影响结果?
  • PAIE在各种实际设置中表现如何,包括在少样本、远距离和多论元的效率和泛化效果?


d72b76f59f8b47df90139df4c7777a52.png


表2将我们的方法与所有基线进行了比较。我们观察到PAIE在所有数据集上表现最好。对于S-EAE,我们的基本模型在ACE05上实现了绝对的Arg-C提高2.1%。对于DEAE,我们的基础模型在RAMS和WIKIEVENTS上分别获得2.1%和6.3%的ArgC增益。同样,我们的大版本模型实现了3.5%和2.9%的收益。这表明我们提出的方法在处理不同长度的上下文时具有良好的泛化能力。


723fcad7d5af410dae62e83324b2f812.png


【论文速递 | 精选】



论坛地址https://bbs.csdn.net/forums/paper

目录
相关文章
|
Java 开发工具 Docker
最全解决docker配置kibana报错 Kibana server is not ready yet
最全解决docker配置kibana报错 Kibana server is not ready yet
1901 0
|
12月前
|
消息中间件 物联网 Java
开发者如何使用云消息队列 MQTT 版
【10月更文挑战第14天】开发者如何使用云消息队列 MQTT 版
873 122
|
机器学习/深度学习 存储 人工智能
压缩大型语言模型(LLMs):缩小10倍、性能保持不变
尽管大规模语言模型(LLMs)在多种应用场景中表现出色,但其庞大的规模也带来了实际部署难题。本文探讨了通过模型压缩技术解决这些问题的方法,介绍了量化、剪枝和知识蒸馏三种主要压缩技术,并通过具体Python代码示例展示了如何将一个100M参数的文本分类模型压缩至52.8M参数,再通过4位量化进一步减小至原来的1/7,同时保持甚至提升性能。示例代码展示了从数据预处理、模型训练到评估的完整流程,证明了压缩技术的有效性。
663 6
|
机器学习/深度学习 人工智能 自然语言处理
人工智能基础知识:介绍人工智能的历史,基本概念和应用领域
人工智能基础知识:介绍人工智能的历史,基本概念和应用领域
14396 0
|
Linux 知识图谱 Docker
知识图谱(Knowledge Graph)- Neo4j 5.10.0 Docker 安装
知识图谱(Knowledge Graph)- Neo4j 5.10.0 Docker 安装
349 0
|
Shell Linux 开发工具
解决windows系统下运行.sh文件
【6月更文挑战第15天】
934 4
|
自然语言处理 数据挖掘 API
GraphRAG揭秘:构建层次化知识图谱的终极指南
GraphRAG揭秘:构建层次化知识图谱的终极指南
1282 0
|
机器学习/深度学习 存储 自然语言处理
自然语言处理 Paddle NLP - 信息抽取技术及应用
自然语言处理 Paddle NLP - 信息抽取技术及应用
376 0
|
机器学习/深度学习 自然语言处理 算法
利用深度学习优化图像识别精度的策略
【5月更文挑战第15天】 在计算机视觉领域,图像识别的精确度直接关系到后续处理的效果与可靠性。本文旨在探讨如何通过深度学习技术提升图像识别任务的精度。首先,文中介绍了卷积神经网络(CNN)的基础结构及其在图像识别中的应用;然后,详细分析了数据增强、网络结构优化、正则化方法和注意力机制等策略对提高模型性能的作用;最后,通过实验验证了所提策略的有效性,并讨论了未来可能的研究方向。本文不仅为图像识别领域的研究者提供了实用的优化策略,也为相关应用的开发者指明了提升系统性能的可能途径。
|
Java 关系型数据库 MySQL
springboot业务开发--springboot一键生成数据库文档
Screw是一个数据库文档生成工具,能自动化根据数据库表结构生成文档,减轻开发人员工作负担,支持MySQL、MariaDB、TiDB等多种数据库和HTML、Word、Markdown等格式。它依赖HikariCP数据库连接池和Freemarker模板引擎。通过在Spring Boot项目中添加相关依赖并配置,可以用代码或Maven插件方式生成文档。示例代码展示了如何在JUnit测试中使用Screw生成HTML文档。
308 0