ACL 2022:Graph Pre-training for AMR Parsing and Generation

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介: 抽象语义表示(AMR)以图形结构突出文本的核心语义信息。最近,预训练语言模型(PLM)分别具有AMR解析和AMR到文本生成的高级任务。

Graph Pre-training for AMR Parsing and Generation


221cbf78154b43f8be8b4107ad63b4cb.png


论文https://aclanthology.org/2022.acl-long.415/

代码:https://github.com/goodbai-nlp/AMRBART

期刊/会议:ACL 2022


摘要


抽象语义表示(AMR)以图形结构突出文本的核心语义信息。最近,预训练语言模型(PLM)分别具有AMR解析和AMR到文本生成的高级任务。然而,PLM通常是在文本数据上进行预训练的,因此对于结构知识建模来说是次优的。为此,我们研究了图自监督训练,以提高PLM对AMR图的结构感知。特别地,我们介绍了两种用于图到图预训练的图自动编码策略,以及在预训练期间集成文本和图信息的四项任务。我们进一步设计了一个统一的框架来弥合预训练和微调任务之间的差距。在AMR解析和AMR-to-text生成方面的实验都表明了我们模型的优越性。据我们所知,我们是第一个考虑对语义图进行预训练的人。


1、简介


抽象意义表示(AMR; Banarescu et al (2013))是一种语义结构形式。它在有根的有向图中表示文本的含义,其中节点表示实体和谓词等基本语义单元,边分别表示它们的语义关系。AMR是AMR parsing和AMR-to-text generation两个任务的基础任务。


ab5f5ab57e094380b1e1dc7c57d88af2.png


如图1所示,前者将文本输入(如句子)转换为相应的AMR结构,后者将AMR输入转换为传达相同含义的流畅语法句子。这两项任务的一个共同挑战是,AMR以图结构的形式存在,这对于神经模型来说很难在有限的人类策划数据下学习。


在自监督文本到文本(t2t)预训练中学习的语义知识既有利于文本到图(t2g)的转换,也有利于图到文本(g2t)的转换。直观地说,来自AMR的结构知识可以是对来自文本的语义知识的有用补充。


一个自然的问题是,类似的自监督策略是否对AMR图有用,以便在模型对t2g和g2t任务进行微调之前,图对图(g2g)去噪自动编码器训练可以作为t2t预训练的有效补充。这里存在三个有趣的问题:首先,如前所述,g2g的预训练是否与t2t的预训练相辅相成?第二,将t2t和g2g训练结合起来最有效的方法是什么?第三,silver data(中等规模数据)对AMR自监督训练有用吗?利用这些数据的最有效方法是什么?


2、相关工作


AMR Parsing:neural transition-based parsers、sequence-to-graph parsers、sequence-to-sequence parsers。预训练语言模型,sequence-to-AMR generation成为趋势。先前的研究侧重于在AMR解析任务的文本数据上微调训练的语言模型,相反的是,本文侧重于将结构信息集成到预训练中。此外,我们的方法不需要来自辅助任务的信息。


AMR-to-Text Generation:在粗粒度层面上,我们将现有的AMR到文本生成方法分为两大类:采用图编码器处理AMR图并使用序列解码器进行生成的graph-to-sequence模型(Beck et al, 2018; Damonte and Cohen, 2019; Zhu et al, 2019),以及sequence-to-sequence模型,将AMR图线性化为序列,并使用随机初始化的(Konstas et al, 2017)或预训练模型(Mager et al, 2020;Ribeiro et al, 2021a;Bevilacqua et al, 2021)将其作为seq2seq问题求解。这项工作遵循seq2seq方式,但我们使用了一个集成AMR和文本信息的编码器。与我们的工作最接近的是,Ribeiro等人(2021b)使用适配器(Houlsby et al, 2019)将AMR结构集成到预训练的T5中(Raffel et al, 2020),用于AMR-to-text generation。然而,它们没有在AMR图上进行预训练,并且它们的方法不能同时解决AMR parse和AMR-to-text generation 任务,因为它们需要完整的AMR结构作为输入。


Graph self-supervised learning:Kipf和Welling(2016)引入了一种变分图自动编码器,以允许对图数据进行自监督学习。胡等人(2020a,b)提出了局部和全局学习策略,以在大规模蛋白质自我网络、学术图和推荐数据上预训练图神经网络。Lu等人(2021)用双重适应增强了Hu等人(2020b)的图学习策略。虽然现有的工作考虑了图神经网络,但我们在AMR图上预训练了seq2seq模型。此外,我们还对图和文本进行了联合预训练,以进行图-文本相关性建模。相比之下,现有的工作在图上预训练模型,并与文本预训练隔离。据我们所知,我们是第一个将AMR视为图预训练目标的人。


3、方法


我们将BART(Lewis et al, 2020)作为基本的seq2seq模型(第3.1节),并介绍了用于AMR parsing 和AMR-to-text generation 的图预训练策略(第3.2节)和统一的预训练框架(第3.3节)。


c109d98389b94868805c1892f0b7c90c.png


3.1 BART


BART(Lewis et al,2020)是一种预训练的去噪自动编码器,是基于标准Transformer(Vaswani et al,2017)架构实现的seq2seq模型。通常,BART被训练为基于由5个噪声函数和扰乱的文本来重建原始文本,这五个函数分别是:1、Token Masking,2、Token Deletion,3、Text Infilling,4、Sentence Permutation,5、Document Rotation。在微调中,BART将一个完整的文本作为输入,并将其映射到特定任务的输出序列中。


我们将AMR图线性化为序列,因此可以使用seq2seq模型执行AMR parsing 和AMR-to-text generation。此外,它还允许使用BART对AMR结构进行预训练,我们采用了深度优先搜索(DFS)算法,该算法与线性化的自然语言句法树密切相关(Bevilacqua et al,2021)。例如,图1中的AMR图被线性化为:(<Z0> psssible :domain (<Z1>go :arg0(<Z2> boy)) :polarity(<Z3> negative)),其中<Z0>,<Z1>和<Z2>是处理共指节点的特殊标记。为了处理这种AMR符号,我们遵循之前的工作(Bevilacqua et al, 2021),并通过添加所有关系和框架来扩展词汇表。此外,为了区分文本和AMR图,我们添加了两个特殊的标记,<g>, </g>,分别标记AMR图的开始和结束。


3.2 在AMR图上进行预训练


我们引入了两种自监督训练策略来进一步在AMR图上预训练BART模型。如图2(a)所示,node/edge 级去噪策略鼓励模型捕获关于节点和边缘的局部知识。图级去噪策略(图2(c))强制模型预测子图,从而促进图级学习。


1.节点/边 级去噪。我们在AMR节点/边上应用噪声函数来构建噪声输入图。特别地,噪声函数是通过mask每个图中15%的节点和15%的边来实现的。如图2(a)所示,节点[go-01]和edge[:arg0]被替换为两个[mask] token。


2.子图级去噪。此任务旨在恢复给定部分图形时的完整图。我们从图中随机移除子图,并将其替换为[mask]token(参见。图2(c))。掩码概率为0.35。


3.3 统一的预训练框架


上述标准的预训练和微调策略如表1(a)所示,分别使用<s>和<g>来区分文本和图信息。然而,在预训练期间,该模型没有完全了解文本信息和AMR信息之间的交互。为了进一步解决这个问题,我们考虑了一个统一的预训练框架,该框架将文本和AMR序列作为去噪自动编码器的输入。通过这种方式,可以对文本、AMR或两端进行动态mask,从而使模型能够学习利用一个信息源来推断另一个信息来源。这可以通过强制学习文本和AMR结构之间的对应关系,使解析器和生成模型都受益。


9d59b9f53a874c2086878a774a3d9058.png


此外,如表1所示,AMR从/到文本转导的标准预训练和微调之间存在差距。具体而言,输入和输出格式在预训练中是相同的(即image.pngimage.png ),但在微调中是不同的(即,t2g和g2t)。这种差距限制了模型在微调阶段充分利用预训练的知识。统一的预训练框架还可以消除预训练和微调之间输入和输出格式的差异,从而有利于特定任务的微调。

image.png


联合文本和图的预训练:我们引入了4个辅助的预训练任务,以鼓励图形和文本之间的信息交换。如表1(b)所示,辅助任务为:

image.png


3.4 训练


优化总的损失函数:


image.png


4、实验


数据集:AMR2.0(LDC2017T10),AMR3.0(LDC2020T02),New3,The Little Prince(TLP),Bio AMR(Bio)。


b18c7faa9dc6436ea55ac1dd72fae99f.png


实验结果:


2e55eb29c2da43a3a4e89a11120fe9fd.png

3bb50fb972ed4615a4486bba7e1704a3.png

c1a8ab63f86749b7a1cda1d52aca8d0c.png

5e2f7a8a2b0e4eb29ef67fabcb1e4fa4.png


5、总结


我们使用一种新的具有对偶图和文本去噪的统一框架,研究了图预训练作为AMR解析和AMR文本生成任务的文本预训练的填充。我们发现,图预训练对于AMR解析和AMR到文本生成都是非常有效的,并且与微调相比,这是一种更有效的利用中等数据的方法。我们的方法在两项任务的多个基准测试上都能获得最佳结果。

目录
相关文章
|
7月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】ACL 2022:Graph Pre-training for AMR Parsing and Generation
【论文精读】ACL 2022:Graph Pre-training for AMR Parsing and Generation
|
3月前
|
算法 数据挖掘
文献解读-Consistency and reproducibility of large panel next-generation sequencing: Multi-laboratory assessment of somatic mutation detection on reference materials with mismatch repair and proofreading deficiency
Consistency and reproducibility of large panel next-generation sequencing: Multi-laboratory assessment of somatic mutation detection on reference materials with mismatch repair and proofreading deficiency,大panel二代测序的一致性和重复性:对具有错配修复和校对缺陷的参考物质进行体细胞突变检测的多实验室评估
32 6
文献解读-Consistency and reproducibility of large panel next-generation sequencing: Multi-laboratory assessment of somatic mutation detection on reference materials with mismatch repair and proofreading deficiency
|
7月前
|
机器学习/深度学习 数据挖掘 Python
[Bart]论文实现:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation...
[Bart]论文实现:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation...
58 0
|
机器学习/深度学习 自然语言处理 算法
ACL 2019 - AMR Parsing as Sequence-to-Graph Transduction
我们提出了一个基于注意力的模型,将AMR解析视为序列到图的转导。与大多数依赖于预训练的对齐器、外部语义资源或数据扩充的AMR解析器不同
156 0
ACL 2019 - AMR Parsing as Sequence-to-Graph Transduction
|
机器学习/深度学习 移动开发 自然语言处理
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
当在整个文档中描述事件时,文档级事件抽取(DEE)是必不可少的。我们认为,句子级抽取器不适合DEE任务,其中事件论元总是分散在句子中
144 0
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
|
自然语言处理 Java 计算机视觉
ACL2023 - AMPERE: AMR-Aware Prefix for Generation-Based Event Argument Extraction Model
事件论元抽取(EAE)识别给定事件的事件论元及其特定角色。最近在基于生成的EAE模型方面取得的进展显示出了与基于分类的模型相比的良好性能和可推广性
196 0
|
机器学习/深度学习 自然语言处理 数据挖掘
UnifiedEAE: A Multi-Format Transfer Learning Model for Event Argument Extraction via Variational论文解读
事件论元抽取(Event argument extraction, EAE)旨在从文本中抽取具有特定角色的论元,在自然语言处理中已被广泛研究。
97 0
|
机器学习/深度学习 自然语言处理 数据可视化
EventGraph:Event Extraction as Semantic Graph Parsing 论文解读
事件抽取涉及到事件触发词和相应事件论元的检测和抽取。现有系统经常将事件抽取分解为多个子任务,而不考虑它们之间可能的交互。
85 0
|
机器学习/深度学习 自然语言处理 算法
TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking 论文解读
近年来,从非结构化文本中提取实体和关系引起了越来越多的关注,但由于识别共享实体的重叠关系存在内在困难,因此仍然具有挑战性。先前的研究表明,联合学习可以显著提高性能。然而,它们通常涉及连续的相互关联的步骤,并存在暴露偏差的问题。
226 0
|
机器学习/深度学习 人工智能 自然语言处理
One SPRING to Rule Them Both Symmetric AMR Semantic Parsing and Generation without Complex Pipeline
在文本到AMR解析中,当前最先进的语义解析器集成了几个不同模块或组件的繁琐管道,并利用图重新分类,即在训练集的基础上开发的一组特定内容的启发式方法。
138 0