ACL 2019 - AMR Parsing as Sequence-to-Graph Transduction

简介: 我们提出了一个基于注意力的模型,将AMR解析视为序列到图的转导。与大多数依赖于预训练的对齐器、外部语义资源或数据扩充的AMR解析器不同

AMR Parsing as Sequence-to-Graph Transduction


1d51e1154ae84c6ea94fdab7424378e8.png


论文:https://arxiv.org/pdf/1905.08704.pdf

代码:https://github.com/sheng-z/stog

期刊/会议:ACL 2019


摘要


我们提出了一个基于注意力的模型,将AMR解析视为序列到图的转导。与大多数依赖于预训练的对齐器、外部语义资源或数据扩充的AMR解析器不同,我们提出的解析器是无对齐器的,并且可以用有限的标记AMR数据对其进行有效训练。我们的实验结果在AMR 2.0(LDC2017T10上为76.3%F1)和AMR 1.0(LDC2014T12上为70.2%F1)方面均优于所有先前报道的SMATCH评分。


1、简介


抽象语义表示(AMR,Banarescu et al,2013)解析是将自然语言文本转换为AMR的任务,AMR是一种用于捕获句子级语义的基于图形的形式主义。AMR解析中的挑战包括:(1)它属性的可重入性——同一概念可以参与多个关系——这导致了与树相反的图(Wang et al,2015);(2) 图中的节点(概念)和文本中的单词之间缺乏正确标准比对,这限制了依赖显式比对来生成训练数据的尝试(Flanigan et al, 2014; Wang et al, 2015; Damonte et al, 2017; Foland and Martin, 2017; Peng et al, 2017b; Groschwitz et al, 2018; Guo and Lu, 2018);以及(3)相对有限的标记数据量(Konstas et al ,2017)。


建模对齐为潜在变量,利用外部语义资源,数据增强,基于注意力的端到端方法被用于解决上述问题。


为了解决重入性问题,提出了一个基于注意力的模型,将AMR解析作为序列到图的转化。所提出的模型由扩展的指针生成器网络支持,不需要对准器,并且可以用有限的标记AMR数据进行有效训练。在两个公开可用的AMR基准测试上的实验表明,我们的解析器在这两个基准测试上都明显优于以前最好的解析器。它获得了最好的SMATCH评分:在LDC2017T10上为76.3%的F1,在LDC2014T12上为70.2%的F1。我们还提供广泛的消融和定性研究,量化每个成分的贡献。


2、其他角度去看重入性


AMR是一个有根的、有向的、通常是无环的图,其中节点表示概念,标记的有向边表示它们之间的关系(AMR示例见图1)。AMR是图而不是树的原因是它允许重入语义关系。例如,在图1(a)中,“Victim”是help-01的ARG0和ARG1。虽然已经致力于发展用于AMR解析的基于图的算法(Chiang et al, 2013; Flanigan et al, 2014),但将句子解析为AMR图而不是树更具挑战性,因为存在有效的现成的基于树的算法,例如Chu and Liu (1965); Edmonds (1968)。为了利用这些基于树的算法以及其他结构化预测范式(McDonald et al, 2005),我们引入了另一种可重入性观点。


257d35662ec4440ab8f7a1fba957cf28.png


当一个节点参与多个语义关系时,采用AMR重入性。我们通过复制具有可重入关系的节点,将AMR图转换为树;也就是说,每当一个节点具有可重入关系时,我们都会复制该节点,并使用该副本参与该关系,从而生成一个树。接下来,为了保留可重入性信息,我们通过为每个节点分配一个索引来添加一层额外的注释。重复的节点被分配与原始节点相同的索引。图1(b)显示了结果AMR树:节点的下标是索引;两个“victim”节点具有相同的索引,因为它们引用了相同的概念。原始AMR图可以通过合并索引相同的节点并统一来自/到这些节点的边来恢复。Artzi等人(2015)在从CCG到AMR的转换中引入了Skolem ID来表示回指参考,van Noord和Bos(2017a)也使用了类似的想法,他们保留了共同索引的AMR变量,以及转化它们去成为数字。


3、任务定义


如果我们考虑以索引节点为预测目标的AMR树,那么我们的解析方法被形式化为两个阶段的过程:节点预测和边预测。解析过程的示例如图2所示。


7f4099bb794540c9830d62672ce1d4be.png


image.png


我们允许相同的节点重复出现在列表中,一个节点的多次出现将被分配相同的索引。我们选择按顺序预测而不是同时预测节点,因为(1)我们认为当前节点生成对未来节点生成是有信息的;(2) 有效端到端模型的变体(Bahdanau et al, 2014; Vinyals et al, 2015)可以用于对这一过程进行建模。在训练时,我们使用对参考AMR树的预序遍历来获得节点的参考列表及其索引。


image.png


基于边缘的得分,可以使用Chu-Liu Edmonds算法有效地找到得分最高的解析树(即最大生成树)。我们进一步将索引作为约束纳入算法中,如第4.4节所述。在获得解析树之后,我们合并相同索引的节点以恢复标准AMR图。


4、模型


我们的模型有两个主要模块:(1)用于节点预测的扩展指针生成器网络;以及(2)用于边缘预测的深度biaffine分类器。这两个模块对应于AMR解析的两阶段过程,并且在训练过程中共同学习。


ca854e36ae7d4687b31a8af6c9c76d26.png


4.1 扩展的指针生成器网络


受张等人(2018)中自复制(self-copy)机制的启发,我们扩展了指针生成器网络(See et al.,2017)用于节点预测。提出了一种用于文本摘要的指针生成器网络,该网络可以通过指针从源文本中复制单词,同时保留通过生成器生成新单词的能力。我们的扩展的主要区别在于,它不仅可以复制源文本中的节点,还可以复制目标端先前生成的节点。这种目标端指向非常适合我们的任务,因为我们将预测的节点可以是其他节点的副本。虽然还有其他指针/副本网络(Gulcehre et al, 2016; Merity et al, 2016; Gu et al, 2016; Miao and Blunsom, 2016; Nallapati et al, 2016),但我们发现指针生成器网络在降低AMR解析中的数据稀疏性方面非常有效。


如图3所示,扩展的指针生成器网络由四个主要组件组成:编码器嵌入层、编码器、解码器嵌入层和解码器。


编码器嵌入层:该层将输入句子中的单词转换为向量表示。每个向量是GloVe (Pennington et al, 2014), BERT (Devlin et al, 2018), POS (part-of-speech) 标签和匿名化指标的嵌入以及通过字符级卷积神经网络学习的特征的级联(CharCNN,Kim et al,2016)。


匿名化指示符是告诉编码器该词是否是匿名化词的二分类指示符。在预处理中,输入句子中命名实体的文本跨度将被匿名标记(如person、country)取代,以减少稀疏性。


除了BERT,所有其他嵌入都是从它们相应的学习嵌入查找表中提取的。BERT以子字单元作为输入,这意味着一个字可能对应于BERT的多个隐藏状态。为了准确地使用这些隐藏状态来表示每个单词,我们将平均池化函数应用于BERT的输出。图4说明了从BERT生成单词级嵌入的过程。


e59cc4f2ee6f4e0896665d9bf0e01ea3.png


编码器:编码器是一个多层双向的RNN网络:


image.png


解码嵌入层:和编码器嵌入层类似,这层的输出向量表示用于AMR节点。不同之处在于,每个向量是GloVe、POS标签、索引的嵌入以及来自CharCNN的特征向量的级联。


节点的POS标签是在运行时推断的:如果一个节点是输入句子的副本,则使用相应单词的POS标签;如果一个节点是前面节点的副本,则使用其先前节点的POS标签;如果一个节点是从词汇表中发出的新节点,则使用UNK标记。


我们在这一层中不包括BERT嵌入,因为AMR节点,尤其是它们的顺序,与自然语言文本(BERT是在其上预训练的)有很大不同。我们试图在这一层中使用“固定”的BERT,但没有带来改进。


image.png

image.png


4.2 深度Biaffine分类


对于第二阶段(即边缘预测),我们使用了一种深度biaffine分类器,该分类器最初被提出用于基于图的依赖解析(Dozat and Manning,2016),最近已被应用于语义解析(Peng et al.,2017a;Dozat and Manning,2018)。


8d220ab7c0ee493e9c8489d25cfcae94.png


如图5所示,我们使用的主要区别在于,我们没有重新编码AMR节点,而是直接使用来自扩展的指针生成器网络的解码器隐藏状态作为深度biaffine分类器的输入。我们发现使用解码器隐藏状态作为输入的两个优点:(1)通过输入馈送方法,解码器隐藏状态包含来自输入句子和预测节点的上下文信息;(2) 由于解码器隐藏状态用于节点预测和边预测,我们可以在我们的模型中联合训练这两个模块。


image.png


4.3 训练


image.png


4.4 预测


image.png


32a386f588b441d18b3937a03cb4d69f.png


5、实验


实验数据集:AMR2.0(LDC2017T10)、AMR1.0(LDC2014T12)。


实验结果:

777abd1b437c4bdaac1c1d33f4c88605.png

02d0d028d3aa45fbb350e470647d3a64.png

消融实验:

6d9a9311fd494fb69039f1dd20e9a23d.png

3e9fe972ddee4fc99e45b9f3012622ef.png


2b56659bbc7d4fc8a630a1e07696f2fd.png

f5e56c650ba54521a018d94a5806372e.png


6、总结


我们提出了一种基于注意力的AMR解析模型,在该模型中,我们将一系列新的组件引入到转导设置中,这些组件超出了典型的NMT系统在这项任务中的作用。我们的模型在两个AMR语料库上取得了最好的性能。对于未来的工作,我们希望将我们的模型扩展到其他语义解析任务(Oepen et al, 2014; Abend and Rappoport, 2013)。我们还对跨语言环境中的语义解析感兴趣(Zhang et al, 2018; Damonte and Cohen, 2018)。


最近工作

目录
相关文章
|
6天前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】ACL 2022:Graph Pre-training for AMR Parsing and Generation
【论文精读】ACL 2022:Graph Pre-training for AMR Parsing and Generation
|
9月前
|
算法 调度 索引
beamManagement(三)connected mode DL Beam training
在进入连接态后,DL 可以使用CSI-RS/SSB进行波束训练,上行使用Sounding RS进行波束训练。先看下行波束训练过程,DL 参考信号的RRC层配置结构如下。
|
9月前
|
机器学习/深度学习 自然语言处理 算法
ACL 2022:Graph Pre-training for AMR Parsing and Generation
抽象语义表示(AMR)以图形结构突出文本的核心语义信息。最近,预训练语言模型(PLM)分别具有AMR解析和AMR到文本生成的高级任务。
102 0
|
9月前
|
机器学习/深度学习 数据挖掘
ACL2023 - An AMR-based Link Prediction Approach for Document-level Event Argument Extraction
最近的工作引入了用于文档级事件论元提取(文档级EAE)的抽象语义表示(AMR),因为AMR提供了对复杂语义结构的有用解释,并有助于捕获长距离依赖关系
108 0
|
9月前
|
自然语言处理 Java 计算机视觉
ACL2023 - AMPERE: AMR-Aware Prefix for Generation-Based Event Argument Extraction Model
事件论元抽取(EAE)识别给定事件的事件论元及其特定角色。最近在基于生成的EAE模型方面取得的进展显示出了与基于分类的模型相比的良好性能和可推广性
121 0
|
9月前
|
机器学习/深度学习 自然语言处理 搜索推荐
TSAR: A Two-Stream AMR-enhanced Model for Document-level Event Argument Extraction论文解读
以往的研究大多致力于从单个句子中抽取事件,而文档级别的事件抽取仍未得到充分的研究。在本文中,我们专注于从整个文档中抽取事件论元
111 0
|
9月前
|
自然语言处理 知识图谱
ACL2022 Document-Level Event Argument Extraction via Optimal Transport
事件论元抽取(EAE)是事件抽取的子任务之一,旨在识别每个实体在特定事件触发词中的作用。尽管先前的工作在句子级EAE方面取得了成功,但对文档级的探索较少。
74 0
|
9月前
|
机器学习/深度学习 自然语言处理 算法
TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking 论文解读
近年来,从非结构化文本中提取实体和关系引起了越来越多的关注,但由于识别共享实体的重叠关系存在内在困难,因此仍然具有挑战性。先前的研究表明,联合学习可以显著提高性能。然而,它们通常涉及连续的相互关联的步骤,并存在暴露偏差的问题。
119 0
|
9月前
|
机器学习/深度学习 自然语言处理 测试技术
Query and Extract Refining Event Extraction as Type-oriented Binary Decoding 论文解读
事件抽取通常被建模为一个多分类问题,其中事件类型和论元角色被视为原子符号。这些方法通常仅限于一组预定义的类型。
39 0
|
9月前
|
机器学习/深度学习 自然语言处理 数据挖掘
UnifiedEAE: A Multi-Format Transfer Learning Model for Event Argument Extraction via Variational论文解读
事件论元抽取(Event argument extraction, EAE)旨在从文本中抽取具有特定角色的论元,在自然语言处理中已被广泛研究。
51 0