AMR Parsing as Sequence-to-Graph Transduction
论文:https://arxiv.org/pdf/1905.08704.pdf
代码:https://github.com/sheng-z/stog
期刊/会议:ACL 2019
摘要
我们提出了一个基于注意力的模型,将AMR解析视为序列到图的转导。与大多数依赖于预训练的对齐器、外部语义资源或数据扩充的AMR解析器不同,我们提出的解析器是无对齐器的,并且可以用有限的标记AMR数据对其进行有效训练。我们的实验结果在AMR 2.0(LDC2017T10上为76.3%F1)和AMR 1.0(LDC2014T12上为70.2%F1)方面均优于所有先前报道的SMATCH评分。
1、简介
抽象语义表示(AMR,Banarescu et al,2013)解析是将自然语言文本转换为AMR的任务,AMR是一种用于捕获句子级语义的基于图形的形式主义。AMR解析中的挑战包括:(1)它属性的可重入性——同一概念可以参与多个关系——这导致了与树相反的图(Wang et al,2015);(2) 图中的节点(概念)和文本中的单词之间缺乏正确标准比对,这限制了依赖显式比对来生成训练数据的尝试(Flanigan et al, 2014; Wang et al, 2015; Damonte et al, 2017; Foland and Martin, 2017; Peng et al, 2017b; Groschwitz et al, 2018; Guo and Lu, 2018);以及(3)相对有限的标记数据量(Konstas et al ,2017)。
建模对齐为潜在变量,利用外部语义资源,数据增强,基于注意力的端到端方法被用于解决上述问题。
为了解决重入性问题,提出了一个基于注意力的模型,将AMR解析作为序列到图的转化。所提出的模型由扩展的指针生成器网络支持,不需要对准器,并且可以用有限的标记AMR数据进行有效训练。在两个公开可用的AMR基准测试上的实验表明,我们的解析器在这两个基准测试上都明显优于以前最好的解析器。它获得了最好的SMATCH评分:在LDC2017T10上为76.3%的F1,在LDC2014T12上为70.2%的F1。我们还提供广泛的消融和定性研究,量化每个成分的贡献。
2、其他角度去看重入性
AMR是一个有根的、有向的、通常是无环的图,其中节点表示概念,标记的有向边表示它们之间的关系(AMR示例见图1)。AMR是图而不是树的原因是它允许重入语义关系。例如,在图1(a)中,“Victim”是help-01的ARG0和ARG1。虽然已经致力于发展用于AMR解析的基于图的算法(Chiang et al, 2013; Flanigan et al, 2014),但将句子解析为AMR图而不是树更具挑战性,因为存在有效的现成的基于树的算法,例如Chu and Liu (1965); Edmonds (1968)。为了利用这些基于树的算法以及其他结构化预测范式(McDonald et al, 2005),我们引入了另一种可重入性观点。
当一个节点参与多个语义关系时,采用AMR重入性。我们通过复制具有可重入关系的节点,将AMR图转换为树;也就是说,每当一个节点具有可重入关系时,我们都会复制该节点,并使用该副本参与该关系,从而生成一个树。接下来,为了保留可重入性信息,我们通过为每个节点分配一个索引来添加一层额外的注释。重复的节点被分配与原始节点相同的索引。图1(b)显示了结果AMR树:节点的下标是索引;两个“victim”节点具有相同的索引,因为它们引用了相同的概念。原始AMR图可以通过合并索引相同的节点并统一来自/到这些节点的边来恢复。Artzi等人(2015)在从CCG到AMR的转换中引入了Skolem ID来表示回指参考,van Noord和Bos(2017a)也使用了类似的想法,他们保留了共同索引的AMR变量,以及转化它们去成为数字。
3、任务定义
如果我们考虑以索引节点为预测目标的AMR树,那么我们的解析方法被形式化为两个阶段的过程:节点预测和边预测。解析过程的示例如图2所示。
我们允许相同的节点重复出现在列表中,一个节点的多次出现将被分配相同的索引。我们选择按顺序预测而不是同时预测节点,因为(1)我们认为当前节点生成对未来节点生成是有信息的;(2) 有效端到端模型的变体(Bahdanau et al, 2014; Vinyals et al, 2015)可以用于对这一过程进行建模。在训练时,我们使用对参考AMR树的预序遍历来获得节点的参考列表及其索引。
基于边缘的得分,可以使用Chu-Liu Edmonds算法有效地找到得分最高的解析树(即最大生成树)。我们进一步将索引作为约束纳入算法中,如第4.4节所述。在获得解析树之后,我们合并相同索引的节点以恢复标准AMR图。
4、模型
我们的模型有两个主要模块:(1)用于节点预测的扩展指针生成器网络;以及(2)用于边缘预测的深度biaffine分类器。这两个模块对应于AMR解析的两阶段过程,并且在训练过程中共同学习。
4.1 扩展的指针生成器网络
受张等人(2018)中自复制(self-copy)机制的启发,我们扩展了指针生成器网络(See et al.,2017)用于节点预测。提出了一种用于文本摘要的指针生成器网络,该网络可以通过指针从源文本中复制单词,同时保留通过生成器生成新单词的能力。我们的扩展的主要区别在于,它不仅可以复制源文本中的节点,还可以复制目标端先前生成的节点。这种目标端指向非常适合我们的任务,因为我们将预测的节点可以是其他节点的副本。虽然还有其他指针/副本网络(Gulcehre et al, 2016; Merity et al, 2016; Gu et al, 2016; Miao and Blunsom, 2016; Nallapati et al, 2016),但我们发现指针生成器网络在降低AMR解析中的数据稀疏性方面非常有效。
如图3所示,扩展的指针生成器网络由四个主要组件组成:编码器嵌入层、编码器、解码器嵌入层和解码器。
编码器嵌入层:该层将输入句子中的单词转换为向量表示。每个向量是GloVe (Pennington et al, 2014), BERT (Devlin et al, 2018), POS (part-of-speech) 标签和匿名化指标的嵌入以及通过字符级卷积神经网络学习的特征的级联(CharCNN,Kim et al,2016)。
匿名化指示符是告诉编码器该词是否是匿名化词的二分类指示符。在预处理中,输入句子中命名实体的文本跨度将被匿名标记(如person、country)取代,以减少稀疏性。
除了BERT,所有其他嵌入都是从它们相应的学习嵌入查找表中提取的。BERT以子字单元作为输入,这意味着一个字可能对应于BERT的多个隐藏状态。为了准确地使用这些隐藏状态来表示每个单词,我们将平均池化函数应用于BERT的输出。图4说明了从BERT生成单词级嵌入的过程。
编码器:编码器是一个多层双向的RNN网络:
解码嵌入层:和编码器嵌入层类似,这层的输出向量表示用于AMR节点。不同之处在于,每个向量是GloVe、POS标签、索引的嵌入以及来自CharCNN的特征向量的级联。
节点的POS标签是在运行时推断的:如果一个节点是输入句子的副本,则使用相应单词的POS标签;如果一个节点是前面节点的副本,则使用其先前节点的POS标签;如果一个节点是从词汇表中发出的新节点,则使用UNK标记。
我们在这一层中不包括BERT嵌入,因为AMR节点,尤其是它们的顺序,与自然语言文本(BERT是在其上预训练的)有很大不同。我们试图在这一层中使用“固定”的BERT,但没有带来改进。
4.2 深度Biaffine分类
对于第二阶段(即边缘预测),我们使用了一种深度biaffine分类器,该分类器最初被提出用于基于图的依赖解析(Dozat and Manning,2016),最近已被应用于语义解析(Peng et al.,2017a;Dozat and Manning,2018)。
如图5所示,我们使用的主要区别在于,我们没有重新编码AMR节点,而是直接使用来自扩展的指针生成器网络的解码器隐藏状态作为深度biaffine分类器的输入。我们发现使用解码器隐藏状态作为输入的两个优点:(1)通过输入馈送方法,解码器隐藏状态包含来自输入句子和预测节点的上下文信息;(2) 由于解码器隐藏状态用于节点预测和边预测,我们可以在我们的模型中联合训练这两个模块。
4.3 训练
4.4 预测
5、实验
实验数据集:AMR2.0(LDC2017T10)、AMR1.0(LDC2014T12)。
实验结果:
消融实验:
6、总结
我们提出了一种基于注意力的AMR解析模型,在该模型中,我们将一系列新的组件引入到转导设置中,这些组件超出了典型的NMT系统在这项任务中的作用。我们的模型在两个AMR语料库上取得了最好的性能。对于未来的工作,我们希望将我们的模型扩展到其他语义解析任务(Oepen et al, 2014; Abend and Rappoport, 2013)。我们还对跨语言环境中的语义解析感兴趣(Zhang et al, 2018; Damonte and Cohen, 2018)。