Abstract Meaning Representation Guided Graph Encoding and Decoding for Joint Information Extraction

论文：https://aclanthology.org/2021.naacl-main.4.pdf

代码：zhangzx-uiuc/AMR-IE: The code repository for AMR guided joint information extraction model (NAACL-2021). (github.com)

期刊/会议：NAACL2021

摘要

富语义解析的任务，如抽象语义表示(AMR)，与信息抽取(IE)具有相似的目标，即将自然语言文本转换为结构化的语义表示。为了利用这种相似性，我们提出了一种新的AMR引导框架，用于联合信息抽取，以在预先训练的AMR解析器的帮助下发现实体、关系和事件。该框架由两个新组件组成:1)基于AMR的语义图聚合器，让候选实体和事件触发词节点从AMR图中收集邻域信息，以便在相关知识元素之间传递消息;2) AMR引导图解码器，根据AMR中层次结构决定的顺序提取知识元素。在多个数据集上的实验表明，AMR图编码器和解码器提供了显著的增益，我们的方法在所有IE子任务上都达到了SOTA。

1、简介

信息提取(IE)旨在从非结构化自然语言文本中抽取结构化知识作为信息网络，而语义解析试图构建语义图来总结输入文本的含义。由于它们都侧重于从句子中抽取主要信息，因此输出信息网络和语义图在节点语义和边缘语义方面有很多共同之处。如图1所示的例子中，信息网络中的许多知识元素可以与语义图中具有相似语义的某些节点完美匹配。此外，这两种类型的图在网络拓扑结构方面也可能相似。更进一步来说，语义图中相邻或通过几跳连接(few hops)的节点在相应的信息网络中也可能彼此接近。在图1中，我们可以看到“Scott Peterson”作为两个事件触发词“murders”和“faces”的共享论元，也直接连接到语义图中的两个主要谓词murder-01和face-01。从全局的角度来看，信息网络可以近似地看作是语义解析的子图，其中IE节点大致是语义图中节点的一个子集，同时保持相似的相互连接。

为了进一步挖掘和利用这些相似性进行信息抽取，我们提出了一个直观有效的框架，利用语义解析中的信息，去抽取细胞系网络组成的实体、关系、事件触发词和事件论元。我们采用抽象语义表示(AMR)作为我们的输入语义图，AMR包含丰富的语义结构和细粒度的节点和边类型。与以往的IE模型相比，我们提出的模型主要由以下两个新颖的组成部分组成。

AMR-Guided Graph Encoding：AMR图拓扑可以直接告知IE模型一些知识元素之间的全局相互依赖关系，即使它们位于原始句子中很远的位置。这样的属性使IE模型更容易捕获一些非本地长距离连接，用于关系和事件论元角色标记。我们设计了一个基于图注意力网络(GAT)的语义图聚合器(semantic graph aggregator)，让候选实体和事件触发词节点聚合来自语义图的邻域信息，以便在相关知识元素之间传递消息。在我们的模型中使用的GAT架构是专门设计来允许节点和边缘特征之间的交互，从而可以有效地利用AMR中丰富的边类型。

AMR-Condition Graph Decoding：这两类图中的大量节点具有相似的含义，这使得在信息网络和语义图之间获得有意义的节点对齐成为可能。这种对齐提供了在联合IE模型的解码部分设计更有组织的方法的潜在机会。我们提出了一种新的**分层解码(hierarchical decoding)**方法，而不是像以前的模型(如OneIE)那样使用顺序解码，其中知识元素的类型根据它们在原始句子中的位置从左到右确定。我们使用AMR解析作为确定解码知识元素顺序的条件，其中节点和边基于语义图层次结构以树状顺序确定。

在多个数据集上的实验结果表明，我们提出的模型在所有IE子任务上都显著优于现有的技术。

2、问题描述

我们重点从输入句子中提取实体、关系、事件触发词及其论元，形成一个信息网络。请注意，我们模型中的AMR图不需要一定是对的(ground-truth)，而是由预先训练的AMR解析器生成的。因此，我们不包含额外的信息，我们的问题设置与典型的联合信息提取方法相同，如DyGIE++和OneIE。给定一个输入句子S = { w ₁ , w ₂, . . . , w _N} ，我们将我们的联合信息抽取问题表述如下。

实体抽取：实体提取的目的是将词跨度识别为实体提及，并将其分类为预定义的实体类型。给定实体类型集合E ，实体抽取任务是输出实体提及的集合ε :

a_i ,b_i ∈{1,2,...,N}指的是抽取的实体提及开始索引和结束索引，e _i表示的是实体的类型，在集合E中。如图1所示，实体提及“Scott Peterson”将被表示为(0,1PER)。

关系抽取：关系抽取的任务是将关系类型分配给所抽取实体中提到的每个可能的有序对。给定标识的实体提及E 和预定义的关系类型R ，关系集被抽取为

事件抽取：事件抽取的任务包括提取事件触发词及其论元。事件触发词提取是从事件类型集T TT中识别出最清楚地表明某一类型事件发生的单词或短语，可以表述为:

T = { T_i= ( p_i , q _i , t _i ) ∣ p_i ≤ q _i , t _i ∈ T }

p_i , q _i∈{1,2,...,N}指的是抽取出的事件提及开始位置索引和结束位置索引，t_i 为T 中的事件类型。给定预定义的事件论元集A ，事件论元抽取的任务是为每个触发词和实体对分配一个论元角色标签，以指示实体提及是否充当事件的某个特定角色，这被表述为抽取的论元集Λ

信息网络构建：所有这些抽取出来的知识元素组成了一个信息网络G = ( V , E ) (示例如图1所示)。每个节点v_i ∈ V 是一个实体提及或事件触发词，每个边e_i∈ E 表示一个关系或事件论元角色。因此，我们的问题可以表述为在给定输入句子S 的情况下生成一个信息网络G。

3、我们的方法

给定一个输入句子S，我们首先使用预训练的基于Transformer的AMR解析器来获得S 的AMR图。然后使用RoBERTa对每个句子进行编码，以识别实体提及和事件触发词作为候选节点。在此之后，我们将每个候选节点映射到AMR节点，并使用基于GAT的语义图聚合器强制消息传递，以捕获候选节点之间的全局相互依赖性。然后将所有候选节点及其成对边通过特定任务前馈神经网络来计算得分向量。在解码过程中，我们利用每个AMR图中的层次结构作为条件来决定beam search的顺序，并找到全局得分最高的最佳候选图。

3.1 AMR Parsing

3.2 实体和事件触发词识别

我们首先从输入语句中将实体提及和事件触发词识别为候选节点。与Lin等人类似，我们采用条件随机场(CRF)约束的前馈神经网络来识别实体提及和事件触发词的片段范围。

上下文编码：给定一个长度为N 的输入句子S = { w₁ , w ₂ , . . . , w _N } ，我们首先使用预训练好的RoBERTa编码器计算每个单词w _i的上下文单词表示x _i 。如果一个单词被RoBERTa tokenizer分割成多个片段，我们将所有单词片段的表示向量的平均值作为最终的单词表示。

3.3 语义图的聚合

为了充分利用AMR分析中共享的语义特征(semantic feature)和拓扑特征(topological feature)，我们设计了一个语义图聚合器(semantic graph aggregator)，使候选实体节点和事件节点能够基于AMR拓扑聚合来自其邻居的信息。

3.4 模型训练和解码

我们继承了OneIE中使用全局特征的方法，以强迫模型捕获关于全局交互的更多信息。信息网络G GG的全局分数g ( G ) 定义为局部分数c ( G )与全局特征f _G的贡献之和。

g ( G ) = c ( G ) + u ⋅ f _G

层级顺序解码：给定所有节点及其成对边的输出得分向量，最直接的方法是输出全局得分最高g ( G ) 的信息网络G 。由于利用了全局特征，搜索所有可能的信息网络可能会导致指数级的复杂性，因此我们采用了类似的基于波束搜索(beam search)的方法。与OneIE相比，我们创造性地结合了AMR层次结构，以确定更有组织的解码顺序，而不是简单的基于原始句子中的单词位置的左至右顺序。具体来说，给定节点及其与AMR的对齐关系，我们根据其对齐的AMR节点的位置自上而下地对这些节点进行排序，即首先解码离AMR根节点最近的对齐AMR节点。我们用一个例子来说明图3中的解码顺序。我们用U = { v ₁ , v ₂ , . . . , v _K} 表示已排序的标识触发词节点和实体节点，类似于Lin等人，我们从v ₁ 到v_K 一步一步地添加这些节点，每一步通过枚举新节点和其他现有节点成对边的类型来获得所有可能的子图。我们只保留每一步中最上面的θ 子图作为候选图，以避免指数复杂度，最后选择第K 步中全局得分g ( G ) 最高得分图作为输出。

4、实验

4.1 数据

ACE-2005、ERE-EN、GENIA。

4.2 实验设置

Baseline：DyGIE++、OneIE。

我们使用Adam在NVIDIA Tesla V100 GPU上训练模型80个epoch(一个训练epoch大约需要10分钟)，RoBERTa参数的学习率为1e-5，其他参数的学习率为5e-3。我们将消息传递水平γ设为0.001，这是一个相对较低的消息传递水平，因为我们发现过多的消息传递会导致节点失去自身的特征。我们使用两层语义图聚合器，节点的特征维数为2048，边的特征维数为256。对于其他超参数，我们保持它们与OneIE严格相同，以保证公平比较。具体来说，FFN由两层组成，dropout rate为0.4，隐藏单元的数量为150用于实体和关系抽取，600用于事件抽取，beam size设置为10。

4.3 总体效果

我们报告了我们的AMR-IE模型的性能，并将其与表3和表4中之前的方法进行了比较。总的来说，我们的AMR引导方法在包括实体、事件和关系抽取在内的所有IE子任务上都大大优于基线。在关系抽取和事件论元角色标注等边分类任务上，性能提升尤其显著，因为该模型借助外部AMR图结构可以更好地理解知识元素之间的关系。为了进一步显示模型中每个单独部分的帮助，我们引入了用于消融研究了模型的两种变体，并将结果显示在表3中。在没有Enc的AMR-IE中，我们去掉了语义图聚合器，只保留了有序的解码，而在没有Dec的AMR-IE中，我们保留了语义图聚合器，但使用了从左到右的统一解码顺序。从结果中，我们可以看到，仅仅结合图形编码器已经能够大幅提高所有IE子任务的性能，因为所识别的节点可以通过AMR拓扑上的消息传递捕获一些全局交互。此外，使用AMR引导的解码顺序可以进一步提高性能，特别是在事件论元抽取任务上。

4.4 消息传递的影响

我们还进行了参数敏感性分析，以公式(11)中定义的γ的影响，它控制了从AMR图中的邻居节点聚集多少信息。我们将这个参数从10−5更改为10，并在图4中显示了ACE-05E数据集上IE子任务的性能趋势。**我们可以发现，对于每个子任务，模型的性能都经历了一个上升趋势，随着消息传递级别的提高。然而，当γ 持续增加到10-2以上时，所有子任务的性能都将出现明显的下降。这种现象符合我们的直觉，因为被识别的节点可以通过消息传递从它们的AMR邻居收集有用的信息。但是，如果节点过多地关注它们的邻域信息，它们将失去一些自身固有的语义特征，从而导致性能下降。**此外，我们还可以看到，相对于实体和触发词抽取任务，关系和论元提取任务的性能随γ 的变化更为剧烈。这是因为边类型预测需要对所涉及的两个节点进行高质量的嵌入，这使得边类型预测任务对消息传递更加敏感。

4.5 问题分析

为了进一步理解我们提出的AMR引导编码和AMR条件解码方法如何帮助提高性能，我们从AMR-IE模型的输出中选择典型示例用于表5中的说明。

5、相关工作

最近的一些努力将依赖解析树(dependency parsing tree)纳入神经网络，用于事件抽取和关系抽取。对于语义角色标记(semantic role labeling,SRL)， Stanovsky和Dagan通过在两个任务之间创建映射，设法利用了SRL和开放域IE之间的相似性。Huang等人使用AMR作为IE模型的更简洁的输入格式，但他们将每个AMR分解为三元组，以捕获节点和边之间的局部上下文信息，而节点信息并没有在全局图拓扑中传播。Rao等人提出了一种基于子图匹配的方法来从AMR图中提取生物医学事件，而Li等人使用另一种基于GCN的编码器来获得更好的单词表示。

此外，图神经网络也被广泛用于事件抽取以及关系和实体抽取。图神经网络也证明了编码句子的其他类型的内在结构的有效性，例如知识图谱，文档级关，以及自构图。然而，所有这些方法都专注于单个IE任务，而不能扩展到提取包含实体、关系和事件的联合信息网络。

最近有一些研究专注于构建用于同时执行多个IE任务的联合神经模型，例如联合实体和关系抽取以及联合事件和实体抽取。DyGIE++设计了一个基于跨度图传播的联合模型来提取实体、事件和关系，而OneIE进一步利用全局特征来促进模型捕获更多的全局交互。与OneIE中的flat encoder相比，我们提出的框架利用语义图聚合器来合并来自细粒度AMR语义的信息，并在编码阶段强制执行全局交互。此外，我们创造性地使用AMR层次结构来决定知识元素的解码顺序，而不是简单的从左到右顺序解码器。与flat encoder相比，AMR引导的图编码器和解码器都被证明是非常有效的。

6、总结和未来工作

AMR解析和IE具有从非结构化文本构建语义图的相同目标。IE更关注目标本体，因此它的输出可以看作是AMR图的一个子集。在本文中，我们提出了两种直观而有效的方法，在编码和解码阶段利用AMR解析的指导来改进IE。在未来，我们计划将AMR图与实体共指图集成，使我们的IE框架可以扩展到文档级。

外部参考资料

全网首讲最详细AMR系统介绍（1）：Abstract Meaning Representation(AMR，抽象语义表示) 的基础表示逻辑；附英文版原 pdf 资料_暖仔会飞的博客-CSDN博客

NAACL2021 AMR-IE: Abstract Meaning Representation Guided Graph Encoding and Decoding for Joint IE

Abstract Meaning Representation Guided Graph Encoding and Decoding for Joint Information Extraction

摘要

1、简介

2、问题描述