CLEVE: Contrastive Pre-training for Event Extraction

论文：CLEVE: Contrastive Pre-training for Event Extraction (arxiv.org)

代码：THU-KEG/CLEVE: Source code for ACL 2021 paper “CLEVE: Contrastive Pre-training for Event Extraction” (github.com)

期刊/会议：ACL 2021

摘要

事件抽取(EE)通过微调从预训练的语言模型(PLMs)中受益匪浅。然而，现有的预训练方法没有涉及事件特征的建模，导致所开发的EE模型不能充分利用大规模无监督数据。为此，我们提出了CLEVE，一个用于EE的对比预训练框架，以更好地从自动解析器(例如AMR)去获得的大型无监督数据及其语义结构中学习事件知识。CLEVE分别包含一个学习事件语义的文本编码器和一个学习事件结构的图编码器。具体来说，文本编码器通过自监督对比学习来学习事件语义表示，使同一事件中的单词比不相关的单词表示得更近；图编码器通过对已解析的事件相关语义结构进行图对比预训练来学习事件结构表示。然后，这两种互补的表示形式一起工作以改进传统的监督EE和无监督的“自由(liberal)”EE，后者需要在没有任何标注数据的情况下联合抽取事件和发现事件模式。在ACE 2005和MAVEN数据集上的实验表明，CLEVE取得了显著的改进，特别是在具有挑战性的无监督环境中。

1、简介

事件抽取(Event extraction, EE)是一项长期存在的重要信息抽取任务，旨在从非结构化文本中抽取事件结构。如图1所示，它包含事件检测任务，用于识别事件触发词(单词“攻击(attack)”)和分类事件类型(攻击(Attack))，以及事件论元抽取任务，以识别作为事件论元的实体(“今天(today)”和“内坦亚(Netanya)”)，并对其论元角色(时间-内部(Time-within)和地点(Place))进行分类(Ahn, 2006)。通过明确地捕获文本中的事件结构，EE可以受益于各种下游任务，如信息检索(Glavas和Snajder, 2014)和知识库人口(Ji和Grishman, 2011)。

现有的EE方法主要遵循监督学习范式来训练高级神经网络(Chen et al, 2015;Nguyen等人，2016;Nguyen和Grishman, 2018)，使用人工标注数据集和预定义的事件模式。这些方法在许多公共基准测试中工作良好，如ACE 2005 (Walker et al, 2006)和TAC KBP (Ellis et al, 2016)，但它们仍然受到数据稀缺和有限的泛化性的影响。由于标注事件数据和定义事件模式特别昂贵且耗费大量人力，因此现有的EE数据集通常只包含数千个实例，覆盖有限的事件类型。因此，它们不足以训练大型神经模型(Wang et al, 2020)和开发可以推广到不断出现的新事件类型的方法(Huang和Ji, 2020)。

受到最近用于NLP任务的预训练语言模型(PLMs)成功的启发，一些开创性工作(Wang et al, 2019a;Wadden等人，2019)试图对EE的一般PLMs(例如BERT (Devlin等人，2019))进行微调。得益于从大规模无监督数据中学习到的强大的通用语言理解能力，这些基于PLM的方法在各种公共基准测试中取得了最先进的表现。

虽然利用无监督数据进行预训练已逐渐成为EE和NLP界的共识，但仍缺乏面向事件建模的预训练方法，以充分利用大规模无监督数据中丰富的事件知识。这里的关键挑战是找到合理的自我监督信号(Chen等人，2017;Wang等人，2019a)为事件的不同语义和复杂结构。幸运的是，之前的工作(Aguilar et al, 2014;Huang等人，2016)提出句子语义结构，如抽象语义表示(AMR) (Banarescu等人，2013)，包含广泛和多样的语义和结构信息与事件有关。如图1所示，解析的AMR结构不仅包括带标注的事件(攻击(Attack))，还包括ACE 2005模式中未定义的事件(报告(Report))。

考虑到大规模无监督数据的AMR结构可以很容易地通过自动解析器获得(Wang et al, 2015)，我们提出了CLEVE，一种面向事件的对比预训练框架，利用AMR结构构建自我监督信号。CLEVE由两个组件组成，包括学习事件语义的文本编码器和学习事件结构信息的图形编码器。具体而言，为了学习有效的事件语义表示，我们使用PLM作为文本编码器，并鼓励在AMR结构中由ARG、时间、位置边连接的词对的表示在语义空间中比其他不相关的词更接近，因为这些词对通常指的是相同事件的触发词论元对(如图1所示)(Huang et al, 2016)。这是通过对比学习来完成的，将连接的单词对作为积极样本，不相关的单词作为消极样本。此外，考虑到事件结构也有助于抽取事件(Lai et al, 2020)和推广到新的事件模式(Huang et al, 2018)，我们需要学习可转移的事件结构表示。因此，我们进一步引入图神经网络(GNN)作为图编码器，将AMR结构编码为结构表示。以AMR子图识别为目标，在大型无监督语料库的AMR结构上对图编码器进行对比预训练。

通过对下游EE数据集上的两个预训练模型进行微调，并联合使用这两种表示，CLEVE相对于传统的监督EE受益于数据稀缺。同时，预训练的表示也可以直接帮助抽取事件并发现新的事件模式，无需任何已知的事件模式或标注实例，从而具有更好的泛化性。这是一个具有挑战性的无监督设置，名为“自由事件抽取”(Huang et al, 2016)。在广泛使用的ACE 2005和大型MAVEN数据集上的实验表明，CLEVE在这两种设置下都可以实现显著的改进。

2、相关工作

事件抽取：现有的大部分EE著作都遵循监督学习范式。传统的EE方法(Ji和grisman, 2008;Gupta和Ji, 2009;Li等人，2013)依靠手工制作的特征来抽取事件。近年来，神经模型成为主流，通过神经网络自动学习有效特征，包括卷积神经网络(Nguyen and Grishman, 2015;Chen等人，2015)，循环神经网络(Nguyen等人，2016)，图卷积网络(Nguyen和grisman, 2018;Lai et al, 2020)。随着BERT最近的成功(Devlin et al, 2019)， PLMs也被用于EE (Wang et al, 2019a,b;Yang等，2019;Wadden等人，2019;Tong等人，2020)。虽然在ACE 2005 (Walker等人，2006)和类似数据集(Ellis等人，2015,2016;Getman等人，2017;Wang等人，2020)，这些基于PLM的工作只关注更好的微调，而不是EE的预训练。在本文中，我们研究了在大规模无监督数据中更好地利用丰富的事件知识的预训练。

事件模式归纳(event schema induction)。受监督的EE模型不能泛化到不断出现的新事件类型和论元角色。为此，Chambers和Jurafsky(2011)探索了通过无监督聚类从原始文本中诱导事件图式。接下来的工作介绍了更多的特征，如共指链(coreference chain)(Chambers, 2013)和实体(Nguyen et al, 2015;Sha等人，2016)。最近，Huang与ji(2020)允许使用已知类型的带标注数据的弱监督设置。继Huang等人(2016)之后，我们评估了CLEVE在最具挑战性的无监督“自由”设置中的泛化性，该设置要求同时仅从原始文本中诱导事件模式和抽取事件实例。

对比学习。对比学习是由Hadsell等人(2006)在直觉动机下提出的，学习“邻居”的相似表示和“非邻居”的不同表示，并进一步广泛用于各个领域的自监督表示学习，如计算机视觉(Wu等人，2018;Oord等人，2018;Hjelm等人，2019;Chen等，2020;He et al, 2020)和图表(Qiu et al, 2020;you等，2020;Zhu等，2020)。在NLP的背景下，许多已建立的表示学习工作可以被视为对比学习方法，如Word2Vec (Mikolov et al, 2013)， BERT (Devlin et al, 2019;Kong等人，2020)和ELECTRA (Clark等人，2020)。与这项工作类似，对比学习也被广泛用于帮助完成特定任务，包括问答(Y eh和Chen, 2019)、话语建模(Iter等人，2020)、自然语言推理(Cui等人，2020)和关系抽取(Peng等人，2020)。

3、方法

整个CLEVE框架如图2所示。如图2所示，我们的对比预训练框架CLEVE由两个部分组成:事件语义预训练和事件结构预训练，分别在章节3.2和章节3.3中介绍。在本节开始时，我们首先介绍3.1节中所需的预处理，包括AMR解析以及如何修改已解析的AMR结构以进行预训练。

3.1 预处理

CLEVE依赖于AMR结构(Banarescu et al, 2013)构建广泛而多样的自监督信号，用于从大规模无监督语料库中学习事件知识。为此，我们使用自动AMR解析器(Wang et al, 2015;Xu et al, 2020)将无监督语料库中的句子解析为AMR结构。每个AMR结构都是以概念为节点，语义关系为边的有向无环图。此外，每个节点通常最多只对应一个单词，多单词实体将表示为用名称(name)和op(连接运算符)边连接的节点列表。考虑到预训练实体表示自然有利于事件论元抽取，在事件语义和结构预训练期间，我们将这些列表合并为表示多词实体的单个节点(如图1中的“CNN‘s Kelly Wallace”)。形式化地，在无监督语料库中给定一个句子s ss，经过AMR解析后，我们得到它的AMR图g _s= ( V _s , E _s ) ，其中V_s 为词归并后的节点集，E _s 为边集。E _s = { ( u , v , r ) ∣ ( u , v ) ∈ V _s × V _s , r ∈ R } ，其中r 为已定义语义关系类型的集合。

3.2 事件语义预训练

为了在大型无监督语料库中建模不同的事件语义，并学习上下文化的事件语义表示，我们采用PLM作为文本编码器，并以区分各种触发词-论元对为目标训练它。

文本编码器：像大多数PLMs一样，由于其强大的表示能力，我们采用多层Transformer(Vaswani et al, 2017)作为文本编码器。给定一个句子s = { w₁ , w ₂ , … , w_n } 包含n 个令牌，我们将其送入多层Transformer，并使用最后一层的隐藏向量作为token表示。而且，节点v ∈ V_s可能对应于s中的一个多token文本跨度，我们需要在预训练中对该节点进行统一的表示。根据Baldini Soares等人(2019)的建议，我们分别在跨度的开始和结束处插入两个特殊的标记[E1]和[/E1]。然后我们使用[E1]的隐藏向量作为节点v 的span表示x _v ，并且我们对不同的节点使用不同的标记对。

由于我们的事件语义预训练侧重于事件语义建模，我们从一个训练有素的通用PLM开始预训练，以获得一般的语言理解能力。CLEVE对模型架构不可知，可以使用任何通用的PLM，如BERT (Devlin et al, 2019)和RoBERTa (Liu et al, 2019)。

触发词-论元对判别：针对事件语义预训练，我们设计了触发词-论元对判别作为对比预训练任务。其基本思想是学习在同一事件中表现相近的单词，而不是不相关的单词。我们注意到，AMR结构中由ARG、时间和位置边连接的词与事件中的触发词论元对非常相似(Huang et al, 2016,2018)，即触发事件的关键词和参与事件的实体。例如，在图1中，“内坦亚(Netanya)”是“攻击(attack)”事件的一个论元，而断开连接的“CNN’s Kelly Wallace”不是。有了这个观察，我们可以使用这些特殊的词对作为正触发词论元样本，并训练文本编码器将它们与负样本区分开来，这样编码器就可以学习在没有人工标注的情况下对事件语义建模。

为了学习区分正触发词论元对和负触发词论元对，从而建模事件语义，我们将正触发词论元对( t , a ) 的训练目标定义为正确分类正触发词论元对的交叉熵损失:

其中m _t , m _a 是负采样的超参数，W 是学习相似度度量的可训练矩阵。我们在这里采用交叉熵损失，因为它比其他对比损失形式更有效(Oord等人，2018;Chen等人，2020)。

然后将mini batchB _s 中所有句子s 的所有正对损失相加，得到事件语义预训练的总体训练目标:

其中θ 表示可训练参数，包括文本编码器和W 。

3.3 事件结构预训练

之前的工作表明，事件相关结构有助于抽取新事件(Lai et al, 2020)，以及发现和推广到新的事件图式(Huang et al, 2016,2018;Huang and Ji, 2020)。因此，我们在GNN上进行事件结构预训练作为图编码器，以学习可转移的事件相关结构表示，并使用图对比预训练的最新进展(Qiu et al .， 2020;you等，2020;Zhu等，2020)。具体地说，我们用AMR子图识别任务预训练图编码器。

图编码器：在CLEVE中，我们利用GNN对AMR(子)图进行编码，以抽取文本的事件结构信息。给定一个图g ，图编码器用图嵌入g = G ( g , { x _v } ) 表示它，其中G是图编码器，{ x _v } 表示输入到图编码器的初始节点表示。CLEVE与图形编码器的特定模型架构无关。在这里，我们使用最先进的GNN模型，图同构网络(Xu等人，2019)作为我们的图编码器，因为它具有强大的表示能力。

我们使用预训练文本编码器产生的对应的文本跨度表示{ x _v} 作为图编码器预训练和推断的初始节点表示(在第3.2节中介绍)。该节点初始化还隐式对齐了CLEVE中事件语义表示和结构表示的语义空间，从而使它们更好地协作。

AMR子图辨别：为了学习可迁移的事件结构表示，我们设计了用于事件结构预训练的AMR子图辨别任务。其基本思想是通过区分从其他AMR图中采样的子图来学习从同一AMR图中采样的子图的相似表示(Qiu et al, 2020)。

给定一批m 个AMR图{ g ₁ , g ₂ , … , g _m } ，每个图对应无监督语料库中的一个句子。对于第i 个图g _i ，我们从它随机抽取两个子图，得到一个正对a _{2 i − 1} 和a _{2 i} 。mini batch中从其他AMR图中采样的所有子图作为负样本。如图2所示，两个绿色(w/“攻击(attack)”)子图是一对正样本，而来自紫色(w/“士兵(solider)”)图的另外两个子图是负样本。这里我们使用了Qiu等人(2020)介绍的子图抽样策略，其详细信息见附录C。

与事件语义预训练类似，我们采用图编码器表示样本a _i= G ( a _i , x _v ) ，并将训练目标定义为:

l≠ 2 i − 1 ∈{0,1}是一个在j ≠ 2 i − 1时取值为1的指标函数，θ是图编码器的可训练参数。

4、实验

我们在EE的监督环境和无监督“自由”环境中评估我们的方法。

4.1 预训练设置

在详细的实验之前，我们介绍了CLEVE在实现中的预训练设置。我们采用New York Times Corpus(NYT)(Sandhaus, 2008)作为CLEVE的无监督预训练语料库。它包含了New York Times在1987年1月1日至2007年6月19日期间撰写和发表的180多万篇文章。我们只使用其原始文本，并使用最先进的AMR解析器获得AMR结构(Xu等人，2020)。我们选择NYT语料库是因为(1)它规模大且多样化，涵盖了广泛的事件语义，(2)它的文本域类似于我们的主要评估数据集ACE 2005，这是有帮助的(Gururangan et al .， 2020)。为了防止数据泄露，我们在预训练期间从纽约时报语料库中删除了ACE 2005中出现的所有文章。此外，我们还分别在第5.2节和第5.3节中研究了不同AMR解析器和预训练语料库的效果。

对于文本编码器，我们使用与RoBERTa (Liu et al, 2019)相同的模型架构，它具有24层，1024个隐藏维度和16个注意头，并且我们从释放的检查点开始我们的事件语义预训练。对于图编码器，我们采用了具有5层和64个隐藏维度的图同构网络(Xu et al, 2019)，并从头开始预训练。预训练和微调的详细超参数请参见附录D。

4.2 CLEVE的改进

由于我们的工作侧重于预训练，而不是EE的微调，我们使用直接和常见的技术来调整预训练的CLEVE以适应下游的EE任务。在监督设置中，我们采用动态多池化机制(Chen et al, 2015;Wang等，2019a,b)为文本编码器，并使用图编码器对相应的局部子图进行编码。我们连接两种表示形式作为特征和微调CLEVE在监督数据集上。在无监督的“自由”设置中，我们遵循Huang等人(2016)的整体管道方式，直接使用预训练CLEVE生成的表示作为所需的触发词/论元语义表示和事件结构表示。详情请参阅附录A。

4.3 监督的EE

数据集和评估：我们在最广泛使用的ACE 2005英语子集(Walker et al, 2006)和新构建的大规模MAVEN (Wang et al, 2020)数据集上评估我们的模型。ACE 2005包含599个英文文档，标注了8种事件类型、33种子类型和35个参数角色。MAVEN包含4,480个文档和168个事件类型，只能评估事件检测。在之前的EE工作之后，我们在2005年拆分了ACE (Liao和grihman, 2010;Li等，2013;Chen等人，2015)，并使用MAVEN的官方分割。EE性能通过两个子任务的性能进行评估:事件检测(ED)和事件论元抽取(EAE)。我们将precision §、recall ®和F1得分作为评价结果，其中F1是最全面的指标。

Baseline：我们对预训练的CLEVE进行了微调，并在没有事件语义预训练的情况下设置了原始RoBERTa作为重要基线。为了进行消融研究，我们在两个数据集上评估了CLEVE的两种变体:w/o语义模型采用没有事件语义预训练的vanilla RoBERTa作为文本编码器，w/o结构仅使用事件语义表示而没有事件结构预训练。

在ACE 2005上，我们设置了另外两个变量来调查CLEVE的有效性。用ACE 2005训练集的标准触发词-论元对和事件结构来代替NYT的AMR结构进行预训练。同样，利用ACE 2005训练集的AMR结构对on ACE (AMR)模型进行预训练。我们还将CLEVE与各种基线进行了比较，包括:(1)基于特征的方法，性能最好的JointBeam (Li et al, 2013);(2)vanilla神经模型DMCNN (Chen et al, 2015);(3)结合句法知识的模型dbRNN (Sha et al, 2018);(4) ED和EAE的最新模型，包括GatedGCN (Lai et al, 2020)和SemSynGTN (Pouran Ben Veyseh et al, 2020);(5)最先进的EE模型RCEE_ER (Liu等人，2020)，该模型用机器阅读理解(MRC)技术解决EE问题。最后四个模型采用PLM来学习表示。

在MAVEN上，我们将CLEVE与Wang等人(2020)设定的官方ED基线进行了比较，包括DMCNN (Chen等人，2015)、BiLSTM (Hochreiter和Schmidhuber, 1997)、BiLSTM+CRF、MOGANED (Y an等人，2019)、DMBERT (Wang等人，2019a)、BERT+CRF。

评估结果：评价结果如表1和表2所示。我们可以观察到:(1)在ACE 2005和MAVEN上，CLEVE对其基本模型RoBERTa都有了显著的改进。ED on ACE 2005、EAE on ACE 2005和ED on MAVEN的t检验p值分别为4×10−8、2×10−8和6 ×10−4。它也优于或达到与其他baseline的水平，包括那些使用依赖解析信息(dbRNN, GatedGCN, SemSynGTN和MOGANED)。这证明了我们提出的对比预训练方法和AMR语义结构的有效性。值得注意的是，RCEE ER在EAE中优于我们的方法，因为它的特殊优势是将EE重新定义为MRC任务，以利用复杂的MRC方法和大量标注的外部MRC数据。考虑到我们的方法本质上是一种学习更好的面向事件表示的预训练方法，CLEVE和RCEE ER自然可以一起工作来进一步提高EE。(2)消融研究(比较CLEVE及其w/o语义或结构表示变体)表明，事件语义预训练和事件结构预训练对我们的方法都是必不可少的。(3)对比CLEVE及其在ACE (golden)和ACE (AMR)上的变体，可以看出AMR解析与正确标注相比不可避免地会带来数据噪声，从而导致性能下降。然而，这种差距可以很容易地通过引入大量无监督数据和预训练来弥补。

4.4 无监督自由的EE

数据集和评估指标：ACE2005、MAVEN；precision§、recall®、F1 score。

Baseline：我们将CLEVE与再版LiberalEE (Huang et al, 2016)、RoBERTa和RoBERTa+VGAE进行了比较。这里的RoBERTa采用了原始的RoBERTa (Liu et al, 2019)，没有进行事件语义预训练，以与CLEVE相同的方式为触发词和论元候选生成语义表示，并对整个句子进行编码，使用句子嵌入(开始标记的嵌入)作为所需的事件结构表示。RoBERTa+VGAE还采用了无监督模型变分图自动编码器(VGAE) (Kipf和Welling, 2016)将AMR结构编码为事件结构表示。RoBERTa+VGAE与CLEVE共享类似的模型架构，但没有经过我们的预训练。特别地，为了与LiberalEE进行公平的比较，无监督实验中的所有模型都采用了相同的CAMR (Wang et al, 2015)作为AMR解析器，包括CLEVE预训练。此外，我们还研究了在监督环境下的CLEVE变体。w/o语义变体将CLEVE文本编码器替换为没有事件结构预训练的RoBERTa。w/o结构变体仅以与RoBERTa类似的方式使用CLEVE文本编码器。利用分析得到的ACE测试集的AMR结构对on ACE (AMR)模型进行预训练。如Huang等所示(2016)，在无监督的“自由”事件抽取任务上，AMR解析明显优于依赖项解析和框架语义解析，因此我们在实验中不包括使用其他句子结构的基线。

评估结果：自动评价结果如表3和表4所示。由于人工评估既费力又昂贵，我们只对CLEVE和ACE 2005中最具竞争力的基线LiberalEE进行人工评估，结果如表5所示。我们可以观察到:(1)CLEVE在事件实例抽取和事件模式发现方面均明显优于所有基线。(2) RoBERTa忽略结构信息。尽管RoBERTa+VAGE使用VGAE对事件结构进行编码，但RoBERTa的语义表示和VGAE的结构表示是不同的，因此不能很好地协同工作。因此，这两个模型甚至不如LiberalEE，而CLEVE的两个表示可以很好地协作来改进“自由”EE。(3)在消融研究中，在训练前丢弃事件结构导致的性能下降比在监督设置下要显著得多，这表明事件结构对于发现新的事件图式至关重要。

5、分析

在本节中，我们将研究预训练的好处如何随着可用的监督数据大小而变化。我们比较了CLEVE、RoBERTa和非预训练模型BiLSTM+CRF在不同比例随机采样的MAVEN训练数据上的ED性能，如图3所示。我们可以看到，当可获得的监督数据较少时，CLEVE与RoBERTa相比，以及预训练模型与非预训练模型相比的改进通常更大。它表明CLEVE对低资源EE任务特别有帮助，这是很常见的，因为使用了昂贵的事件标注。

5.2 有效的AMR解析器

CLEVE依靠自动AMR解析器为大型无监督数据构建自监督信号。直观地说，AMR解析器的性能将影响CLEVE的性能。为了分析不同AMR解析性能的影响，我们在表6中比较了在预训练期间使用已建立的CAMR (Wang et al, 2016)和新的最先进的解析器(Xu et al, 2020)的CLEVE模型的监督EE结果。我们可以直观地看到，更好的AMR解析器会带来更好的EE性能，但这种改进没有相应的AMR性能改进那么显著，这表明CLEVE通常对AMR解析中的错误具有鲁棒性。

5.3 有效的预训练领域

对相似文本域的预训练可能进一步提高相应下游任务的表现(Gururangan等人，2020;Gu等人，2020)。为了分析这种效果，我们在表7中评估了在NYT和English Wikipedia上预训练的CLEVE的监督情感表达表现。我们可以看到类似领域的预训练(NYT为ACE 2005, Wikipedia为MAVEN)肯定会使CLEVE在相应的数据集上受益。在ACE 2005上，尽管维基百科的大小是NYT的2.28倍，但在此基础上进行的CLEVE预训练的表现不如在NYT上进行的CLEVE预训练(在新闻领域都是如此)。此外，我们可以看到，领域内的好处主要来自CLEVE框架中的事件语义，而不是结构(从w/o语义和w/o结构结果之间的比较)。这表明我们可以为CLEVE开发以语义为重点的领域适应技术，并将其留给未来的工作。

6、总结和未来工作

在本文中，我们提出了CLEVE，一种用于事件抽取的对比预训练框架，以利用大量无监督数据中丰富的事件知识。在两个真实数据集上的实验表明，CLEVE在有监督和无监督的“自由”设置中都可以实现显著的改进。在未来，我们将(1)探索其他类型的语义结构，如框架语义;(2)尝试克服语义解析器在无监督数据中带来的噪声。

参考文献

AMR-IE：http://t.csdn.cn/Vk6VP

TSAR：http://t.csdn.cn/wXEAc

CLEVE：事件抽取的对比预训练

CLEVE: Contrastive Pre-training for Event Extraction

摘要

1、简介

2、相关工作