【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型

【论文原文】:Event Detection with Dual Relational Graph Attention Networks

【作者信息】:Jiaxin Mi and Po Hu and Peng Li

论文:https://aclanthology.org/2022.coling-1.172.pdf
代码:https://github.com/Macvh/DualGAT (未上传)

博主关键词:事件检测

推荐论文:无

640.png


摘要


事件检测旨在从文本片段中识别特定事件类型的实例,是信息提取中的基本任务。大多数现有方法利用语法知识和一系列语法关系来增强事件检测。然而,这些基于语法的方法的副作用是,它们可能混淆不同的语法关系,并倾向于引入冗余或噪声信息,这可能导致性能下降。为此,我们提出了一个简单而有效的模型DualGAT (Dual Relational Graph Attention Networks,对偶关系图注意力网络),该模型利用句法和语义关系的互补特性来缓解这一问题。具体地说,我们首先构造一个对偶关系图,它将语法和语义关系聚集到图中的关键节点上,这样就可以从多个透视图(即语法和语义视图)全面捕获事件相关的信息。然后采用增强关系图注意网络对图进行编码,并通过引入上下文信息优化其注意权重,进一步提高事件检测的性能。在标准ACE2005基准数据集上进行的大量实验表明,我们的方法显著优于最先进的方法,并验证了DualGAT优于现有基于语法的方法。


1、简介


如下图1所示,事件检测的目的是识别句子中的事件触发词thrust,并将其分类为Transport事件。事件检测具有大量的下游应用,是信息抽取的核心任务之一。

640.png

先前的事件抽取任务可以分为传统的基于特征的方法和深度学习方法,由于深度神经网络强大的特征抽取能力,深度神经网络方法已经超过了传统的基于特征的方法。近年来,大多数深度学习方法都更加注重在事件检测中利用句法关系。这些方法采用图神经网络(GNNs),如图卷积网络(GCNs)和图注意力网络(GATs)对依赖树进行编码,以学习单词的有效表示。由于依赖树为ED传递了丰富的语言信息,基于语法的方法通常能获得更好的性能(Xie et al, 2021)。

然而,现有的基于句法的方法仍有两个缺点需要解决。首先,依赖树不能总是简洁地捕获与触发词相关的显著信息,这可能包含靠近根节点的噪声依赖关系,并误导事件检测(Lai et al, 2020;Liu et al, 2021)。如图1所示,基于语法的事件检测方法错误地将红色标记的依赖项标识为Attack事件的触发词相关提示。由于troops和触发词候选striking与根节点distance有直接关系,基于GNN的方法容易更加关注它们,从而预测错误的触发词(Liu et al, 2021)。值得注意的是,在这种情况下,标记的蓝色依赖项与真正的触发词thrust密切相关,应该更加强调地加以利用。其次,完全依靠语法依赖树不足以完成事件检测。现有依赖项解析器的解析结果可能包含不正确的或弱相关的信息,由于可能的错误传播,这将不可避免地影响基于语法的事件检测方法的性能。此外,句法依赖树不能提供事件检测所需的所有语言知识。

针对上述问题,我们提出了一种新的DualGAT模型,该模型充分利用句法和语义信息来提高事件检测性能。受基于方面级依赖解析(Wang et al, 2020a)的启发,我们构造了一个包含句法和语义关系的对偶关系图,以捕获与触发词相关的信息。根据经验,句子中只有一小部分依赖关系是任务意识的(Zhang et al,2018;He et al, 2018)。因此,为了减少噪声关系的影响,我们剪枝与触发词候选没有直接连接的原始语法依赖项,并重建了句子中剩余单词与触发词候选之间的其他连接。除了句法信息外,我们还引入语义关系信息,使其根植于句子的谓语中。其次,采用增强关系图注意力网络对图进行编码,从句法和语义角度学习根节点的表示。特别地,我们引入了上下文信息来调整注意力权重,以减轻由于引入依赖解析器而可能丢失的信息。在标准ACE2005基准数据集上的实验结果表明,DualGAT在很大程度上优于最先进的方法。

本文最主要的贡献如下所示:

  • 我们构造了一个对偶关系图,将句法和语义关系收敛到图中的关键节点,可以从不同角度捕获重要的事件信息,减少句法解析器造成的信息丢失或噪声。
  • 采用增强关系图注意网络对图进行编码,并通过引入上下文信息优化其注意权重。
  • 实验结果进一步验证了DualGAT相对于现有方法的优越性。DualGA T通过最先进的基于语法的方法实现了F1分数的5%改进。


2、相关工作


近年来,事件检测受到了广泛的关注。传统的事件检测方法使用手工制作的语言特征进行事件检测,例如词汇特征、句法特征或实体特征(Hong et al, 2011; Ahn, 2006)。然而,设计这些特性非常耗时,而且不容易适应其他任务或新的领域。

随着神经网络的快速发展,一系列的神经事件检测方法被提出。许多研究人员将新的学习策略应用于事件检测,例如利用弱监督学习策略来生成更多的标记数据,以提高事件检测的性能(Zeng et al, 2018; Yang et al, 2018)。Wang等人(2019)采用对抗性训练机制来获得多样化和准确的训练数据。Lu等人(2019)提出了一种基于知识蒸馏的方法,以在稀疏标记的触发词上获得更好的性能。最近提出的一些方法引入了额外的知识,通过开放领域触发词知识(Tong et al, 2020)、实体知识(Liu et al, 2019)和语法依赖关系(Yan et al, 2019)来改进事件检测。

依赖关系的有效性已在许多自然语言处理(NLP)任务中得到验证,如情感分析(Wang et al, 2020a)和关系提取(He et al, 2018)。由于句法和结构信息丰富,句法依赖关系在事件检测中也发挥着重要作用(Liu et al, 2018b)。例如,Yan等人(2019)利用句子中的多阶句法关系来获得更好的触发词表示。Lv等人(2021)集成语法和文档信息,以便更好地检测事件。Cui等人(2020)提出了一个模型来进一步探索依赖关系的类型信息,以获取任务感知知识。由于现有的基于图的模型引入了许多不确定触发词的表示,Lai等人(2020)提出通过门控机制过滤噪声信息。由于gnn和句法依赖树的有效结合,这些基于句法的事件检测方法总体性能优于普通的深度学习方法。

虽然这些作品使用了相似的句法信息,但很少有从新的角度对原始图进行重塑,以便于获取与事件相关的显著信息。原始依赖树包含丰富的结构和语言知识,但它可能不准确,并且包含与事件无关的信息。此外,据我们所知,还没有基于语法的方法显式地使用语义信息来补充用于事件检测的语法信息。为此,我们提出了DualGAT,它同时考虑了语法和语义关系以及上下文信息来进行事件检测。


3、方法


3.1 方法总览

DualGAT的整体架构如图2所示,由三个主要组成部分组成:(1)关系图构造器(§3.2),通过依赖关系解析和语义角色标记来构造对偶关系图;(2)增强关系图注意网络(Augmented Relational Graph Attention Networks,§3.3),在注意权重的适应中引入额外的上下文信息,并对对偶关系图进行编码,从句法和语义角度获得根节点的表示;(3)事件检测器(§3.4),利用Biaffine模块在句法和语义表示之间交换相关特征,并执行事件检测。

640.png

3.2 关系图构建

3.2.1 对偶关系图

现有的方法受到噪声依赖关系的干扰,并倾向于学习无关的触发词表示(Lai et al, 2020)。由于候选触发词是事件检测任务的重点,这些与触发词无关的噪声信息不可避免地会影响性能。此外,现有依赖解析器的解析结果可能包含不正确的或弱相关的信息,这限制了事件检测的性能。

许多工作已经证明,只有一小部分句法关系是任务感知的(Zhang et al, 2018;He et al, 2018),识别触发词是事件检测任务的核心。因此,我们认为,更多地关注与触发词候选直接关联的句法关系可以减少错误句法关系的影响。此外,语义和句法知识的互补性在相关的NLP任务中得到了利用和验证,如关系提取(Bovi et al, 2015)和实体提取(Chan and Roth, 2011)。我们相信语义关系可以弥补句法关系的不足,减少对依赖解析器的依赖。

为此,我们构建了一个对偶关系图结构,它将句法关系合并到触发词候选中,并且聚合谓词动词的语义关系,以提高图的鲁棒性。算法1描述了对偶关系图的构造过程。我们首先利用依赖解析器获得给定句子的原始语法关系。然后,我们保留直接连接到触发词候选对象的语法关系,并修剪剩余的关系。为了提高图的鲁棒性,我们进一步将修剪后的关系替换为具有触发词候选的按距离分类的虚拟关系。具体来说,虚拟关系的类型定义为,其中表示单词与触发词候选之间的距离。最后,我们进行语义角色标注,在其他词和谓语动词之间附加语义关系,并执行与上述相同的过程。

640.png

经过上述处理得到的图就是对偶关系图。它有两个相同级别的子图:语法关系子图,将语法信息收敛到触发词候选;语义关系子图,将语义信息收敛到谓语动词。形式上,我们将对偶关系图定义为G=(V,E)与边型映射函数τ:E→TE相关。V表示句子中的单词节点集合,E表示关系边集合。TE表示所有类型的关系,包括句法关系、语义关系和虚拟关系。将单词节点和单词节点之间的关系边定义为eij


3.2.2 对偶关系图的优势

对偶关系图在事件检测方面具有独特的优势。首先,为每个触发词候选对象定制对偶关系图,减少引入噪声的触发词未知信息;其次,基于谓语动词的语义关系可以提高对偶关系图的鲁棒性。第三,双关系图结构有利于事件检测模型捕获任务感知信息。我们使用三个简单的示例来说明上述优点,如图3所示。

640.png

首先,例子(a)和例子(b)是两个自定义的对偶关系图,用于同一句中不同的触发词候选。现有的方法倾向于将striking识别为Attack事件的触发词,因为在原始依赖树中,strickingenemytroops之间存在很强的关联。而“striking”的对偶关系图,则剪去了“trigger-不可知论”的关系,清楚地说明了stricking只是distance的形容词修饰语(amod)。此外,thrust的对偶关系图可以帮助ED模型捕捉到它与throughmake的联系,而不受原始依赖树中噪声依赖关系的干扰。因此,ED方法倾向于将thrust识别为Transport事件的触发词,而不是striking

此外,例(c)可以说明语义关系的重要性。例(c)中,紫色箭头为原句法关系,橙色箭头为对偶关系图的附加语义关系。基于原有的句法关系,ED方法倾向于将War识别为Attack事件的触发词,因为WarWin之间有很强的联系。即使剔除了触发词无关的句法关系,正确的触发词Former仍然不能得到足够的重视。而语义关系可以使深层语义信息从now流向Former。“ARGM-TMP”关系引入了时间信息,以帮助识别Former作为结束位置事件的触发词。

最后,如例(a)和(b)所示,对偶关系图没有复杂的相互作用。对偶关系图的结构清晰且聚合。它可以减少噪声相互作用的干扰,降低ED模型捕获触发词相关信息的难度。


3.3 增强关系图注意力网络

为了更有效地编码用于事件检测的二元关系图,我们提出了一种增强关系图注意网络(ARGAT),通过引入额外的上下文信息来编码由句子中的单词构建的图。

3.3.3 图注意力网络

图神经网络(Scarselli et al, 2009)已被广泛用于编码事件检测的依赖树,因为它们可以基于信息聚合方案有效地捕获相关信息(Cao et al, 2021)。此外,大量工作表明,图卷积网络(Schlichtkrull et al, 2018)不能有效利用多跳关系信息(Yan et al, 2019)。直观地说,事件检测任务的核心是捕获带有触发词候选词的相关单词。因此,我们应用图注意力网络(Velickovic et al, 2018),它可以更有效地利用单词之间的关系来编码对偶关系图。

image.png

image.png

image.png

3.3.2 AR-GAT

关系图注意力网络(Wang et al, 2020a)扩展了原始图注意力网络,增加了额外的头部,以利用边缘的类型信息。然而,关系图注意力网络与对偶关系图的编码并不完全兼容。一方面,最初生成的原始句法和语义关系可能是错误的。另一方面,在对偶关系图的构造过程中,重塑和修剪可能进一步导致源于解析器的错误传播。因此,关系头不足以准确控制来自邻近节点的信息流。

为了克服上述问题,我们建议从单词节点引入额外的上下文信息,以更准确地控制信息流。因子分解机制的效果已经在许多任务中得到了证明(Guo et al, 2017)。受到因子分解机制的启发,我们应用了一个内积单元用于组合上下文信息和类型信息。

image.png

3.4 事件检测

image.png


4、实验


数据集:ACE2005。

评估指标:precision,recall,f1.

baseline

  • 基于句法的模型:GCN-ED,SA-GRCN,EE-GCN,GatedGCN。
  • 基于外部知识的方法:PLMEE,DNR,SS-JDN。

实验结果

640.png

消融实验

640.png

5、总结


在本文中,我们提出了一个简单而有效的模型DualGAT (Dual Relational Graph Attention Networks,双关系图注意网络),以解决基于语法的事件检测任务方法的缺点。为了便于从句子的不同角度准确捕捉关键信息,我们设计了一个对偶关系图,它将句法和语义关系聚集到图中的关键节点上。为了有效地编码二元关系图,我们提出了增强关系图注意网络,引入上下文信息来计算更健壮的注意力权重。实验结果表明,该方法具有较好的性能。

我们打算在未来进一步探讨我们工作的几个方面。首先,我们将改进语义信息引入的方式。其次,我们将开发一种更有效的方法来融合句法和语义信息。第三,我们将探讨增强关系图注意力网络在其他任务中的作用。

相关文章
|
11天前
|
机器学习/深度学习 数据可视化 测试技术
YOLO11实战:新颖的多尺度卷积注意力(MSCA)加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点,解决不涨点掉点等问题
本文探讨了创新点在自定义数据集上表现不稳定的问题,分析了不同数据集和网络位置对创新效果的影响。通过在YOLO11的不同位置引入MSCAAttention模块,展示了三种不同的改进方案及其效果。实验结果显示,改进方案在mAP50指标上分别提升了至0.788、0.792和0.775。建议多尝试不同配置,找到最适合特定数据集的解决方案。
126 0
|
10天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于BP神经网络的苦瓜生长含水量预测模型matlab仿真
本项目展示了基于BP神经网络的苦瓜生长含水量预测模型,通过温度(T)、风速(v)、模型厚度(h)等输入特征,预测苦瓜的含水量。采用Matlab2022a开发,核心代码附带中文注释及操作视频。模型利用BP神经网络的非线性映射能力,对试验数据进行训练,实现对未知样本含水量变化规律的预测,为干燥过程的理论研究提供支持。
|
9天前
|
网络协议 前端开发 Java
网络协议与IO模型
网络协议与IO模型
网络协议与IO模型
|
9天前
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
18 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
9天前
|
机器学习/深度学习 编解码 算法
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
MobileNetV3是谷歌为移动设备优化的神经网络模型,通过神经架构搜索和新设计计算块提升效率和精度。它引入了h-swish激活函数和高效的分割解码器LR-ASPP,实现了移动端分类、检测和分割的最新SOTA成果。大模型在ImageNet分类上比MobileNetV2更准确,延迟降低20%;小模型准确度提升,延迟相当。
29 1
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
|
9天前
|
机器学习/深度学习 网络架构 计算机视觉
目标检测笔记(一):不同模型的网络架构介绍和代码
这篇文章介绍了ShuffleNetV2网络架构及其代码实现,包括模型结构、代码细节和不同版本的模型。ShuffleNetV2是一个高效的卷积神经网络,适用于深度学习中的目标检测任务。
37 1
目标检测笔记(一):不同模型的网络架构介绍和代码
|
5天前
|
监控 安全 Linux
网络安全事件应急响应
应急响应是针对网络安全事件的快速处理流程,包括信息收集、事件判断、深入分析、清理处置、报告产出等环节。具体步骤涵盖准备、检测、抑制、根除、恢复和总结。
|
4天前
|
机器学习/深度学习 算法 数据挖掘
【深度学习】经典的深度学习模型-02 ImageNet夺冠之作: 神经网络AlexNet
【深度学习】经典的深度学习模型-02 ImageNet夺冠之作: 神经网络AlexNet
10 2
|
9天前
|
编解码 人工智能 文件存储
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
YOLOv7是一种新的实时目标检测器,通过引入可训练的免费技术包和优化的网络架构,显著提高了检测精度,同时减少了参数和计算量。该研究还提出了新的模型重参数化和标签分配策略,有效提升了模型性能。实验结果显示,YOLOv7在速度和准确性上超越了其他目标检测器。
24 0
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
|
11天前
|
缓存 Java Linux
硬核图解网络IO模型!
硬核图解网络IO模型!