【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介: 【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型

【论文原文】:Event Detection with Dual Relational Graph Attention Networks

【作者信息】:Jiaxin Mi and Po Hu and Peng Li

论文:https://aclanthology.org/2022.coling-1.172.pdf
代码:https://github.com/Macvh/DualGAT (未上传)

博主关键词:事件检测

推荐论文:无

640.png


摘要


事件检测旨在从文本片段中识别特定事件类型的实例,是信息提取中的基本任务。大多数现有方法利用语法知识和一系列语法关系来增强事件检测。然而,这些基于语法的方法的副作用是,它们可能混淆不同的语法关系,并倾向于引入冗余或噪声信息,这可能导致性能下降。为此,我们提出了一个简单而有效的模型DualGAT (Dual Relational Graph Attention Networks,对偶关系图注意力网络),该模型利用句法和语义关系的互补特性来缓解这一问题。具体地说,我们首先构造一个对偶关系图,它将语法和语义关系聚集到图中的关键节点上,这样就可以从多个透视图(即语法和语义视图)全面捕获事件相关的信息。然后采用增强关系图注意网络对图进行编码,并通过引入上下文信息优化其注意权重,进一步提高事件检测的性能。在标准ACE2005基准数据集上进行的大量实验表明,我们的方法显著优于最先进的方法,并验证了DualGAT优于现有基于语法的方法。


1、简介


如下图1所示,事件检测的目的是识别句子中的事件触发词thrust,并将其分类为Transport事件。事件检测具有大量的下游应用,是信息抽取的核心任务之一。

640.png

先前的事件抽取任务可以分为传统的基于特征的方法和深度学习方法,由于深度神经网络强大的特征抽取能力,深度神经网络方法已经超过了传统的基于特征的方法。近年来,大多数深度学习方法都更加注重在事件检测中利用句法关系。这些方法采用图神经网络(GNNs),如图卷积网络(GCNs)和图注意力网络(GATs)对依赖树进行编码,以学习单词的有效表示。由于依赖树为ED传递了丰富的语言信息,基于语法的方法通常能获得更好的性能(Xie et al, 2021)。

然而,现有的基于句法的方法仍有两个缺点需要解决。首先,依赖树不能总是简洁地捕获与触发词相关的显著信息,这可能包含靠近根节点的噪声依赖关系,并误导事件检测(Lai et al, 2020;Liu et al, 2021)。如图1所示,基于语法的事件检测方法错误地将红色标记的依赖项标识为Attack事件的触发词相关提示。由于troops和触发词候选striking与根节点distance有直接关系,基于GNN的方法容易更加关注它们,从而预测错误的触发词(Liu et al, 2021)。值得注意的是,在这种情况下,标记的蓝色依赖项与真正的触发词thrust密切相关,应该更加强调地加以利用。其次,完全依靠语法依赖树不足以完成事件检测。现有依赖项解析器的解析结果可能包含不正确的或弱相关的信息,由于可能的错误传播,这将不可避免地影响基于语法的事件检测方法的性能。此外,句法依赖树不能提供事件检测所需的所有语言知识。

针对上述问题,我们提出了一种新的DualGAT模型,该模型充分利用句法和语义信息来提高事件检测性能。受基于方面级依赖解析(Wang et al, 2020a)的启发,我们构造了一个包含句法和语义关系的对偶关系图,以捕获与触发词相关的信息。根据经验,句子中只有一小部分依赖关系是任务意识的(Zhang et al,2018;He et al, 2018)。因此,为了减少噪声关系的影响,我们剪枝与触发词候选没有直接连接的原始语法依赖项,并重建了句子中剩余单词与触发词候选之间的其他连接。除了句法信息外,我们还引入语义关系信息,使其根植于句子的谓语中。其次,采用增强关系图注意力网络对图进行编码,从句法和语义角度学习根节点的表示。特别地,我们引入了上下文信息来调整注意力权重,以减轻由于引入依赖解析器而可能丢失的信息。在标准ACE2005基准数据集上的实验结果表明,DualGAT在很大程度上优于最先进的方法。

本文最主要的贡献如下所示:

  • 我们构造了一个对偶关系图,将句法和语义关系收敛到图中的关键节点,可以从不同角度捕获重要的事件信息,减少句法解析器造成的信息丢失或噪声。
  • 采用增强关系图注意网络对图进行编码,并通过引入上下文信息优化其注意权重。
  • 实验结果进一步验证了DualGAT相对于现有方法的优越性。DualGA T通过最先进的基于语法的方法实现了F1分数的5%改进。


2、相关工作


近年来,事件检测受到了广泛的关注。传统的事件检测方法使用手工制作的语言特征进行事件检测,例如词汇特征、句法特征或实体特征(Hong et al, 2011; Ahn, 2006)。然而,设计这些特性非常耗时,而且不容易适应其他任务或新的领域。

随着神经网络的快速发展,一系列的神经事件检测方法被提出。许多研究人员将新的学习策略应用于事件检测,例如利用弱监督学习策略来生成更多的标记数据,以提高事件检测的性能(Zeng et al, 2018; Yang et al, 2018)。Wang等人(2019)采用对抗性训练机制来获得多样化和准确的训练数据。Lu等人(2019)提出了一种基于知识蒸馏的方法,以在稀疏标记的触发词上获得更好的性能。最近提出的一些方法引入了额外的知识,通过开放领域触发词知识(Tong et al, 2020)、实体知识(Liu et al, 2019)和语法依赖关系(Yan et al, 2019)来改进事件检测。

依赖关系的有效性已在许多自然语言处理(NLP)任务中得到验证,如情感分析(Wang et al, 2020a)和关系提取(He et al, 2018)。由于句法和结构信息丰富,句法依赖关系在事件检测中也发挥着重要作用(Liu et al, 2018b)。例如,Yan等人(2019)利用句子中的多阶句法关系来获得更好的触发词表示。Lv等人(2021)集成语法和文档信息,以便更好地检测事件。Cui等人(2020)提出了一个模型来进一步探索依赖关系的类型信息,以获取任务感知知识。由于现有的基于图的模型引入了许多不确定触发词的表示,Lai等人(2020)提出通过门控机制过滤噪声信息。由于gnn和句法依赖树的有效结合,这些基于句法的事件检测方法总体性能优于普通的深度学习方法。

虽然这些作品使用了相似的句法信息,但很少有从新的角度对原始图进行重塑,以便于获取与事件相关的显著信息。原始依赖树包含丰富的结构和语言知识,但它可能不准确,并且包含与事件无关的信息。此外,据我们所知,还没有基于语法的方法显式地使用语义信息来补充用于事件检测的语法信息。为此,我们提出了DualGAT,它同时考虑了语法和语义关系以及上下文信息来进行事件检测。


3、方法


3.1 方法总览

DualGAT的整体架构如图2所示,由三个主要组成部分组成:(1)关系图构造器(§3.2),通过依赖关系解析和语义角色标记来构造对偶关系图;(2)增强关系图注意网络(Augmented Relational Graph Attention Networks,§3.3),在注意权重的适应中引入额外的上下文信息,并对对偶关系图进行编码,从句法和语义角度获得根节点的表示;(3)事件检测器(§3.4),利用Biaffine模块在句法和语义表示之间交换相关特征,并执行事件检测。

640.png

3.2 关系图构建

3.2.1 对偶关系图

现有的方法受到噪声依赖关系的干扰,并倾向于学习无关的触发词表示(Lai et al, 2020)。由于候选触发词是事件检测任务的重点,这些与触发词无关的噪声信息不可避免地会影响性能。此外,现有依赖解析器的解析结果可能包含不正确的或弱相关的信息,这限制了事件检测的性能。

许多工作已经证明,只有一小部分句法关系是任务感知的(Zhang et al, 2018;He et al, 2018),识别触发词是事件检测任务的核心。因此,我们认为,更多地关注与触发词候选直接关联的句法关系可以减少错误句法关系的影响。此外,语义和句法知识的互补性在相关的NLP任务中得到了利用和验证,如关系提取(Bovi et al, 2015)和实体提取(Chan and Roth, 2011)。我们相信语义关系可以弥补句法关系的不足,减少对依赖解析器的依赖。

为此,我们构建了一个对偶关系图结构,它将句法关系合并到触发词候选中,并且聚合谓词动词的语义关系,以提高图的鲁棒性。算法1描述了对偶关系图的构造过程。我们首先利用依赖解析器获得给定句子的原始语法关系。然后,我们保留直接连接到触发词候选对象的语法关系,并修剪剩余的关系。为了提高图的鲁棒性,我们进一步将修剪后的关系替换为具有触发词候选的按距离分类的虚拟关系。具体来说,虚拟关系的类型定义为,其中表示单词与触发词候选之间的距离。最后,我们进行语义角色标注,在其他词和谓语动词之间附加语义关系,并执行与上述相同的过程。

640.png

经过上述处理得到的图就是对偶关系图。它有两个相同级别的子图:语法关系子图,将语法信息收敛到触发词候选;语义关系子图,将语义信息收敛到谓语动词。形式上,我们将对偶关系图定义为G=(V,E)与边型映射函数τ:E→TE相关。V表示句子中的单词节点集合,E表示关系边集合。TE表示所有类型的关系,包括句法关系、语义关系和虚拟关系。将单词节点和单词节点之间的关系边定义为eij


3.2.2 对偶关系图的优势

对偶关系图在事件检测方面具有独特的优势。首先,为每个触发词候选对象定制对偶关系图,减少引入噪声的触发词未知信息;其次,基于谓语动词的语义关系可以提高对偶关系图的鲁棒性。第三,双关系图结构有利于事件检测模型捕获任务感知信息。我们使用三个简单的示例来说明上述优点,如图3所示。

640.png

首先,例子(a)和例子(b)是两个自定义的对偶关系图,用于同一句中不同的触发词候选。现有的方法倾向于将striking识别为Attack事件的触发词,因为在原始依赖树中,strickingenemytroops之间存在很强的关联。而“striking”的对偶关系图,则剪去了“trigger-不可知论”的关系,清楚地说明了stricking只是distance的形容词修饰语(amod)。此外,thrust的对偶关系图可以帮助ED模型捕捉到它与throughmake的联系,而不受原始依赖树中噪声依赖关系的干扰。因此,ED方法倾向于将thrust识别为Transport事件的触发词,而不是striking

此外,例(c)可以说明语义关系的重要性。例(c)中,紫色箭头为原句法关系,橙色箭头为对偶关系图的附加语义关系。基于原有的句法关系,ED方法倾向于将War识别为Attack事件的触发词,因为WarWin之间有很强的联系。即使剔除了触发词无关的句法关系,正确的触发词Former仍然不能得到足够的重视。而语义关系可以使深层语义信息从now流向Former。“ARGM-TMP”关系引入了时间信息,以帮助识别Former作为结束位置事件的触发词。

最后,如例(a)和(b)所示,对偶关系图没有复杂的相互作用。对偶关系图的结构清晰且聚合。它可以减少噪声相互作用的干扰,降低ED模型捕获触发词相关信息的难度。


3.3 增强关系图注意力网络

为了更有效地编码用于事件检测的二元关系图,我们提出了一种增强关系图注意网络(ARGAT),通过引入额外的上下文信息来编码由句子中的单词构建的图。

3.3.3 图注意力网络

图神经网络(Scarselli et al, 2009)已被广泛用于编码事件检测的依赖树,因为它们可以基于信息聚合方案有效地捕获相关信息(Cao et al, 2021)。此外,大量工作表明,图卷积网络(Schlichtkrull et al, 2018)不能有效利用多跳关系信息(Yan et al, 2019)。直观地说,事件检测任务的核心是捕获带有触发词候选词的相关单词。因此,我们应用图注意力网络(Velickovic et al, 2018),它可以更有效地利用单词之间的关系来编码对偶关系图。

image.png

image.png

image.png

3.3.2 AR-GAT

关系图注意力网络(Wang et al, 2020a)扩展了原始图注意力网络,增加了额外的头部,以利用边缘的类型信息。然而,关系图注意力网络与对偶关系图的编码并不完全兼容。一方面,最初生成的原始句法和语义关系可能是错误的。另一方面,在对偶关系图的构造过程中,重塑和修剪可能进一步导致源于解析器的错误传播。因此,关系头不足以准确控制来自邻近节点的信息流。

为了克服上述问题,我们建议从单词节点引入额外的上下文信息,以更准确地控制信息流。因子分解机制的效果已经在许多任务中得到了证明(Guo et al, 2017)。受到因子分解机制的启发,我们应用了一个内积单元用于组合上下文信息和类型信息。

image.png

3.4 事件检测

image.png


4、实验


数据集:ACE2005。

评估指标:precision,recall,f1.

baseline

  • 基于句法的模型:GCN-ED,SA-GRCN,EE-GCN,GatedGCN。
  • 基于外部知识的方法:PLMEE,DNR,SS-JDN。

实验结果

640.png

消融实验

640.png

5、总结


在本文中,我们提出了一个简单而有效的模型DualGAT (Dual Relational Graph Attention Networks,双关系图注意网络),以解决基于语法的事件检测任务方法的缺点。为了便于从句子的不同角度准确捕捉关键信息,我们设计了一个对偶关系图,它将句法和语义关系聚集到图中的关键节点上。为了有效地编码二元关系图,我们提出了增强关系图注意网络,引入上下文信息来计算更健壮的注意力权重。实验结果表明,该方法具有较好的性能。

我们打算在未来进一步探讨我们工作的几个方面。首先,我们将改进语义信息引入的方式。其次,我们将开发一种更有效的方法来融合句法和语义信息。第三,我们将探讨增强关系图注意力网络在其他任务中的作用。

相关文章
|
2月前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
69 3
|
3天前
|
运维 监控 安全
公司监控软件:SAS 数据分析引擎驱动网络异常精准检测
在数字化商业环境中,企业网络系统面临复杂威胁。SAS 数据分析引擎凭借高效处理能力,成为网络异常检测的关键技术。通过统计分析、时间序列分析等方法,SAS 帮助企业及时发现并处理异常流量,确保网络安全和业务连续性。
23 11
|
2天前
|
监控 安全 BI
什么是零信任模型?如何实施以保证网络安全?
随着数字化转型,网络边界不断变化,组织需采用新的安全方法。零信任基于“永不信任,永远验证”原则,强调无论内外部,任何用户、设备或网络都不可信任。该模型包括微分段、多因素身份验证、单点登录、最小特权原则、持续监控和审核用户活动、监控设备等核心准则,以实现强大的网络安全态势。
|
1月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
|
1月前
|
安全 Linux 网络安全
nmap 是一款强大的开源网络扫描工具,能检测目标的开放端口、服务类型和操作系统等信息
nmap 是一款强大的开源网络扫描工具,能检测目标的开放端口、服务类型和操作系统等信息。本文分三部分介绍 nmap:基本原理、使用方法及技巧、实际应用及案例分析。通过学习 nmap,您可以更好地了解网络拓扑和安全状况,提升网络安全管理和渗透测试能力。
121 5
|
1月前
|
存储 网络协议 安全
30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场
本文精选了 30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场。
83 2
|
1月前
|
运维 网络协议 算法
7 层 OSI 参考模型:详解网络通信的层次结构
7 层 OSI 参考模型:详解网络通信的层次结构
106 1
|
1月前
|
机器学习/深度学习 搜索推荐 安全
深度学习之社交网络中的社区检测
在社交网络分析中,社区检测是一项核心任务,旨在将网络中的节点(用户)划分为具有高内部连接密度且相对独立的子群。基于深度学习的社区检测方法,通过捕获复杂的网络结构信息和节点特征,在传统方法基础上实现了更准确、更具鲁棒性的社区划分。
72 7
|
1月前
|
网络协议 算法 网络性能优化
计算机网络常见面试题(一):TCP/IP五层模型、TCP三次握手、四次挥手,TCP传输可靠性保障、ARQ协议
计算机网络常见面试题(一):TCP/IP五层模型、应用层常见的协议、TCP与UDP的区别,TCP三次握手、四次挥手,TCP传输可靠性保障、ARQ协议、ARP协议
|
1月前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
85 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
下一篇
DataWorks