图注意力网络

简介: 图注意力网络

论文标题:GRAPH ATTENTION NETWORKS


论文链接:https://arxiv.org/abs/1710.10903


论文来源:ICLR 2018


一、概述


为了将卷积操作泛化到图数据上,研究人员做了一些努力。一些基于频域图卷积的GCN被研发了出来,然而在所有这些方法中,卷积核都依赖于拉普拉斯特征基,也就是依赖于图结构。也就是说,在一个特定图结构上训练的GCN无法被应用在其他不同的结构上,因此GCN的方法是transductive的。另外一些空域上的图卷积方法也存在,这些方法面临的挑战是处理不同size的邻域并且保持CNN的参数共享特性。


在许多基于序列的任务中,注意力机制几乎已经成为事实上的标准。注意力机制的一个好处是可以处理可变大小的输入,然后通过关注在最相关的部分来做出决策。当一个注意机制被用来计算一个单一序列的表示时,它通常被称为self-attention或者intra-attention。


本文提出了一种基于注意力机制的网络架构来处理图结构的数据,称为graph attention networks(GATs),主要思想是借助self-attention机制通过attend到节点的邻域来计算每个节点的隐层表示。这种基于注意力机制的架构有以下几个特点:


①操作是高效的,因为在节点的邻域之间以及节点之间都是并行化的;


②能够应用到不同节点度的图节点上;


③能够直接应用到inductive学习问题,包括需要泛化到完全未见图上的任务。


二、方法


  1. 图注意力层


9(YEYFZKXGPJ5@WOHAJUNAM.png


]3T42X86XUJDIQ~AH{2]8[7.png


[XT4EF}ELY`[~_6)P9)4[B3.png


需要注意的是,我们模型的感受野的大小是由网络的深度所决定的。跳跃连接等技术可以很容易地用于适当扩展深度。


上述注意力机制以及multi-head输出的聚合过程,如下图所示:


99)[9E5QARU@9~7K20(4X)E.png

                                             图示


  1. 相关工作对比


GAT解决了以往方法中存在的一些问题:


①计算上GAT是高效的,无论是对于所有的边的计算还是输出特征的所有节点的计算,都是并行化的。不需要特征分解或类似的代价高昂的矩阵运算。一个注意力head的计算复杂度为}6JF5DJO$T$(OC[8]H5YI@C.png是图中节点和边的数量,这种复杂度与GCN相当。


②与GCN不同,GAT允许对邻域节点的不同重要性,这提升了模型的容量。另外,注意力权重可以对模型的可解释性有一定的帮助。


③注意机制以共享的方式应用于图中的所有边,因此它不依赖于对全局图结构或所有节点(特征)的预先访问(这是许多先前技术的限制)。具体来说,首先不要求边是无向的,另外GAT可以直接应用于inductive学习,即使模型在完全未见图上进行测试。


④GraphSAGE的方法在邻域中采集固定样本,并且最有效的LSTM聚合函数的版本假设了邻域节点存在顺序。GAT并没有上述问题,GAT能够在节点的所有邻域上进行操作,并且没有假设节点的顺序。


⑤与之前MoNet方法相比,我们的模型使用节点特征进行相似性计算,而不是节点的结构属性(这将假设预先知道图结构)。


三、实验


本文在Cora,Citeseer,Pubmed,PPI四个数据集上进行实验。其中前三个是transductive的数据集,PPI是inductive的数据集。数据集情况如下:


LD_$`)$QI@99W$60DCUMIUI.png

                                                 数据集


transductive实验结果如下:


M6~[4SX~`]}9YNQ`]}9]PPQ.png

                                             transductive


inductive实验结果如下:


YFU$ZQBAG~]VE8QWAWEJ@QA.png 

                                            inductive


最后使用t-SNE可视化了一下在Cora数据集上的GAT第一层的特征:


$$BY42B_$XN}EC[}JE7V4TE.png

                                                    可视化

相关文章
|
8月前
|
机器学习/深度学习 存储 计算机视觉
【CVPR2020】ECA-Net:深度卷积神经网络的有效通道注意力
【CVPR2020】ECA-Net:深度卷积神经网络的有效通道注意力
1279 1
【CVPR2020】ECA-Net:深度卷积神经网络的有效通道注意力
|
3月前
|
机器学习/深度学习 数据可视化 测试技术
YOLO11实战:新颖的多尺度卷积注意力(MSCA)加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点,解决不涨点掉点等问题
本文探讨了创新点在自定义数据集上表现不稳定的问题,分析了不同数据集和网络位置对创新效果的影响。通过在YOLO11的不同位置引入MSCAAttention模块,展示了三种不同的改进方案及其效果。实验结果显示,改进方案在mAP50指标上分别提升了至0.788、0.792和0.775。建议多尝试不同配置,找到最适合特定数据集的解决方案。
1053 0
|
6月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进 - 注意力机制】Gather-Excite : 提高网络捕获长距离特征交互的能力
【YOLOv8改进 - 注意力机制】Gather-Excite : 提高网络捕获长距离特征交互的能力
|
6月前
|
机器学习/深度学习 编解码 计算机视觉
【YOLOv8改进- Backbone主干】BoTNet:基于Transformer,结合自注意力机制和卷积神经网络的骨干网络
【YOLOv8改进- Backbone主干】BoTNet:基于Transformer,结合自注意力机制和卷积神经网络的骨干网络
|
7月前
|
机器学习/深度学习 数据采集 自然语言处理
【注意力机制重大误区】网络模型增加注意力机制后,性能就一定会得到提升?有哪些影响因素?
【注意力机制重大误区】网络模型增加注意力机制后,性能就一定会得到提升?有哪些影响因素?
|
8月前
|
机器学习/深度学习 数据可视化 计算机视觉
【YOLOv8改进】MCA:用于图像识别的深度卷积神经网络中的多维协作注意力 (论文笔记+引入代码)
YOLO目标检测专栏介绍了YOLO的创新改进和实战案例,包括多维协作注意力(MCA)机制,它通过三分支架构同时处理通道、高度和宽度注意力,提高CNN性能。MCA设计了自适应组合和门控机制,增强特征表示,且保持轻量化。该模块适用于各种CNN,实验证明其在图像识别任务上的优越性。此外,文章还展示了如何在YOLOv8中引入MCA层的代码实现和相关任务配置。
|
8月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进】 YOLOv8 更换骨干网络之GhostNetV2 长距离注意力机制增强廉价操作,构建更强端侧轻量型骨干 (论文笔记+引入代码)
该专栏聚焦YOLO目标检测的创新改进与实战,介绍了轻量级CNNs和注意力机制在移动设备上的应用。文章提出了一种名为GhostNetV2的新架构,结合了硬件友好的DFC注意力机制,强化了特征表达能力和全局信息捕获,同时保持低计算成本和高效推理。GhostNetV2在ImageNet上以167M FLOPs达到75.3%的top-1准确率,优于同类模型。创新点包括DFC注意力、模型结构优化和效率提升。源代码可在GitHub和MindSpore平台上找到。此外,还提到了YOLOv8的相关实现和任务配置。
|
8月前
|
机器学习/深度学习 编解码 异构计算
ELAN:用于图像超分辨率的高效远程注意力网络
ELAN:用于图像超分辨率的高效远程注意力网络
265 1
|
8月前
|
自然语言处理 算法
【论文精读】COLING 2022 - CLIO: 用于文档级事件抽取的角色交互多事件头注意力网络
【论文精读】COLING 2022 - CLIO: 用于文档级事件抽取的角色交互多事件头注意力网络
|
8月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型