Gradformer: 通过图结构归纳偏差提升自注意力机制的图Transformer

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: Gradformer,新发布的图Transformer,引入指数衰减掩码和可学习约束,强化自注意力机制,聚焦本地信息并保持全局视野。模型整合归纳偏差,增强图结构建模,且在深层架构中表现稳定。对比14种基线模型,Gradformer在图分类、回归任务中胜出,尤其在NCI1、PROTEINS、MUTAG和CLUSTER数据集上准确率提升明显。此外,它在效率和深层模型处理上也表现出色。尽管依赖MPNN模块和效率优化仍有改进空间,但Gradformer已展现出在图任务的强大潜力。

这是4月刚刚发布在arxiv上的论文,介绍了一种名为“Gradformer”的新型图Transformer,它在自注意力机制中引入了指数衰减掩码。以下是主要创新点:

  1. 指数衰减掩码: Gradformer在其自注意力模块中集成了衰减掩码。该掩码随着图结构中节点之间的距离减小而呈指数递减。这种设计使模型能够在保留远距离信息捕获能力的同时,更专注于本地信息。
  2. 可学习约束: Gradformer为衰减掩码引入了一种可学习的约束,使不同的注意力头可以学习到不同的掩码。这使得注意力头多样化,提高了模型对图中多样结构信息的吸收能力。
  3. 归纳偏差的整合: Gradformer的设计将归纳偏差整合到自注意力机制中,增强了它对图结构化数据的建模能力。与之前仅使用位置编码或注意力偏差的方法相比,这种整合更有效。
  4. 与现有方法的比较: Gradformer在各种数据集上与14种基线模型进行了比较,包括图神经网络(GNN)和图Transformer模型。实验结果表明,Gradformer在图分类和回归等任务中,始终优于这些模型。
  5. 处理深层架构: Gradformer在深层架构中同样有效,随着网络深度的增加,其准确度得以保持甚至增强,这与其他转换器显著下降的准确度形成鲜明对比。

Gradformer通过引入带有可学习约束的指数衰减掩码,为图Transformer提供了一种新的方法,有效地捕捉了图结构中的本地和全局信息。这种设计将其与之前的模型区分开来,并提高了其在各种任务中的表现。

性能提升

  1. 准确率提升:- NCI1: Gradformer在NCI1数据集上的准确率为86.01%,相比GraphGPS提升了1.8个百分点。- PROTEINS: 在PROTEINS数据集上,Gradformer准确率为77.50%,相比之前的方法也有显著提升。- MUTAG: Gradformer在MUTAG数据集上的准确率为88.00%,超过之前所有基线模型。- CLUSTER: 在CLUSTER数据集上,Gradformer在浅层模型中表现良好,并在深层模型中持续保持或提高了准确度。
  2. 效率与处理速度:- 时间: 在ZINC数据集上,Gradformer在每个epoch的运行时间在30到60秒之间,相比Graphormer和GraphGPS更加高效。- 内存: Gradformer在ZINC和CLUSTER数据集上显示出对GPU内存的合理使用,进一步支持其效率优势。
  3. 处理深层模型的稳定性:- Gradformer在深层架构中表现稳定。例如,在NCI1数据集中,Gradformer的准确率在12层和24层之间分别为84.31%和84.25%,保持稳定,而GraphGPS的准确率则下降了近14.4个百分点。
  4. 低资源环境下的性能:- 在NCI1数据集中,当使用5%数据进行训练时,Gradformer准确率为71.20%,相比GraphGPS的69.54%有提升。在10%数据训练下,Gradformer准确率提升至76.38%。

Gradformer不仅在准确率上显示出显著提升,在效率与处理深层模型的稳定性上也表现良好。其综合性能在多种任务和数据集中超过了之前的基线模型。

论文作者主要观点

  1. 方法的优势:- 融合了GNN和GT的优势: Gradformer被认为是GNN和GT模型的一种更广义的形式,结合了GNN的本地处理能力和GT的全局聚合能力。- 在处理深层模型时的稳定性: Gradformer展示了在深层模型中持续保持或提高准确度的能力,这与其他GT模型在深层模型中准确度显著下降的表现形成对比。- 多样化的注意力头: 通过引入可学习的衰减掩码,Gradformer使不同的注意力头能够学习到不同的结构信息,从而更有效地融合了多样化的图形结构信息。- 减少信息冗余: 由于衰减掩码的设计,Gradformer能够限制远距离节点的影响,有效减少了信息冗余。
  2. 局限性:- MPNN模块的必要性: 在分析Gradformer时,作者指出,在某些情况下移除MPNN模块会导致性能的明显下降。如何保持在没有MPNN模块的情况下依然取得良好表现是潜在的改进空间。- 效率改进的潜力: 尽管Gradformer在效率上显示出优于某些模型,但在时间和内存消耗上仍有进一步改进的空间。
  3. 与先前研究的对比:- 增强了对图结构信息的捕获: 相比之前的方法,Gradformer更有效地整合了图的结构信息。这使其在准确度上有所提高。- 在深层模型中的表现: 与其他GT模型相比,Gradformer在深层模型中保持了稳定的准确度,这是一个显著的优势。

Gradformer通过其设计融合了GNN和GT的优势,同时在处理深层模型时表现稳定,尽管如此,其在改进MPNN模块依赖和效率方面仍有潜在提升空间。

总结

论文介绍了Gradformer,一种新型的图Transformer,结合了指数衰减掩码来增强自注意力机制,以更有效地处理图形任务。该掩码根据图结构信息衰减,确保了对图形局部和全局信息的有效捕捉。论文还引入了可学习的掩码参数,使不同注意力头能够学习到多样化的图形结构信息。Gradformer在多个基准数据集上进行了广泛的实验,展示了其在图分类和回归任务中优于其他图神经网络和图Transformer模型的性能。此外,Gradformer在深层架构中仍能保持或提高准确度,相比其他图Transformer更为稳定。论文总结了Gradformer的卓越性能及潜在改进方向,包括探索更高效的结构和更好的图形信息融合策略。

论文地址:

Gradformer: Graph Transformer with Exponential Decay

https://avoid.overfit.cn/post/ce4d852480a347ffb41c1eabf8cba71f

目录
相关文章
|
7月前
|
机器学习/深度学习 Ruby
YOLOv8改进 | 2023注意力篇 | iRMB倒置残差块注意力机制(轻量化注意力机制)
YOLOv8改进 | 2023注意力篇 | iRMB倒置残差块注意力机制(轻量化注意力机制)
738 0
|
7月前
|
机器学习/深度学习 Ruby
YOLOv5改进 | 2023注意力篇 | iRMB倒置残差块注意力机制(轻量化注意力机制)
YOLOv5改进 | 2023注意力篇 | iRMB倒置残差块注意力机制(轻量化注意力机制)
389 0
|
机器学习/深度学习 PyTorch 算法框架/工具
神经网络加上注意力机制,精度不升反降?
神经网络加上注意力机制,精度不升反降?
神经网络加上注意力机制,精度不升反降?
|
机器学习/深度学习 PyTorch 算法框架/工具
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
|
6月前
|
机器学习/深度学习 算法 计算机视觉
YOLOv8改进 | 注意力机制 | 用于增强小目标感受野的RFEM
💡💡💡本专栏所有程序均经过测试,可成功执行💡💡
|
7月前
|
编解码 计算机视觉 网络架构
【YOLOv8改进】BiFPN:加权双向特征金字塔网络 (论文笔记+引入代码)
该专栏深入研究了YOLO目标检测的神经网络架构优化,提出了加权双向特征金字塔网络(BiFPN)和复合缩放方法,以提升模型效率。BiFPN通过双向跨尺度连接和加权融合增强信息传递,同时具有自适应的网络拓扑结构。结合EfficientNet,构建了EfficientDet系列检测器,在效率和准确性上超越先前技术。此外,介绍了YOLOv8如何引入MPDIoU并应用BiFPN进行可学习权重的特征融合。更多详情可参考提供的专栏链接。
|
7月前
|
机器学习/深度学习 编解码 算法
小目标检测新方法SCTransNet | 空间通道交叉Transformer & 互补前馈达成完美语义信息传递
小目标检测新方法SCTransNet | 空间通道交叉Transformer & 互补前馈达成完美语义信息传递
946 0
|
7月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
中文核心论文实战:基于通道注意力cbam+lstm的工业用电功率预测时间序列
中文核心论文实战:基于通道注意力cbam+lstm的工业用电功率预测时间序列
127 0
|
机器学习/深度学习 编解码 索引
神经网络风格化过程的特征控制
翻译:《Controlling Perceptual Factors in Neural Style Transfer》