Gradformer: 通过图结构归纳偏差提升自注意力机制的图Transformer

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: Gradformer,新发布的图Transformer,引入指数衰减掩码和可学习约束,强化自注意力机制,聚焦本地信息并保持全局视野。模型整合归纳偏差,增强图结构建模,且在深层架构中表现稳定。对比14种基线模型,Gradformer在图分类、回归任务中胜出,尤其在NCI1、PROTEINS、MUTAG和CLUSTER数据集上准确率提升明显。此外,它在效率和深层模型处理上也表现出色。尽管依赖MPNN模块和效率优化仍有改进空间,但Gradformer已展现出在图任务的强大潜力。

这是4月刚刚发布在arxiv上的论文,介绍了一种名为“Gradformer”的新型图Transformer,它在自注意力机制中引入了指数衰减掩码。以下是主要创新点:

  1. 指数衰减掩码: Gradformer在其自注意力模块中集成了衰减掩码。该掩码随着图结构中节点之间的距离减小而呈指数递减。这种设计使模型能够在保留远距离信息捕获能力的同时,更专注于本地信息。
  2. 可学习约束: Gradformer为衰减掩码引入了一种可学习的约束,使不同的注意力头可以学习到不同的掩码。这使得注意力头多样化,提高了模型对图中多样结构信息的吸收能力。
  3. 归纳偏差的整合: Gradformer的设计将归纳偏差整合到自注意力机制中,增强了它对图结构化数据的建模能力。与之前仅使用位置编码或注意力偏差的方法相比,这种整合更有效。
  4. 与现有方法的比较: Gradformer在各种数据集上与14种基线模型进行了比较,包括图神经网络(GNN)和图Transformer模型。实验结果表明,Gradformer在图分类和回归等任务中,始终优于这些模型。
  5. 处理深层架构: Gradformer在深层架构中同样有效,随着网络深度的增加,其准确度得以保持甚至增强,这与其他转换器显著下降的准确度形成鲜明对比。

Gradformer通过引入带有可学习约束的指数衰减掩码,为图Transformer提供了一种新的方法,有效地捕捉了图结构中的本地和全局信息。这种设计将其与之前的模型区分开来,并提高了其在各种任务中的表现。

性能提升

  1. 准确率提升:- NCI1: Gradformer在NCI1数据集上的准确率为86.01%,相比GraphGPS提升了1.8个百分点。- PROTEINS: 在PROTEINS数据集上,Gradformer准确率为77.50%,相比之前的方法也有显著提升。- MUTAG: Gradformer在MUTAG数据集上的准确率为88.00%,超过之前所有基线模型。- CLUSTER: 在CLUSTER数据集上,Gradformer在浅层模型中表现良好,并在深层模型中持续保持或提高了准确度。
  2. 效率与处理速度:- 时间: 在ZINC数据集上,Gradformer在每个epoch的运行时间在30到60秒之间,相比Graphormer和GraphGPS更加高效。- 内存: Gradformer在ZINC和CLUSTER数据集上显示出对GPU内存的合理使用,进一步支持其效率优势。
  3. 处理深层模型的稳定性:- Gradformer在深层架构中表现稳定。例如,在NCI1数据集中,Gradformer的准确率在12层和24层之间分别为84.31%和84.25%,保持稳定,而GraphGPS的准确率则下降了近14.4个百分点。
  4. 低资源环境下的性能:- 在NCI1数据集中,当使用5%数据进行训练时,Gradformer准确率为71.20%,相比GraphGPS的69.54%有提升。在10%数据训练下,Gradformer准确率提升至76.38%。

Gradformer不仅在准确率上显示出显著提升,在效率与处理深层模型的稳定性上也表现良好。其综合性能在多种任务和数据集中超过了之前的基线模型。

论文作者主要观点

  1. 方法的优势:- 融合了GNN和GT的优势: Gradformer被认为是GNN和GT模型的一种更广义的形式,结合了GNN的本地处理能力和GT的全局聚合能力。- 在处理深层模型时的稳定性: Gradformer展示了在深层模型中持续保持或提高准确度的能力,这与其他GT模型在深层模型中准确度显著下降的表现形成对比。- 多样化的注意力头: 通过引入可学习的衰减掩码,Gradformer使不同的注意力头能够学习到不同的结构信息,从而更有效地融合了多样化的图形结构信息。- 减少信息冗余: 由于衰减掩码的设计,Gradformer能够限制远距离节点的影响,有效减少了信息冗余。
  2. 局限性:- MPNN模块的必要性: 在分析Gradformer时,作者指出,在某些情况下移除MPNN模块会导致性能的明显下降。如何保持在没有MPNN模块的情况下依然取得良好表现是潜在的改进空间。- 效率改进的潜力: 尽管Gradformer在效率上显示出优于某些模型,但在时间和内存消耗上仍有进一步改进的空间。
  3. 与先前研究的对比:- 增强了对图结构信息的捕获: 相比之前的方法,Gradformer更有效地整合了图的结构信息。这使其在准确度上有所提高。- 在深层模型中的表现: 与其他GT模型相比,Gradformer在深层模型中保持了稳定的准确度,这是一个显著的优势。

Gradformer通过其设计融合了GNN和GT的优势,同时在处理深层模型时表现稳定,尽管如此,其在改进MPNN模块依赖和效率方面仍有潜在提升空间。

总结

论文介绍了Gradformer,一种新型的图Transformer,结合了指数衰减掩码来增强自注意力机制,以更有效地处理图形任务。该掩码根据图结构信息衰减,确保了对图形局部和全局信息的有效捕捉。论文还引入了可学习的掩码参数,使不同注意力头能够学习到多样化的图形结构信息。Gradformer在多个基准数据集上进行了广泛的实验,展示了其在图分类和回归任务中优于其他图神经网络和图Transformer模型的性能。此外,Gradformer在深层架构中仍能保持或提高准确度,相比其他图Transformer更为稳定。论文总结了Gradformer的卓越性能及潜在改进方向,包括探索更高效的结构和更好的图形信息融合策略。

论文地址:

Gradformer: Graph Transformer with Exponential Decay

https://avoid.overfit.cn/post/ce4d852480a347ffb41c1eabf8cba71f

目录
相关文章
|
6月前
|
机器学习/深度学习 Ruby
YOLOv8改进 | 2023注意力篇 | iRMB倒置残差块注意力机制(轻量化注意力机制)
YOLOv8改进 | 2023注意力篇 | iRMB倒置残差块注意力机制(轻量化注意力机制)
692 0
|
6月前
|
机器学习/深度学习 Ruby
YOLOv5改进 | 2023注意力篇 | iRMB倒置残差块注意力机制(轻量化注意力机制)
YOLOv5改进 | 2023注意力篇 | iRMB倒置残差块注意力机制(轻量化注意力机制)
347 0
|
机器学习/深度学习 PyTorch 算法框架/工具
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
|
4月前
|
机器学习/深度学习 图计算 计算机视觉
【YOLOv8改进 - 注意力机制】 CascadedGroupAttention:级联组注意力,增强视觉Transformer中多头自注意力机制的效率和有效性
YOLO目标检测专栏探讨了Transformer在视觉任务中的效能与计算成本问题,提出EfficientViT,一种兼顾速度和准确性的模型。EfficientViT通过创新的Cascaded Group Attention(CGA)模块减少冗余,提高多样性,节省计算资源。在保持高精度的同时,与MobileNetV3-Large相比,EfficientViT在速度上有显著提升。论文和代码已公开。CGA通过特征分割和级联头部增加注意力多样性和模型容量,降低了计算负担。核心代码展示了CGA模块的实现。
|
4月前
|
机器学习/深度学习
ICML 2024:揭示非线形Transformer在上下文学习中学习和泛化的机制
【7月更文挑战第10天】Rensselaer Polytechnic Institute和IBM的研究者探讨了非线性Transformer在上下文学习的理论基础。他们展示了Transformer如何通过注意力层聚焦相关上下文,并利用MLP层进行预测,揭示了其在不需微调情况下的泛化能力。尽管研究局限于二进制分类和单层模型,它为理解复杂模型在不同任务和领域的潜在适应性提供了新视角。[论文链接:](https://arxiv.org/pdf/2402.15607)**
41 1
|
4月前
|
机器学习/深度学习 计算机视觉
【YOLOv10改进-注意力机制】 MSDA:多尺度空洞注意力 (论文笔记+引入代码)
YOLO目标检测专栏探讨了ViT的改进,提出DilateFormer,它结合多尺度扩张注意力(MSDA)来平衡计算效率和关注域大小。MSDA利用局部稀疏交互减少冗余,通过不同头部的扩张率捕获多尺度特征。DilateFormer在保持高性能的同时,计算成本降低70%,在ImageNet-1K、COCO和ADE20K任务上取得领先结果。YOLOv8引入了MultiDilatelocalAttention模块,用于实现膨胀注意力。更多详情及配置见相关链接。
|
6月前
|
编解码 计算机视觉 网络架构
【YOLOv8改进】BiFPN:加权双向特征金字塔网络 (论文笔记+引入代码)
该专栏深入研究了YOLO目标检测的神经网络架构优化,提出了加权双向特征金字塔网络(BiFPN)和复合缩放方法,以提升模型效率。BiFPN通过双向跨尺度连接和加权融合增强信息传递,同时具有自适应的网络拓扑结构。结合EfficientNet,构建了EfficientDet系列检测器,在效率和准确性上超越先前技术。此外,介绍了YOLOv8如何引入MPDIoU并应用BiFPN进行可学习权重的特征融合。更多详情可参考提供的专栏链接。
|
6月前
|
机器学习/深度学习 编解码 算法
【论文解析】CFPNet:用于目标检测的集中特征金字塔
【论文解析】CFPNet:用于目标检测的集中特征金字塔
432 0
【论文解析】CFPNet:用于目标检测的集中特征金字塔
|
6月前
|
人工智能 搜索推荐 物联网
DoRA(权重分解低秩适应):一种新颖的模型微调方法_dora模型
DoRA(权重分解低秩适应):一种新颖的模型微调方法_dora模型
351 0
|
机器学习/深度学习 自然语言处理 数据可视化
图解transformer中的自注意力机制
本文将将介绍注意力的概念从何而来,它是如何工作的以及它的简单的实现。
306 0