Gradformer: 通过图结构归纳偏差提升自注意力机制的图Transformer

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: Gradformer,新发布的图Transformer,引入指数衰减掩码和可学习约束,强化自注意力机制,聚焦本地信息并保持全局视野。模型整合归纳偏差,增强图结构建模,且在深层架构中表现稳定。对比14种基线模型,Gradformer在图分类、回归任务中胜出,尤其在NCI1、PROTEINS、MUTAG和CLUSTER数据集上准确率提升明显。此外,它在效率和深层模型处理上也表现出色。尽管依赖MPNN模块和效率优化仍有改进空间,但Gradformer已展现出在图任务的强大潜力。

这是4月刚刚发布在arxiv上的论文,介绍了一种名为“Gradformer”的新型图Transformer,它在自注意力机制中引入了指数衰减掩码。以下是主要创新点:

  1. 指数衰减掩码: Gradformer在其自注意力模块中集成了衰减掩码。该掩码随着图结构中节点之间的距离减小而呈指数递减。这种设计使模型能够在保留远距离信息捕获能力的同时,更专注于本地信息。
  2. 可学习约束: Gradformer为衰减掩码引入了一种可学习的约束,使不同的注意力头可以学习到不同的掩码。这使得注意力头多样化,提高了模型对图中多样结构信息的吸收能力。
  3. 归纳偏差的整合: Gradformer的设计将归纳偏差整合到自注意力机制中,增强了它对图结构化数据的建模能力。与之前仅使用位置编码或注意力偏差的方法相比,这种整合更有效。
  4. 与现有方法的比较: Gradformer在各种数据集上与14种基线模型进行了比较,包括图神经网络(GNN)和图Transformer模型。实验结果表明,Gradformer在图分类和回归等任务中,始终优于这些模型。
  5. 处理深层架构: Gradformer在深层架构中同样有效,随着网络深度的增加,其准确度得以保持甚至增强,这与其他转换器显著下降的准确度形成鲜明对比。

Gradformer通过引入带有可学习约束的指数衰减掩码,为图Transformer提供了一种新的方法,有效地捕捉了图结构中的本地和全局信息。这种设计将其与之前的模型区分开来,并提高了其在各种任务中的表现。

性能提升

  1. 准确率提升:- NCI1: Gradformer在NCI1数据集上的准确率为86.01%,相比GraphGPS提升了1.8个百分点。- PROTEINS: 在PROTEINS数据集上,Gradformer准确率为77.50%,相比之前的方法也有显著提升。- MUTAG: Gradformer在MUTAG数据集上的准确率为88.00%,超过之前所有基线模型。- CLUSTER: 在CLUSTER数据集上,Gradformer在浅层模型中表现良好,并在深层模型中持续保持或提高了准确度。
  2. 效率与处理速度:- 时间: 在ZINC数据集上,Gradformer在每个epoch的运行时间在30到60秒之间,相比Graphormer和GraphGPS更加高效。- 内存: Gradformer在ZINC和CLUSTER数据集上显示出对GPU内存的合理使用,进一步支持其效率优势。
  3. 处理深层模型的稳定性:- Gradformer在深层架构中表现稳定。例如,在NCI1数据集中,Gradformer的准确率在12层和24层之间分别为84.31%和84.25%,保持稳定,而GraphGPS的准确率则下降了近14.4个百分点。
  4. 低资源环境下的性能:- 在NCI1数据集中,当使用5%数据进行训练时,Gradformer准确率为71.20%,相比GraphGPS的69.54%有提升。在10%数据训练下,Gradformer准确率提升至76.38%。

Gradformer不仅在准确率上显示出显著提升,在效率与处理深层模型的稳定性上也表现良好。其综合性能在多种任务和数据集中超过了之前的基线模型。

论文作者主要观点

  1. 方法的优势:- 融合了GNN和GT的优势: Gradformer被认为是GNN和GT模型的一种更广义的形式,结合了GNN的本地处理能力和GT的全局聚合能力。- 在处理深层模型时的稳定性: Gradformer展示了在深层模型中持续保持或提高准确度的能力,这与其他GT模型在深层模型中准确度显著下降的表现形成对比。- 多样化的注意力头: 通过引入可学习的衰减掩码,Gradformer使不同的注意力头能够学习到不同的结构信息,从而更有效地融合了多样化的图形结构信息。- 减少信息冗余: 由于衰减掩码的设计,Gradformer能够限制远距离节点的影响,有效减少了信息冗余。
  2. 局限性:- MPNN模块的必要性: 在分析Gradformer时,作者指出,在某些情况下移除MPNN模块会导致性能的明显下降。如何保持在没有MPNN模块的情况下依然取得良好表现是潜在的改进空间。- 效率改进的潜力: 尽管Gradformer在效率上显示出优于某些模型,但在时间和内存消耗上仍有进一步改进的空间。
  3. 与先前研究的对比:- 增强了对图结构信息的捕获: 相比之前的方法,Gradformer更有效地整合了图的结构信息。这使其在准确度上有所提高。- 在深层模型中的表现: 与其他GT模型相比,Gradformer在深层模型中保持了稳定的准确度,这是一个显著的优势。

Gradformer通过其设计融合了GNN和GT的优势,同时在处理深层模型时表现稳定,尽管如此,其在改进MPNN模块依赖和效率方面仍有潜在提升空间。

总结

论文介绍了Gradformer,一种新型的图Transformer,结合了指数衰减掩码来增强自注意力机制,以更有效地处理图形任务。该掩码根据图结构信息衰减,确保了对图形局部和全局信息的有效捕捉。论文还引入了可学习的掩码参数,使不同注意力头能够学习到多样化的图形结构信息。Gradformer在多个基准数据集上进行了广泛的实验,展示了其在图分类和回归任务中优于其他图神经网络和图Transformer模型的性能。此外,Gradformer在深层架构中仍能保持或提高准确度,相比其他图Transformer更为稳定。论文总结了Gradformer的卓越性能及潜在改进方向,包括探索更高效的结构和更好的图形信息融合策略。

论文地址:

Gradformer: Graph Transformer with Exponential Decay

https://avoid.overfit.cn/post/ce4d852480a347ffb41c1eabf8cba71f

目录
相关文章
|
2天前
|
机器学习/深度学习 Ruby
YOLOv8改进 | 2023注意力篇 | iRMB倒置残差块注意力机制(轻量化注意力机制)
YOLOv8改进 | 2023注意力篇 | iRMB倒置残差块注意力机制(轻量化注意力机制)
220 0
|
2天前
|
机器学习/深度学习 Ruby
YOLOv5改进 | 2023注意力篇 | iRMB倒置残差块注意力机制(轻量化注意力机制)
YOLOv5改进 | 2023注意力篇 | iRMB倒置残差块注意力机制(轻量化注意力机制)
140 0
|
2天前
|
机器学习/深度学习
YOLOv8改进 | 2023注意力篇 | MLCA混合局部通道注意力(轻量化注意力机制)
YOLOv8改进 | 2023注意力篇 | MLCA混合局部通道注意力(轻量化注意力机制)
134 1
|
机器学习/深度学习 传感器 编解码
再谈注意力机制 | 运用强化学习实现目标特征提取
再谈注意力机制 | 运用强化学习实现目标特征提取
再谈注意力机制 | 运用强化学习实现目标特征提取
|
8月前
|
机器学习/深度学习 传感器 算法
Matlab基于注意力机制融合门控循环单元数据GRU-Attention分类预测
Matlab基于注意力机制融合门控循环单元数据GRU-Attention分类预测
|
9月前
|
机器学习/深度学习 编解码 索引
神经网络风格化过程的特征控制
翻译:《Controlling Perceptual Factors in Neural Style Transfer》
|
11月前
|
机器学习/深度学习 自然语言处理 数据可视化
图解transformer中的自注意力机制
本文将将介绍注意力的概念从何而来,它是如何工作的以及它的简单的实现。
240 0
|
12月前
|
机器学习/深度学习 自然语言处理
架构瓶颈原则:用注意力probe估计神经网络组件提供多少句法信息
架构瓶颈原则:用注意力probe估计神经网络组件提供多少句法信息
|
机器学习/深度学习 人工智能 PyTorch
【Pytorch神经网络理论篇】 29 图卷积模型的缺陷+弥补方案
多层全连接神经网络被称为万能的拟合神经网络。先在单个网络层中用多个神经元节点实现低维的数据拟合,再通过多层叠加的方式对低维拟合能力进行综合,从而在理论上实现对任意数据的特征拟合。
170 0
|
机器学习/深度学习 存储 自然语言处理
文档级关系抽取:基于结构先验产生注意力偏差SSAN模型
文档级关系抽取:基于结构先验产生注意力偏差SSAN模型
文档级关系抽取:基于结构先验产生注意力偏差SSAN模型

热门文章

最新文章