ICLR 2023 | DIFFormer: 扩散过程启发的Transformer(3)

简介: ICLR 2023 | DIFFormer: 扩散过程启发的Transformer

时空预测
进⼀步的,我们考虑时空预测任务,此时模型需要根据历史的观测图⽚段(包含上⼀时刻节点标签和图结构)来预测下⼀时刻的节点标签。这⾥我们横向对⽐ 了 DIFFormer-s/DIFFormer-a 在使⽤输⼊图和不使⽤输⼊图(w/o g)时的性能,发现在不少情况下不使⽤输⼊图模型反⽽能给出的较⾼预测精度。这也说明了在这类任务中,给定的观测图结构可能是不可靠的,⽽ DIFFormer 则可以通过从数据中学习依赖关系得到更有⽤的结构信息。


扩散过程下的统⼀视⻆

从能量约束的扩散过程出发,我们也可以将其他信息传递模型如 MLP/GCN/GAT 看作 DIFFormer 的特殊形式,从⽽给出统⼀的形式化定义。下图概括了⼏种⽅法对应的能量函数和扩散率。相⽐之下,从扩散过程来看, DIFFormer 会考虑任意两两节点之间的信号流动且流动的速率会随着时间适应性的变化,⽽ GNN 则是将信号流动 限制在⼀部分节点对之间。从能量约束来看,DIFFormer 会同时考虑局部(与⾃身状态)和全局(与其他节点)的⼀致性约束,⽽ MLP/GNN 则是分别侧重于⼆者之⼀, 且 GNN 通常只考虑输⼊图中相邻的节点对约束。


总结与讨论

在这个⼯作中,我们讨论了如何从扩散⽅程出发得到 MLP/GNN/Transformer 的模型更新公式,⽽后提出了⼀个能量约束下的扩散过程,并通过理论分析得到了最优 扩散率的闭式解。基于理论结果,我们提出了 DIFFormer。总的来说,DIFFormer 主要具有以下两点优势:

  • 从设计思想上看:模型结构从能量下降扩散过程的⻆度导出,相⽐于直接的启发式设计更加具有理论依据;
  • 从模型实现上看:在保留了学习每层所有节点全局 all-pair attention 的表达能⼒的同时,DIFFormer-s 只需要复杂度来更新个节点的表征,同时兼容 mini-batch training,可以有效扩展到⼤规模数据集。


DIFFormer 作为⼀个通⽤的 encoder,可以被主要应⽤于以下⼏种场景:

  • 建模含有观测结构的数据,得到节点表征(简⾔之就是使⽤ GNN 的场景):输⼊是⼀张图包含了互连的节点,需要计算图中节点的表征。这是⼀个相对已被⼴泛研究的领域,DIFFormer 的优势在于可以挖掘未被观测的隐式结构(如图中的缺失边、⻓距离依赖等),以及在低标签率的情况下提升精度。
  • 建模不含观测结构但样本间存在隐式依赖的数据(如⼀般的分类 / 回归问题):数据集包含⼀系列独⽴样本,样本间的依赖关系未知。此时 DIFFormer 可⽤于学习样本间的隐式依赖关系,利⽤全局信息来计算每个样本的表征。这是⼀个较少被研究的领域,传统⽅法的主要 bottleneck 是在⼩数据集上容易过拟合(由于考虑了样本依赖模型过于复杂),⼤数据集上⼜⽆法有效扩展(学习任意两两样本的关系带来了平⽅复杂度)。DIFFormer 的优势在于简单的模型结构有效避免了过拟合问题,⽽且保证了相对于样本数量的复杂度可以有效扩展到⼤规模数据集。
  • 作为⼀般的即插即⽤式 encoder,解决各式各样的下游任务(如⽣成 / 预测 / 决策问题)。此时 DIFFormer 可以直接⽤于⼤框架下的某个部件,得到输⼊数据的隐空间表征,⽤于下游任务。相⽐于其他 encoder (如 MLP/GNN/Transformer),DIFFormer 的优势在于可以⾼效的计算全局 attention,同时具有⼀定的理论基础(能量下降扩散过程的观点)。

最后欢迎感兴趣的朋友们阅读论⽂和访问我们的 GitHub,共同学习进步~

参考⽂献[1] Qitian Wu et al., DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained Diffusion, ICLR 2023. [2] Qitian Wu et al., NodeFormer: A Scalable Graph Structure Learning Transformer for Node Classification, NeurIPS 2022. [3] Chenxiao Yang et al., Geometric Knowledge Distillation: Topology Compression for Graph Neural Networks, NeurIPS 2022

相关文章
|
机器学习/深度学习 编解码 并行计算
论文阅读笔记 | Transformer系列——CSWin Transformer
论文阅读笔记 | Transformer系列——CSWin Transformer
732 0
论文阅读笔记 | Transformer系列——CSWin Transformer
|
机器学习/深度学习 算法 PyTorch
论文阅读笔记 | 目标检测算法——DETR
论文阅读笔记 | 目标检测算法——DETR
977 0
论文阅读笔记 | 目标检测算法——DETR
|
5月前
|
机器学习/深度学习 算法 网络架构
神经网络架构殊途同归?ICML 2024论文:模型不同,但学习内容相同
【8月更文挑战第3天】《神经语言模型的缩放定律》由OpenAI研究人员完成并在ICML 2024发表。研究揭示了模型性能与大小、数据集及计算资源间的幂律关系,表明增大任一资源均可预测地提升性能。此外,论文指出模型宽度与深度对性能影响较小,较大模型在更多数据上训练能更好泛化,且能高效利用计算资源。研究提供了训练策略建议,对于神经语言模型优化意义重大,但也存在局限性,需进一步探索。论文链接:[https://arxiv.org/abs/2001.08361]。
57 1
|
7月前
|
机器学习/深度学习 自然语言处理
解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进
【6月更文挑战第9天】CoPE论文提出了一种新方法,解决Transformer模型位置处理缺陷,通过上下文依赖的位置编码增强序列元素识别,改进选择性复制、计数等任务,提升语言建模和编码任务的困惑度。但CoPE增加模型复杂性,可能受模型大小和数据量限制,且过度依赖上下文可能引入偏见。[https://arxiv.org/pdf/2405.18719]
88 6
|
8月前
|
机器学习/深度学习 算法
ICLR 2024 Oral:用巧妙的传送技巧,让神经网络的训练更加高效
【5月更文挑战第21天】ICLR 2024 Oral 提出了一种名为“传送”的新方法,利用参数对称性提升神经网络训练效率。该方法通过参数变换加速收敛,改善泛化能力,减少了训练所需的计算资源和时间。研究显示,传送能将模型移到不同曲率的极小值点,可能有助于泛化。论文还探讨了将传送应用于元学习等优化算法的潜力,但对传送加速优化的确切机制理解尚不深入,且实际应用效果有待更多验证。[论文链接](https://openreview.net/forum?id=L0r0GphlIL)
73 2
|
机器学习/深度学习 计算机视觉
深度学习原理篇 第七章:Deformable DETR
简要介绍Deformable DETR的原理和代码实现。
1569 1
|
机器学习/深度学习 编解码 自然语言处理
Transformer 系列| Transformer又搞事情!TransReID首次在ReID中应用,结果喜人(文末获取论文)(一)
Transformer 系列| Transformer又搞事情!TransReID首次在ReID中应用,结果喜人(文末获取论文)(一)
452 0
Transformer 系列| Transformer又搞事情!TransReID首次在ReID中应用,结果喜人(文末获取论文)(一)
|
异构计算
ICLR 2023 | DIFFormer: 扩散过程启发的Transformer(2)
ICLR 2023 | DIFFormer: 扩散过程启发的Transformer
218 0
|
机器学习/深度学习
ICLR 2023 | DIFFormer: 扩散过程启发的Transformer(1)
ICLR 2023 | DIFFormer: 扩散过程启发的Transformer
147 0
|
机器学习/深度学习 数据挖掘 PyTorch
ICLR 2023 | 解决VAE表示学习问题,北海道大学提出新型生成模型GWAE
ICLR 2023 | 解决VAE表示学习问题,北海道大学提出新型生成模型GWAE
146 0