谷歌、阿里、腾讯等在大规模图神经网络上必用的GNN加速算法(一)

简介: 谷歌、阿里、腾讯等在大规模图神经网络上必用的GNN加速算法(一)

今天我们来聊一聊在大规模图神经网络上必用的GNN加速算法。GNN在图结构的任务上取得了很好的结果,但由于需要将图加载到内存中,且每层的卷积操作都会遍历全图,对于大规模的图,需要的内存和时间的开销都是不可接受的。


现有一些用于加速GNN的算法,基本思路是使用mini-batch来计算,用min-batch的梯度估计full-batch的梯度,通过多次迭代达到基本一致的效果。


根据使用的方法不同,大致分为以下三类:


  • Neighbor sampling


  • Layer-wise sampling


  • Subgraph sampling


1.Neighbor sampling


1.1 GraphSage



324c68543b8f7201aa14c8837f279a59.png


论文标题:Inductive Representation Learning on Large Graphs


论文来源:NIPS2017


论文方向:图表示学习


论文链接:https://arxiv.org/abs/1706.02216


06d4ed491fba9dd21f1cc3800f52b378.png


GraphSAGE 是 2017 年提出的一种图神经网络算法,解决了 GCN 网络的局限性: GCN 训练时需要用到整个图的邻接矩阵,依赖于具体的图结构,一般只能用在直推式学习 Transductive Learning。GraphSAGE 使用多层聚合函数,每一层聚合函数会将节点及其邻居的信息聚合在一起得到下一层的特征向量,GraphSAGE 采用了节点的邻域信息,不依赖于全局的图结构。


GraphSAGE 的运行流程如上图所示,可以分为三个步骤:


1、对图中每个顶点邻居顶点进行采样;


2、根据聚合函数聚合邻居顶点蕴含的信息;


3、得到图中各顶点的向量表示供下游任务使用;


105b3d8848e8b2ecabe5bf3b88fc19f2.png


出于对计算效率的考虑,对每个顶点采样一定数量的邻居顶点作为待聚合信息的顶点。设采样数量为k,若顶点邻居数少于k,则采用有放回的抽样方法,直到采样出k个顶点。若顶点邻居数大于k,则采用无放回的抽样。


即为每个结点均匀地抽样固定数量的邻居结点,使用Batch去训练。


复杂度正比于卷积层数 的指数。


1.2 ScalableGCN



阿里妈妈的Euler中使用的加速算法,主要思想是用空间换时间。对于 阶GCN模型,开辟存储空间: ,将mini-batch SGD中各顶点最新的前阶embedding存储起来,前向Aggregate的时候直接查询缓存。


同时也开辟存储空间 ,来存储 δδ ,根据链式法则来获得参数梯度从而更新 。


5ea08868d23e7159178a37b7128bc33b.png


970fcb0ce008edeeb5c2ae95c265626b.png


我们在两个开源的数据集Reddit和PPI上验证了我们的工作。由于GraphSAGE的简单和通用性,我们选择其为baseline。并且为了对齐与其论文中的实验结果,我们在共享了GraphSAGE和ScalableGCN代码中的大多数模块,并利用Tensorflow中的Variable存储c5ec37553ecfe1856f93bf9167094de3.pngbe96e559394daae3f8ce79ad5eca310d.png,使用累加作为算子。

我们使用均匀分布来初始化be96e559394daae3f8ce79ad5eca310d.pngc5ec37553ecfe1856f93bf9167094de3.png并将初始化为0。对于每阶的卷积操作,我们采样10个邻接顶点。所有的实验均使用512的batch size训练20个epoch。在评估阶段,我们统一维持GraphSAGE的方法进行Inference。以下是选择Mean作为AGG函数的micro-F1 score:


PPI:

9]Z%TQA7C0{EEJ~5X32}D_2.png


Reddit:

WS]@FLY)F]7[TTMX5E@7(W7.png


WS]@FLY)F]7[TTMX5E@7(W7.pngWS]@FLY)F]7[TTMX5E@7(W7.png

可以看到ScalableGCN训练出来模型与GraphSAGE的训练结果相差很小,同时可以取得多层卷积模型的收益。


在时间上,以下是8 core的机器上Reddit数据集(23万顶点)每个mini-batch所需的训练时间:


14`I~9K}CPH`S}6H1AQ4]O1.png

14`I~9K}CPH`S}6H1AQ4]O1.png


注意到ScalableGCN的训练时间相对于卷积模型层数来说是线性的。


总结:



GCN是目前业界标准的网络图中特征抽取以及表示学习的方法,未来在搜索、广告、推荐等场景中有着广泛的应用。多阶的GCN的支持提供了在图中挖掘多阶关系的能力。ScalableGCN提出了一种快速训练多阶GCN的方法,可以有效的缩短多阶GCN的训练时间,并且适用于大规模的稀疏图。本方法与对采样进行裁剪和共享的方法也并不冲突,可以同时在训练中使用


1.3 VR-GCN



a8bb6efddaf178c6cdfe029de67d3a94.png


论文标题:Stochastic Training of Graph Convolutional Networks with Variance Reduction


论文来源:ICML2018


论文方向:图卷积网络


论文链接:https://arxiv.org/abs/1706.02216


**主要思路:**利用结点历史表示 来作为控制变量(control variate)来减小方差,从而减小batch training中的采样邻居的数量。


0d3a0aaf5bd61764d2a200144921035b.png


使用蒙特卡方法来洛近似 ,而 上的平均计算是可接受的(不用递归)。


因此其矩阵表示为:


eab5d096c2cd6ee7f9b549228102bb97.png


该算法具有理论保障,可以获得0偏差和0方差的结果,且无论每层邻居结点的抽样个数 是多少,都不影响 GCN收敛到局部最优。(理论细节请看原文,较为复杂,不展开)


因此每个结点仅仅采样两个邻居,极大提升模型训练效率的同时,也能保证获得良好的模型效果。


相关文章
|
10月前
|
机器学习/深度学习 人工智能
Token化一切,甚至网络!北大&谷歌&马普所提出TokenFormer,Transformer从来没有这么灵活过!
Transformer模型在人工智能领域表现出色,但扩展其规模时面临计算成本和训练难度急剧增加的问题。北京大学、谷歌和马普所的研究人员提出了TokenFormer架构,通过将模型参数视为Token,利用Token-Parameter注意力(Pattention)层取代线性投影层,实现了灵活且高效的模型扩展。实验表明,TokenFormer在保持性能的同时大幅降低了训练成本,在语言和视觉任务上表现优异。论文链接:https://arxiv.org/pdf/2410.23168。
218 45
|
11月前
|
机器学习/深度学习 数据采集 人工智能
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
层次化Softmax算法通过引入Huffman树结构,将传统Softmax的计算复杂度从线性降至对数级别,显著提升了大规模词汇表的训练效率。该算法不仅优化了计算效率,还在处理大规模离散分布问题上提供了新的思路。文章详细介绍了Huffman树的构建、节点编码、概率计算及基于Gensim的实现方法,并讨论了工程实现中的优化策略与应用实践。
268 15
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
|
算法 Java
并发垃圾回收算法对于大规模服务器应用的优势
并发垃圾回收算法对于大规模服务器应用的优势
|
12月前
|
算法 测试技术 量子技术
时隔5年,谷歌再创量子霸权里程碑!RCS算法让电路体积增加一倍
谷歌在量子计算领域取得重大突破,通过随机电路采样(RCS)算法,成功将量子电路体积翻倍,实现了量子霸权的里程碑。这一成果发表于《自然》杂志,展示了量子动力学与噪声交互作用下的相变现象,推动了量子计算在密码学、材料科学等领域的应用潜力。尽管如此,量子计算仍面临错误率高、可扩展性差等挑战。
238 3
|
12月前
|
算法 测试技术 量子技术
时隔5年,谷歌再创量子霸权里程碑!RCS算法让电路体积增加一倍
谷歌在量子计算领域取得新突破,其研究人员在《自然》杂志上发表论文《随机电路采样中的相变》,介绍了一种名为随机电路采样(RCS)的算法。该算法通过优化量子关联速度、防止经典简化和利用相变现象,使量子电路体积在相同保真度下增加一倍,为量子计算的发展树立了新的里程碑。实验结果显示,RCS算法在67个量子比特和32个周期的条件下,实现了1.5×10^-3的保真度。这一成果不仅提升了量子计算的效率,也为解决噪声问题提供了新思路。
258 3
|
机器学习/深度学习 存储 分布式计算
未来趋势:探索GraphRAG在大规模异构网络环境下的挑战与机遇
【10月更文挑战第11天】随着互联网和物联网技术的快速发展,数据不仅数量庞大,而且类型多样,形成了复杂的大规模异构网络。这些网络中包含了不同类型的节点(如文本、图像、视频等)以及它们之间的多种关系。如何有效地处理这种大规模异构网络,以便进行内容理解与生成,是当前研究的一个热点问题。Graph Retrieval-Augmented Generation (GraphRAG) 框架作为一种新兴的方法,在这一领域展现出了巨大的潜力。本文将深入探讨GraphRAG的基础理论、构建方法,并分析其在未来大规模异构网络环境下的挑战与机遇。
627 3
|
数据采集 算法 5G
基于稀疏CoSaMP算法的大规模MIMO信道估计matlab性能仿真,对比LS,OMP,MOMP,CoSaMP
该研究采用MATLAB 2022a仿真大规模MIMO系统中的信道估计,利用压缩感知技术克服传统方法的高开销问题。在稀疏信号恢复理论基础上,通过CoSaMP等算法实现高效信道估计。核心程序对比了LS、OMP、NOMP及CoSaMP等多种算法的均方误差(MSE),验证其在不同信噪比下的性能。仿真结果显示,稀疏CoSaMP表现优异。
212 2
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现深度学习模型:图神经网络(GNN)
使用Python实现深度学习模型:图神经网络(GNN)
1120 1
|
安全 测试技术 网络架构
澳大利亚电信由断电引发的大规模网络中断给CIO带来的惨痛教训
澳大利亚电信由断电引发的大规模网络中断给CIO带来的惨痛教训
【免费】面向多微网网络结构设计的大规模二进制矩阵优化算法
【免费】面向多微网网络结构设计的大规模二进制矩阵优化算法
下一篇
开通oss服务