今天给大家介绍中国人民大学魏哲巍教授课题组发表在ICML2020上的一项工作。针对目前大多数图卷积网络(GCN)模型因过度平滑而具有的浅层体系结构限制其模型性能的问题,作者提出了vGCN模型的扩展-GCNII。它具有两种简单而有效的技术:初始残差和恒等映射,相关证据证明,这两种技术可以有效地缓解了过度平滑的问题。实验表明,在各种半监督和有监督任务上,深层GCNII模型的性能均优于最新方法。
1
介绍
图卷积网络(GCN)将卷积神经网络(CNN)概括为图结构化数据。为了学习图形表示,“图形卷积”操作将相同的线性变换应用于节点的所有邻居,然后加上非线性激活函数。近年来,GCN及其变体已成功地应用于包括社会分析在内的广泛应用。尽管取得了巨大的成功,但目前大多数的GCN模型都是浅的。大多数模型都通过2层模型实现了最佳性能。这种浅层架构限制了它们从高阶邻居中提取信息的能力。但是,堆叠更多的层并添加非线性会降低这些模型的性能,这种现象被称为过度平滑。这表明随着层数的增加,GCN中节点的表示倾向于收敛到某个值,因此变得难以区分。近些年来,一些工作试图解决过度平滑的问题,但是都没有取得太好的效果。
设计GCN模型以有效地防止过度平滑并以真正深层的网络结构实现最新结果仍然是一个未解决的问题。本文中,作者通过两个简单而有效的修改将vGCN扩展到深度模型,从而对这个开放问题给出了肯定的答案。使用初始残差和恒等映射的GCNII是一个深层的GCN模型,能够解决过度平滑的问题。在每一层,初始残差从输入层构造一个跳跃连接,而恒等映射将单位矩阵添加到权重矩阵。经验研究表明,当增加GCNII的网络深度时,这两种技术可以防止过度平滑并持续改善GCNII的性能。此外作者还提供了多层GCN和GCNII模型的理论分析,分析表明,在多层GCN模型中,度数高的节点更有可能遭受过度平滑的影响,并且进行实验以证实这一理论推测。
2
模型
GCNII模型的每一层的定义为:
其中α`和β`是要讨论的两个超参数,与普通GCN模型相比,作者进行了两个修改:1)将平滑表示PH与到第一层H(0)的初始剩余连接相结合;2)在权重矩阵W中添加一个恒等映射In。
初始剩余连接为了在ResNet中模拟跳跃连接,Kipf等人提出了将平滑化表示PH〜(`)与H(`)相结合的残差连接。但这种残差连接仅部分缓解了过度平滑的问题。当我们堆叠更多层时,模型的性能仍然会下降。
作者不使用残差连接来承载来自上一层的信息,而是构造与初始表示H(0)的连接。初始残差连接确保即使堆叠了许多层,每个节点的最终表示仍保留输入层中至少α'的一部分。实际上,简单地将α`设置为0.1或0.2,以便每个节点的最终表示形式至少包含一部分输入特征。作者还提出,H(0)不一定非要是特征矩阵X。如果特征维d大,可以在X上应用完全连接的神经网络,以在前向传播之前获得低维的初始表示H(0)。
恒等映射为了弥补APPNP的不足,作者借鉴了ResNet的恒等映射思想,向权重矩阵W(`)添加一个单位矩阵In,恒等映射确保深度GCNII模型至少具有与浅层模型相同的性能。特别地,通过将β`设置得足够小,深层GCNII会忽略权重矩阵W(`)并从本质上模拟APPNP,特征矩阵的不同维度之间频繁的交互会降低模型在半监督任务中的性能。将平滑表示PH直接映射到输出减少了这种相互作用。最优权重矩阵W(l)具有较小的范数;2)唯一的关键点是全局最小值。第一个属性使得能够对W`进行强正则化,以避免过度拟合,而后一个属性在训练数据有限的半监督任务中较为理想。
理论上,K层GCN的节点特征将收敛到子空间并引起信息丢失。特别地,收敛速度取决于s,其中s是权重矩阵的最大奇异值。通过替换W并对W实施正则化,强制W(`)的范数要小,最大奇异值s也将接近1,这意味着s 很大,因此信息丢失得到缓解。此外,恒等映射也与迭代收缩阈值有所关系。
3
实验
实验中,作者使用三个标准的引文网络数据集Cora,Citeseer和Pubmed进行半监督节点分类,对于有监督节点分类,使用Chameleon,Cornell,Texas,Wisconsin web网络数据集。对于归纳学习,作者使用蛋白质-蛋白质相互作用(PPI)网络。
半监督节点分类
对于半监督节点分类任务,作者在Cora,Citeseer和Pubmed的三个数据集上应用标准的固定训练/验证/测试拆分,每个类别有20个节点用于训练,500个节点用于验证 和1,000个节点进行测试。对于基线,作者使用JKNet和DropEdge,将DropEdge装备在三个主干上:GCN,JKNet和IncepGCN。另外还包括三个最新的浅层模型:GCN,GAT和APPNP。
下表报告了100次运行后GCN和GCNII的测试节点上的平均分类精度和标准差。作者们重复使用中已报告的有关GCN,GAT和APPNP的指标,并重用中的有关JKNet,JKNet和Incep的最佳指标。结果成功地证明了GCNII和GCNII *在所有三个数据集上均实现了最新的性能。值得注意的是,GCNII的性能至少比以前的先进方法高出2%。还值得指出的是,最近的两个深层模型JKNet和具有DropEdge的IncepGCN似乎没有提供比浅层模型APPNP显着的优势。另一方面,作者的方法使用64层模型来实现此结果,这证明了深度网络结构的好处。
下表总结了具有不同层数的深度模型的结果,作者重用了JKNet,JKNet(Drop)和Incep(Drop)的最佳报告结果。结果显示在Cora和Citeseer上,随着层数的增加,GCNII和GCNII *的性能不断提高。在Pubmed上,GCNII和GCNII *在16层上可获得最佳结果,并且在将网络深度增加到64时保持相似的性能。作者认为这归因于恒等映射技术。总体而言,结果表明通过初始残差和恒等映射,可以解决过度平滑的问题,并将vGCN扩展为真正的深度模型。另一方面,当层数超过32时,具有DropEdge和JKNet的GCN的性能会迅速下降,这意味着它们仍然会遭受过度平滑的困扰。
有监督节点分类
作者使用7个数据集:Cora,Citeseer,Pubmed,Chameleon,Cornell,Texas,Wisconsin。对于每个数据集,作者将每个类别的节点随机分为60%,20%和20%以进行训练,验证和测试,并在10个随机分割中测量测试集上所有模型的性能,除了前面提到的基准,作者还采用了包括Geom-GCN的三个变体。
下表报告了每个模型的平均分类精度。作者重复使用已报告的针对GCN,GAT和Geom-GCN的指标。结果显示,GCNII和GCNII *在7个数据集中的6个数据集上获得了最新的最新结果,这证明了深层GCNII框架的优越性。值得注意的是,在Wisconsin上,GCNII *的表现优于APPNP超过12%。该结果表明,通过将非线性引入每层,GCNII的预测能力要强于线性模型APPNP的预测能力。
归纳学习
作者在PPI数据集上应用具有2048个隐藏单元的9层GCNII和GCNII *模型,作者将GCNII与以下最新技术进行了比较:GraphSAGE,VR-GCN,GaAN,GAT,JKNet,GeniePath,Cluster-GCN。结果表明GCNII和GCNII *在PPI上取得了最新的最新性能。特别是,GCNII通过9层模型实现了这一性能,而所有基线模型的层数均小于或等于5。这表明,通过在归纳任务中增加网络深度,还可以利用更大的预测能力。
4
总结
本文中,作者提出了GCNII,这是一个简单而深入的GCN模型,可通过初始残差连接和恒等映射防止过度平滑。理论分析表明,GCNII能够表达具有任意系数的K阶多项式滤波器。对于具有多层的vGCN,作者提供了理论和经验证据,表明度数较高的节点更容易遭受过度平滑的困扰。实验表明,深度GCNII模型可以在各种半监督和有监督任务上获得最新的最新结果。