ICML2020 | GCNII:使用初始残差和恒等映射解决过度平滑

简介: ICML2020 | GCNII:使用初始残差和恒等映射解决过度平滑

今天给大家介绍中国人民大学魏哲巍教授课题组发表在ICML2020上的一项工作。针对目前大多数图卷积网络(GCN)模型因过度平滑而具有的浅层体系结构限制其模型性能的问题,作者提出了vGCN模型的扩展-GCNII。它具有两种简单而有效的技术:初始残差和恒等映射,相关证据证明,这两种技术可以有效地缓解了过度平滑的问题。实验表明,在各种半监督和有监督任务上,深层GCNII模型的性能均优于最新方法。


image.png

image.png

1


介绍


图卷积网络(GCN)将卷积神经网络(CNN)概括为图结构化数据。为了学习图形表示,“图形卷积”操作将相同的线性变换应用于节点的所有邻居,然后加上非线性激活函数。近年来,GCN及其变体已成功地应用于包括社会分析在内的广泛应用。尽管取得了巨大的成功,但目前大多数的GCN模型都是浅的。大多数模型都通过2层模型实现了最佳性能。这种浅层架构限制了它们从高阶邻居中提取信息的能力。但是,堆叠更多的层并添加非线性会降低这些模型的性能,这种现象被称为过度平滑。这表明随着层数的增加,GCN中节点的表示倾向于收敛到某个值,因此变得难以区分。近些年来,一些工作试图解决过度平滑的问题,但是都没有取得太好的效果。


设计GCN模型以有效地防止过度平滑并以真正深层的网络结构实现最新结果仍然是一个未解决的问题。本文中,作者通过两个简单而有效的修改将vGCN扩展到深度模型,从而对这个开放问题给出了肯定的答案。使用初始残差和恒等映射的GCNII是一个深层的GCN模型,能够解决过度平滑的问题。在每一层,初始残差从输入层构造一个跳跃连接,而恒等映射将单位矩阵添加到权重矩阵。经验研究表明,当增加GCNII的网络深度时,这两种技术可以防止过度平滑并持续改善GCNII的性能。此外作者还提供了多层GCN和GCNII模型的理论分析,分析表明,在多层GCN模型中,度数高的节点更有可能遭受过度平滑的影响,并且进行实验以证实这一理论推测。


2


模型


GCNII模型的每一层的定义为:

image.png

其中α`和β`是要讨论的两个超参数,与普通GCN模型相比,作者进行了两个修改:1)将平滑表示PH与到第一层H(0)的初始剩余连接相结合;2)在权重矩阵W中添加一个恒等映射In。


初始剩余连接为了在ResNet中模拟跳跃连接,Kipf等人提出了将平滑化表示PH〜(`)与H(`)相结合的残差连接。但这种残差连接仅部分缓解了过度平滑的问题。当我们堆叠更多层时,模型的性能仍然会下降。


作者不使用残差连接来承载来自上一层的信息,而是构造与初始表示H(0)的连接。初始残差连接确保即使堆叠了许多层,每个节点的最终表示仍保留输入层中至少α'的一部分。实际上,简单地将α`设置为0.1或0.2,以便每个节点的最终表示形式至少包含一部分输入特征。作者还提出,H(0)不一定非要是特征矩阵X。如果特征维d大,可以在X上应用完全连接的神经网络,以在前向传播之前获得低维的初始表示H(0)。


恒等映射为了弥补APPNP的不足,作者借鉴了ResNet的恒等映射思想,向权重矩阵W(`)添加一个单位矩阵In,恒等映射确保深度GCNII模型至少具有与浅层模型相同的性能。特别地,通过将β`设置得足够小,深层GCNII会忽略权重矩阵W(`)并从本质上模拟APPNP,特征矩阵的不同维度之间频繁的交互会降低模型在半监督任务中的性能。将平滑表示PH直接映射到输出减少了这种相互作用。最优权重矩阵W(l)具有较小的范数;2)唯一的关键点是全局最小值。第一个属性使得能够对W`进行强正则化,以避免过度拟合,而后一个属性在训练数据有限的半监督任务中较为理想。


理论上,K层GCN的节点特征将收敛到子空间并引起信息丢失。特别地,收敛速度取决于s,其中s是权重矩阵的最大奇异值。通过替换W并对W实施正则化,强制W(`)的范数要小,最大奇异值s也将接近1,这意味着s 很大,因此信息丢失得到缓解。此外,恒等映射也与迭代收缩阈值有所关系。


3


实验


实验中,作者使用三个标准的引文网络数据集Cora,Citeseer和Pubmed进行半监督节点分类,对于有监督节点分类,使用Chameleon,Cornell,Texas,Wisconsin web网络数据集。对于归纳学习,作者使用蛋白质-蛋白质相互作用(PPI)网络。

image.png

半监督节点分类


对于半监督节点分类任务,作者在Cora,Citeseer和Pubmed的三个数据集上应用标准的固定训练/验证/测试拆分,每个类别有20个节点用于训练,500个节点用于验证 和1,000个节点进行测试。对于基线,作者使用JKNet和DropEdge,将DropEdge装备在三个主干上:GCN,JKNet和IncepGCN。另外还包括三个最新的浅层模型:GCN,GAT和APPNP。


下表报告了100次运行后GCN和GCNII的测试节点上的平均分类精度和标准差。作者们重复使用中已报告的有关GCN,GAT和APPNP的指标,并重用中的有关JKNet,JKNet和Incep的最佳指标。结果成功地证明了GCNII和GCNII *在所有三个数据集上均实现了最新的性能。值得注意的是,GCNII的性能至少比以前的先进方法高出2%。还值得指出的是,最近的两个深层模型JKNet和具有DropEdge的IncepGCN似乎没有提供比浅层模型APPNP显着的优势。另一方面,作者的方法使用64层模型来实现此结果,这证明了深度网络结构的好处。

image.png

下表总结了具有不同层数的深度模型的结果,作者重用了JKNet,JKNet(Drop)和Incep(Drop)的最佳报告结果。结果显示在Cora和Citeseer上,随着层数的增加,GCNII和GCNII *的性能不断提高。在Pubmed上,GCNII和GCNII *在16层上可获得最佳结果,并且在将网络深度增加到64时保持相似的性能。作者认为这归因于恒等映射技术。总体而言,结果表明通过初始残差和恒等映射,可以解决过度平滑的问题,并将vGCN扩展为真正的深度模型。另一方面,当层数超过32时,具有DropEdge和JKNet的GCN的性能会迅速下降,这意味着它们仍然会遭受过度平滑的困扰。

image.png

有监督节点分类


作者使用7个数据集:Cora,Citeseer,Pubmed,Chameleon,Cornell,Texas,Wisconsin。对于每个数据集,作者将每个类别的节点随机分为60%,20%和20%以进行训练,验证和测试,并在10个随机分割中测量测试集上所有模型的性能,除了前面提到的基准,作者还采用了包括Geom-GCN的三个变体。


下表报告了每个模型的平均分类精度。作者重复使用已报告的针对GCN,GAT和Geom-GCN的指标。结果显示,GCNII和GCNII *在7个数据集中的6个数据集上获得了最新的最新结果,这证明了深层GCNII框架的优越性。值得注意的是,在Wisconsin上,GCNII *的表现优于APPNP超过12%。该结果表明,通过将非线性引入每层,GCNII的预测能力要强于线性模型APPNP的预测能力。

image.png

归纳学习


作者在PPI数据集上应用具有2048个隐藏单元的9层GCNII和GCNII *模型,作者将GCNII与以下最新技术进行了比较:GraphSAGE,VR-GCN,GaAN,GAT,JKNet,GeniePath,Cluster-GCN。结果表明GCNII和GCNII *在PPI上取得了最新的最新性能。特别是,GCNII通过9层模型实现了这一性能,而所有基线模型的层数均小于或等于5。这表明,通过在归纳任务中增加网络深度,还可以利用更大的预测能力。

image.png

4


总结


本文中,作者提出了GCNII,这是一个简单而深入的GCN模型,可通过初始残差连接和恒等映射防止过度平滑。理论分析表明,GCNII能够表达具有任意系数的K阶多项式滤波器。对于具有多层的vGCN,作者提供了理论和经验证据,表明度数较高的节点更容易遭受过度平滑的困扰。实验表明,深度GCNII模型可以在各种半监督和有监督任务上获得最新的最新结果。


目录
相关文章
|
7月前
|
机器学习/深度学习 算法 计算机视觉
YOLOv8改进-论文笔记】 AKConv(可改变核卷积):任意数量的参数和任意采样形状的即插即用的卷积
AKConv是一种可改变核卷积,旨在解决传统卷积的局限,包括固定大小的卷积窗口和卷积核尺寸。AKConv提供灵活的卷积核参数和采样形状,适应不同尺度特征。其创新点包括:1)支持任意大小和形状的卷积核;2)使用新算法确定初始采样位置;3)应用动态偏移调整采样位置;4)优化模型参数和计算效率。AKConv已应用于YOLOv8,提高网络性能。相关代码可在<https://github.com/CV-ZhangXin/AKConv>找到。
|
4月前
|
存储 机器学习/深度学习 物联网
基于重要性加权的LLM自我改进:考虑分布偏移的新框架
本文提出一种新的大型语言模型(LLM)自我改进框架——基于重要性加权的自我改进(IWSI),旨在优化自动生成数据的质量。通过引入DS权重指标衡量数据的分布偏移程度(DSE),该方法不仅能确保答案正确性,还能过滤掉那些虽正确但分布上偏离较大的样本,以提升自我训练的效果。IWSI使用一个小的有效数据集来估算每个自生成样本的DS权重,并据此进行筛选。实验结果显示,相比于仅依赖答案正确性的传统方法,IWSI能更有效地提高LLM在多种任务上的表现。特别是在数学问题解答任务上,相较于基线方法,IWSI带来了显著的性能提升,证实了过滤高DSE样本的重要性及该方法的有效性。
68 0
基于重要性加权的LLM自我改进:考虑分布偏移的新框架
|
5月前
|
机器学习/深度学习 编解码 PyTorch
【YOLOv8改进】HWD: Haar小波降采样,用于语义分割的降采样模块,减少特征图的空间分辨率
YOLOv8专栏探讨了卷积网络的改进,特别是提出了一种名为HWD的基于Haar小波的下采样模块,用于语义分割,旨在保留更多空间信息。HWD结合了无损编码和特征表示学习,提高了模型性能并减少了信息不确定性。新度量标准FEI量化了下采样的信息保留能力。论文和代码可在提供的链接中找到。核心代码展示了如何在PyTorch中实现HWD模块。
|
5月前
|
机器学习/深度学习 人工智能 计算机视觉
【YOLOv8改进 - 注意力机制】HCF-Net 之 MDCR:多稀释通道细化器模块 ,以不同的稀释率捕捉各种感受野大小的空间特征 | 小目标
HCF-Net是针对红外小目标检测的深度学习模型,采用U-Net改进架构,包含PPA、DASI和MDCR模块。PPA利用多分支特征提取增强小目标表示,DASI实现自适应通道融合,MDCR通过多扩张率深度可分离卷积细化空间特征。实验显示,HCF-Net在SIRST数据集上表现出色,超越其他方法。代码和论文可在给出的链接获取。
|
6月前
|
机器学习/深度学习 关系型数据库
【YOLOv8改进 - 注意力机制】NAM:基于归一化的注意力模块,将权重稀疏惩罚应用于注意力机制中,提高效率性能
**NAM: 提升模型效率的新颖归一化注意力模块,抑制非显著权重,结合通道和空间注意力,通过批量归一化衡量重要性。在Resnet和Mobilenet上的实验显示优于其他三种机制。源码见[GitHub](https://github.com/Christian-lyc/NAM)。**
|
6月前
|
机器学习/深度学习 决策智能
**批量归一化(BN)**是2015年提出的深度学习优化技术,旨在解决**内部协变量偏移**和**梯度问题**。
【6月更文挑战第28天】**批量归一化(BN)**是2015年提出的深度学习优化技术,旨在解决**内部协变量偏移**和**梯度问题**。BN通过在每个小批量上执行**标准化**,然后应用学习到的γ和β参数,确保层间输入稳定性,加速训练,减少对超参数的敏感性,并作为隐含的正则化手段对抗过拟合。这提升了模型训练速度和性能,简化了初始化。
59 0
|
7月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进】MPDIoU:有效和准确的边界框损失回归函数 (论文笔记+引入代码)
YOLO目标检测专栏介绍了YOLO的有效改进和实战案例,包括卷积、主干网络、注意力机制和检测头的创新。提出了一种新的边界框回归损失函数MPDIoU,它基于最小点距离,能更好地处理不同宽高比的预测框,包含重叠、中心点距离和尺寸偏差的全面考虑。MPDIoU损失函数在YOLACT和YOLOv7等模型上的实验显示了优于现有损失函数的性能。此外,还介绍了WIoU_Scale类用于计算加权IoU,以及bbox_iou函数实现不同IoU变体的计算。详细实现和配置可在相应链接中查阅。
|
7月前
|
机器学习/深度学习 编解码 自然语言处理
LRP-QViT完美而来 | 输出层分配相关性+剪切通道让Swin Transformer量化后居然涨1.5个点
LRP-QViT完美而来 | 输出层分配相关性+剪切通道让Swin Transformer量化后居然涨1.5个点
293 0
|
机器学习/深度学习
采用附加动量法和自适应学习率设计来改进bp神经网络的迭代速度,如果不迭代学习率会提高精度;迭代学习率(自适应)会加快收敛,但精度降低(Matlab代码实现)
采用附加动量法和自适应学习率设计来改进bp神经网络的迭代速度,如果不迭代学习率会提高精度;迭代学习率(自适应)会加快收敛,但精度降低(Matlab代码实现)
132 0
|
机器学习/深度学习 算法
【数字预失真(DPD)】静态DPD设计扩展为自适应设计及评估两种自适应DPD设计:基于(最小均方)LMS算法、使用递归预测误差方法(RPEM)算法研究(Matlab&Simulink实现)
【数字预失真(DPD)】静态DPD设计扩展为自适应设计及评估两种自适应DPD设计:基于(最小均方)LMS算法、使用递归预测误差方法(RPEM)算法研究(Matlab&Simulink实现)
178 0