如何解决图神经网络过相关?一个IBM的新视角!

简介: 如何解决图神经网络过相关?一个IBM的新视角!

了解图神经网络的朋友对于深层GNN中的过平滑问题一定不陌生,随着网络层数的增加,模型的效果反而急剧下降,令人心痛。回忆一下,常见的解决过平滑的方案有DropEdge、基于残差的方法还有Normalization等,所以它们有帮到困境中的你了吗(笑)?


今天看到一篇有趣的文章,它没有止步于GNN中的过平滑问题,而是从另一个新视角去思考深层网络效果骤降的问题——特征维度的过相关问题。所谓特征维度的过相关,顾名思义,指我们所学习到的特征维度之间高度相关,意味着高冗余以及学习到的维度编码的信息较少,从而损害下游任务效果。文中,作者不仅从理论与实践证明了特征维度相关问题的重要性,还提出方案DeCorr,分别基于显示特征维度与得到输入与表示最大互信息两种方法实现去相关任务。


谠言嘉论,不如实验结果更有力度。从表中可以看出,所提出的方案对于相同的模型层数,在大多数情况下可以实现最佳性能,并显著减缓性能下降。例如,在Cora数据集中,DeCorr分别将15层GCN和30层GCN提高了58.9%和60.3%。



话不多说,一起来看论文~


论文标题:Feature Overcorrelation in Deep Graph Neural Networks: A New Perspective


论文链接:https://doi.org/10.1145/3534678.3539445


代码链接: https://github.com/ChandlerBang/DeCorr


一、DeCorr核心思想


本文由密歇根州立大学、IBM发表于KDD2022上。在具体看DeCorr之前,我们有必要先探索一下过平滑与过相关的关系,以便更好地设计模型。


为了评估具体的过相关与过平滑程度,我们采用Corr和SMV作为评估指标,具体公式为:


屏幕截图 2023-10-10 121535.png


我们要明确:过相关和过平滑既不相同也不独立。过平滑指的是节点表示之间的相似性,通过节点平滑度来衡量,而过度相关则是通过维度相关来衡量,二者本质不同。Figure 6 中可以看出,在Pubmed和CoauthorCS上,随着Corr值的增加,SMV并未变化较多。



另一方面,它们又高度相关


  • 过相关和过平滑都使得学习到的表示编码信息量更少,损害下游任务性能;
  • 两种情况都由GNN模型中的多次传播引起,极端情况下的过平滑也会出现过相关的问题。

文章所提出的DeCorr目的在于解决深层GNN中的过相关问题,下面具体来看所提出的方法细节。


二、算法细节

方法1:显式特征维数去相关:最小化表示中维数之间相关性。为简单起见,文章采用协方差替代皮尔逊相关系数。给定一组特征维度 ,我们的目标是最小化损失函数:


屏幕截图 2023-10-10 121655.png


最小化第一项会降低不同特征维度之间的协方差,当第一项值为0时,维度之间将不相关。通过最小化第二项,将每个维度的范数(减去平均值后)推到1,然后我们将上式改写为:


屏幕截图 2023-10-10 121727.png


此处注意,由于梯度 的时间复杂度为 ,而在真实应用场景中,图的节点数量众多,它是不可扩展的。为此,我们采用蒙特卡洛采样 个节点来估计协方差的等概率节点。这样,梯度计算的时间复杂度降为 ,随图的大小线性增加。


结合去相关损失屏幕截图 2023-10-10 121809.png ,最终的损失函数为:


屏幕截图 2023-10-10 121836.png


通过最小化损失函数,我们可以明确强制每个层后的表示减少相关性,从而缓解过相关问题。


方法2:互信息最大化:最大化输入和表示之间的互信息,从而使特征更加独立。采用互信息的动机来自ICA,它的原理旨在学习维度相关性较低的表示,同时最大化输入和表示之间的MI。由于深层GNN在表示中的编码信息量更少,MMI可以确保即使模型堆叠了很多层,学习的表示也可以保留来自输入的部分信息。


MI最大化过程公式为:


屏幕截图 2023-10-10 121911.png


由于在神经网络的背景下,估计变量 与 的MI非常困难,这里采用一个很nice的方法——通过样本有效估计高维连续数据互信息(MINE)。具体地方法为,我们通过训练分类器来区分来自联合分布 和 的样本对来估计互信息的下限。因此,我们的训练目标为:


屏幕截图 2023-10-10 121943.png


分类器建模为:


屏幕截图 2023-10-10 122015.png


在实际应用中,我们从每个batch中从联合分布屏幕截图 2023-10-10 122050.png 采样屏幕截图 2023-10-10 122116.png 去估计目标函数的第一项,然后在batch中打乱 去生成“负对”去估计第二项。


为减少损耗,仅在每 层去应用 以加速训练过程:


屏幕截图 2023-10-10 122141.png


最终完整的模型损失函数为:


屏幕截图 2023-10-10 122206.png


与普通GNN模型相比,所提出模型的额外复杂度可忽略不计;额外时间复杂度为 。具体推导过程详见论文。


三、实验结果

如图所示,在删除测试集和验证集中的节点特征的情况下(这种情况下一般深层GNN的效果要比浅层好),Table 2列出12种情况,DeCorr在8种情况下实现了最佳性能,显著优于浅层GNN。例如,在Pubmed数据集上,DeCorr在GCN、GAT和ChebyNet上分别实现了36.9%、33.9%和19.5%的改进。



为探索DeCorr实现性能改进的原因,论文绘制了在训练过程中的Corr、SMV以及精确度变化图,证明了深层GNN种过相关问题的重要性。



结合其他深度学习的方法实验结果如下:



四、总结

论文针对深层GNN网络种效果下降的问题,考虑了除过平滑外的一个新问题——过相关。论文分析了过相关问题的重要性,探索了背后的原因,并设计了一个通用框架DeCorr去改善过相关现象。可以看出,DeCorr在改进深层GNN性能方面达到较好效果,此外,在其他应用场景中也具有潜力。


相关文章
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
ICLR 2024 Spotlight:训练一个图神经网络即可解决图领域所有分类问题!
【2月更文挑战第17天】ICLR 2024 Spotlight:训练一个图神经网络即可解决图领域所有分类问题!
209 2
ICLR 2024 Spotlight:训练一个图神经网络即可解决图领域所有分类问题!
|
1月前
|
存储 安全 网络安全
网络安全法律框架:全球视角下的合规性分析
网络安全法律框架:全球视角下的合规性分析
45 1
|
6月前
|
安全 网络安全 区块链
网络安全的新视角:探索漏洞、加密技术与安全意识
在当今数字化时代,网络安全成为至关重要的议题。本文深入探讨了网络安全领域的关键问题:网络安全漏洞的本质与影响、最新的加密技术应用、以及如何提升个体和组织的安全意识。通过对这些方面的深入分析,读者能够更好地理解和应对当前复杂的网络安全挑战。
29 1
|
2月前
|
存储 安全 算法
网络安全与信息安全:构建数字世界的防线在数字化浪潮席卷全球的今天,网络安全与信息安全已成为维系现代社会正常运转的关键支柱。本文旨在深入探讨网络安全漏洞的成因与影响,剖析加密技术的原理与应用,并强调提升公众安全意识的重要性。通过这些综合性的知识分享,我们期望为读者提供一个全面而深刻的网络安全视角,助力个人与企业在数字时代中稳健前行。
本文聚焦网络安全与信息安全领域,详细阐述了网络安全漏洞的潜在威胁、加密技术的强大防护作用以及安全意识培养的紧迫性。通过对真实案例的分析,文章揭示了网络攻击的多样性和复杂性,强调了构建全方位、多层次防御体系的必要性。同时,结合当前技术发展趋势,展望了未来网络安全领域的新挑战与新机遇,呼吁社会各界共同努力,共筑数字世界的安全防线。
|
4月前
|
安全 Java 网络安全
【认知革命】JAVA网络编程新视角:重新定义URL与URLConnection,让网络资源触手可及!
【认知革命】JAVA网络编程新视角:重新定义URL与URLConnection,让网络资源触手可及!
48 2
|
4月前
|
SQL 安全 算法
网络安全与信息安全:漏洞、加密技术与安全意识的综合视角
【8月更文挑战第6天】在数字化时代,网络安全和信息安全成为维护个人隐私和企业资产的关键防线。本文将深入探讨网络安全漏洞的成因与影响,分析加密技术的工作原理及其在数据保护中的作用,并强调提升安全意识的必要性。通过综合这三个维度,我们旨在为读者提供一个全面的网络安全和信息安全知识框架,帮助他们在日益复杂的网络环境中保持警惕,采取有效措施保护自身和组织的安全。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer 能代替图神经网络吗?
Transformer模型的革新性在于其自注意力机制,广泛应用于多种任务,包括非原始设计领域。近期研究专注于Transformer的推理能力,特别是在图神经网络(GNN)上下文中。
131 5
|
5月前
|
机器学习/深度学习 搜索推荐 知识图谱
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
【7月更文挑战第22天】北大港大联手打造SelfGNN,一种结合图神经网络与自监督学习的推荐系统,专攻信息过载及数据噪声难题。SelfGNN通过短期图捕获实时用户兴趣,利用自增强学习提升模型鲁棒性,实现多时间尺度动态行为建模,大幅优化推荐准确度与时效性。经四大真实数据集测试,SelfGNN在准确性和抗噪能力上超越现有模型。尽管如此,高计算复杂度及对图构建质量的依赖仍是待克服挑战。[详细论文](https://arxiv.org/abs/2405.20878)。
87 5
|
5月前
|
机器学习/深度学习 PyTorch 算法框架/工具
图神经网络是一类用于处理图结构数据的神经网络。与传统的深度学习模型(如卷积神经网络CNN和循环神经网络RNN)不同,
图神经网络是一类用于处理图结构数据的神经网络。与传统的深度学习模型(如卷积神经网络CNN和循环神经网络RNN)不同,
|
5月前
|
机器学习/深度学习 编解码 数据可视化
图神经网络版本的Kolmogorov Arnold(KAN)代码实现和效果对比
目前我们看到有很多使用KAN替代MLP的实验,但是目前来说对于图神经网络来说还没有类似的实验,今天我们就来使用KAN创建一个图神经网络Graph Kolmogorov Arnold(GKAN),来测试下KAN是否可以在图神经网络方面有所作为。
206 0
下一篇
DataWorks