超越GraphCL,GNN+对比学习的节点分类新SOTA

简介: 超越GraphCL,GNN+对比学习的节点分类新SOTA


de0e94277cb89ad0aae519345684f2e7.png


今天给大家解读一篇NIPS2021中GNN与对比学习结合的论文,后面会持续更新NIPS2021中关于对比学习(Contrastive Learning)论文的解读,欢迎大家关注。


这篇论文来自美国普渡大学,通过引入对抗学习作为图数据增强方法,从而避免在训练期间捕获冗余信息导致下游任务效果差的问题。


ce089318da852a0559c3c4eaf725da41.png


一、摘要



由于现实世界图/网络数据中普遍存在的标签稀缺问题,因此非常需要图神经网络 (GNN) 的自监督学习。图对比学习 (GCL) 通过训练 GNN 以最大化相同图在不同增强形式中的表示之间的对应关系,即使不使用标签也可以产生鲁棒且可迁移的 GNN。然而,由传统 GCL 训练的 GNN 经常冒着捕获冗余图特征的风险,因此可能很脆弱,并且在下游任务中效果很差。在这里,我们提出了一种新的方法,称为对抗性图对比学习 (AD-GCL),它使 GNN 能够通过优化 GCL 中使用的对抗性图增强策略来避免在训练期间捕获冗余信息。我们将 AD-GCL 与理论解释相结合,并基于可训练的边缘下降图增强设计了一个实用的实例。通过与最先进的 GCL 方法相比,我们通过实验验证了 AD-GCL ,在 18 个不同的基准数据集的任务中,在无监督学习中实现了高达 14%、在迁移学习中高达 6% 和在半监督学习设置中的 3% 的性能提升。


60af3c7ce9463738e2221b9075cbfef0.png


AD-GCL 由两个组件组成:第一个组件包含一个 GNN 编码器,它采用 InfoMax 来最大化原始图及其增强图的表示之间的对应/互信息。第二个组件包含一个基于 GNN 的增强器, 旨在优化增强策略以尽可能减少原始图中的冗余信息。AD-GCL 本质上允许编码器捕获最少的足够信息来区分数据集中的图形。我们进一步提供了 AD-GCL 的理论解释。我们表明,通过对增强器的搜索空间进行一定的正则化,AD-GCL 可以产生与下游任务相关的信息的下限保证,同时保持原始图中冗余信息的上限保证, 这符合信息瓶颈(IB)原则的目标。


二、AD-GCL 的理论动机和制定



779e4a59d7ebc27e62e4721502bbae85.png


等式3中的 InfoMax 原理对于一般表示学习在实践中可能会出现问题。Tschannen 等人已经表明,对于图像分类,捕获与图像标签完全无关的信息的表示也能够最大化互信息, 但这种表示对于图像分类绝对没有用。在图表示学习中也可以观察到类似的问题,如下图所示:


17c1ecac75f45cca26fb7413464622c5.png


我们考虑数据集 ogbg-molbace 中的图的二元图分类问题。两个具有完全相同架构的 GNN 编码器被训练以保持图表示和输入图之间的互信息最大化,但同时一个 GNN 编码器由随机图标签进一步作监督。尽管由随机标签监督的 GNN 编码器仍然在每个输入图与其表示(即互信息最大化)之间保持一对一的对应关系,但我们可能会在对下游ground-truth标签进行评估时观察到该 GNN 编码器的显著性能退化。


这一观察激励我们重新思考什么是好的图表示。最近,信息瓶颈(IB)已应用于学习图表示。具体来说, 图信息瓶颈(GIB)的目标如下:


295b39dd9b9cacb32c1a7ad459183229.png


InfoMax 和 GIB 的区别:InfoMax 要求最大化原始图中的信息,而 GIB 要求最小化此类信息但同时最大化与下游任务相关的信息。


不幸的是,GIB 需要来自下游任务的类标签 Y 的知识,因此不适用于只有很少或没有标签的


GNN 的自监督训练。然后,问题是如何以自监督的方式学习鲁棒且可迁移的 GNN。


为了解决这个问题,我们将开发一种 GCL 方法,该方法使用对抗学习来避免在表示学习期间捕获冗余信息。一般来说,GCL 方法使用图数据增强 (GDA) 过程来扰乱原始观察到的图并减少它们编码的信息量。然后,这些方法将 InfoMax 应用于扰动图对(使用不同的 GDA)来训练编码器 f 来捕获剩余的信息。


定义1:图数据增强(GDA)


3729acbda3b5d25a95f6d9f1933d41dd.png


AD-GCL:我们在GDA上优化以下目标


4e21283127edb557624120bfda04b879.png


三、实验分析



3.1 无监督学习:


3e8c0a803e39772ea51853d48b62f75c (1).png


3.2 GDA模型正则化分析:


66a14131c0b79d6cf9855a25ef1704d7.png

3.3 迁移学习:


我们评估由 AD-GCL 训练的 GNN 编码器在迁移学习上预测化学分子特性和生物蛋白质功能。我们按照设置并使用相同的数据集:GNN 使用自监督学习在一个数据集上进行预训练,然后在另一个数据集上进行微调以测试分布外性能。在这里,我们只考虑 AD-GCL-FIX, 因为 AD-GCL-OPT 只会有更好的性能。我们采用的基线包括没有预训练的 GIN(即,没有对第一个数据集进行自我监督训练,只有微调),InfoGraph、GraphCL、三种不同的预训练策略包括分别利用边、节点和子图上下文的边预测、节点属性掩蔽和上下文预测。


87d1a61d5d2870c72424fb2a1c403965.png


根据上表所示, AD-GCL-FIX 在 9 个数据集中的 3 个数据集中显着优于基线,并且在这 9 个数据集中实现了 2.4 的平均排名,这优于所有基线。请注意,尽管 AD-GCL 在某些数据集上仅获得第 5 名,但 AD-GCL 仍显着优于 InfoGraph和GraphCL,两者都是强大的GNN 自训练baseline。与 InfoGraph和GraphCL相比,基于领域知识和广泛的评估, AD-GCL 实现了更接近于那些基线(EdgePred、AttrMasking 和 ContextPred)。这是 相当重要的,因为我们的方法仅使用边缘下降 GDA,这再次显示了 AD-GCL 原理的有效性。


3.4 半监督学习:


最后,我们在基准 TU 数据集上对图分类的半监督学习评估 AD-GCL。


GNN 使用自监督学习在一个数据集上进行预训练,然后在同一数据集上基于 10% 的标签监督进行微调。同样,我们只考虑 AD-GCL-FIX 并将其与几个baseline进行比较:


  1. 没有预训练的 GCN,它直接由 10% 的标签从头开始训练;


  1. SS-GCN-A,一种通过创建随机增强引入更多标记数据然后从头开始训练的baseline;


3)一种预测方法GAE在预训练阶段利用邻接重建和 GCL 方法;


  1. InfoGraph;


  1. GraphCL;


请注意,这里我们必须保持编码器架构相同,因此 AD-GCL-FIX 采用 GCN 作为编码器。


3f2639ec1684b2a5e60c7f4f871a3b8a.png


四、总结



在这项工作中,作者开发了一个理论上有动机的新颖原理:AD-GCL,它超越了传统的InfoMax 目标,用于 GNN 的自监督学习。与下游任务无关的最佳 GNN 编码器是那些捕获最少足够信息来识别数据集中每个图的编码器。为了实现这一目标,AD-GCL 建议通过以对抗方式优化图增强来更好地进行图对比学习。实验结果表明,ADGCL优于InfoGraph和GraphCL等强大的GNN 自训练baseline。


相关文章
|
2月前
|
机器学习/深度学习 搜索推荐
CIKM 2024:LLM蒸馏到GNN,性能提升6.2%!Emory提出大模型蒸馏到文本图
【9月更文挑战第17天】在CIKM 2024会议上,Emory大学的研究人员提出了一种创新框架,将大型语言模型(LLM)的知识蒸馏到图神经网络(GNN)中,以克服文本图(TAGs)学习中的数据稀缺问题。该方法通过LLM生成文本推理,并训练解释器模型理解这些推理,再用学生模型模仿此过程。实验显示,在四个数据集上性能平均提升了6.2%,但依赖于LLM的质量和高性能。论文链接:https://arxiv.org/pdf/2402.12022
75 7
|
6月前
|
机器学习/深度学习 开发者
论文介绍:基于扩散神经网络生成的时空少样本学习
【2月更文挑战第28天】论文介绍:基于扩散神经网络生成的时空少样本学习
66 1
论文介绍:基于扩散神经网络生成的时空少样本学习
|
机器学习/深度学习 存储 算法
优于GNN嵌入基线,阿尔伯塔大学等用RL做图关系推理:关系预测任务新SOTA
优于GNN嵌入基线,阿尔伯塔大学等用RL做图关系推理:关系预测任务新SOTA
114 0
|
机器学习/深度学习 人工智能 数据可视化
【Pytorch神经网络实战案例】22 基于Cora数据集实现图注意力神经网络GAT的论文分类
有一个记录论文信息的数据集,数据集里面含有每一篇论文的关键词以及分类信息,同时还有论文间互相引用的信息。搭建AI模型,对数据集中的论文信息进行分析,使模型学习已有论文的分类特征,以便预测出未知分类的论文类别。
464 0
|
机器学习/深度学习 人工智能 算法
有效融合语言模型、图神经网络,文本图训练框架GLEM实现新SOTA
有效融合语言模型、图神经网络,文本图训练框架GLEM实现新SOTA
166 0
|
机器学习/深度学习 人工智能 算法
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
262 0
|
机器学习/深度学习 数据处理
机器学习之分类-概率生成模型
机器学习之分类-概率生成模型
261 0
机器学习之分类-概率生成模型
|
机器学习/深度学习 自然语言处理 数据挖掘
【图神经网络】GNN的目前进展
【图神经网络】GNN的目前进展
213 0
|
机器学习/深度学习 数据采集 算法
业界盘点|为什么推荐算法都开始结合图神经网络了?(二)
业界盘点|为什么推荐算法都开始结合图神经网络了?(二)
185 0
业界盘点|为什么推荐算法都开始结合图神经网络了?(二)
|
机器学习/深度学习 数据可视化 数据挖掘
ICML2020 | 神经网络的图结构如何影响其预测性能?
ICML2020 | 神经网络的图结构如何影响其预测性能?
178 0
ICML2020 | 神经网络的图结构如何影响其预测性能?