今天给大家解读一篇NIPS2021中GNN与对比学习结合的论文,后面会持续更新NIPS2021中关于对比学习(Contrastive Learning)论文的解读,欢迎大家关注。
这篇论文来自美国普渡大学,通过引入对抗学习作为图数据增强方法,从而避免在训练期间捕获冗余信息导致下游任务效果差的问题。
一、摘要
由于现实世界图/网络数据中普遍存在的标签稀缺问题,因此非常需要图神经网络 (GNN) 的自监督学习。图对比学习 (GCL) 通过训练 GNN 以最大化相同图在不同增强形式中的表示之间的对应关系,即使不使用标签也可以产生鲁棒且可迁移的 GNN。然而,由传统 GCL 训练的 GNN 经常冒着捕获冗余图特征的风险,因此可能很脆弱,并且在下游任务中效果很差。在这里,我们提出了一种新的方法,称为对抗性图对比学习 (AD-GCL),它使 GNN 能够通过优化 GCL 中使用的对抗性图增强策略来避免在训练期间捕获冗余信息。我们将 AD-GCL 与理论解释相结合,并基于可训练的边缘下降图增强设计了一个实用的实例。通过与最先进的 GCL 方法相比,我们通过实验验证了 AD-GCL ,在 18 个不同的基准数据集的任务中,在无监督学习中实现了高达 14%、在迁移学习中高达 6% 和在半监督学习设置中的 3% 的性能提升。
AD-GCL 由两个组件组成:第一个组件包含一个 GNN 编码器,它采用 InfoMax 来最大化原始图及其增强图的表示之间的对应/互信息。第二个组件包含一个基于 GNN 的增强器, 旨在优化增强策略以尽可能减少原始图中的冗余信息。AD-GCL 本质上允许编码器捕获最少的足够信息来区分数据集中的图形。我们进一步提供了 AD-GCL 的理论解释。我们表明,通过对增强器的搜索空间进行一定的正则化,AD-GCL 可以产生与下游任务相关的信息的下限保证,同时保持原始图中冗余信息的上限保证, 这符合信息瓶颈(IB)原则的目标。
二、AD-GCL 的理论动机和制定
等式3中的 InfoMax 原理对于一般表示学习在实践中可能会出现问题。Tschannen 等人已经表明,对于图像分类,捕获与图像标签完全无关的信息的表示也能够最大化互信息, 但这种表示对于图像分类绝对没有用。在图表示学习中也可以观察到类似的问题,如下图所示:
我们考虑数据集 ogbg-molbace 中的图的二元图分类问题。两个具有完全相同架构的 GNN 编码器被训练以保持图表示和输入图之间的互信息最大化,但同时一个 GNN 编码器由随机图标签进一步作监督。尽管由随机标签监督的 GNN 编码器仍然在每个输入图与其表示(即互信息最大化)之间保持一对一的对应关系,但我们可能会在对下游ground-truth标签进行评估时观察到该 GNN 编码器的显著性能退化。
这一观察激励我们重新思考什么是好的图表示。最近,信息瓶颈(IB)已应用于学习图表示。具体来说, 图信息瓶颈(GIB)的目标如下:
InfoMax 和 GIB 的区别:InfoMax 要求最大化原始图中的信息,而 GIB 要求最小化此类信息但同时最大化与下游任务相关的信息。
不幸的是,GIB 需要来自下游任务的类标签 Y 的知识,因此不适用于只有很少或没有标签的
GNN 的自监督训练。然后,问题是如何以自监督的方式学习鲁棒且可迁移的 GNN。
为了解决这个问题,我们将开发一种 GCL 方法,该方法使用对抗学习来避免在表示学习期间捕获冗余信息。一般来说,GCL 方法使用图数据增强 (GDA) 过程来扰乱原始观察到的图并减少它们编码的信息量。然后,这些方法将 InfoMax 应用于扰动图对(使用不同的 GDA)来训练编码器 f 来捕获剩余的信息。
定义1:图数据增强(GDA)
AD-GCL:我们在GDA上优化以下目标
三、实验分析
3.1 无监督学习:
3.2 GDA模型正则化分析:
3.3 迁移学习:
我们评估由 AD-GCL 训练的 GNN 编码器在迁移学习上预测化学分子特性和生物蛋白质功能。我们按照设置并使用相同的数据集:GNN 使用自监督学习在一个数据集上进行预训练,然后在另一个数据集上进行微调以测试分布外性能。在这里,我们只考虑 AD-GCL-FIX, 因为 AD-GCL-OPT 只会有更好的性能。我们采用的基线包括没有预训练的 GIN(即,没有对第一个数据集进行自我监督训练,只有微调),InfoGraph、GraphCL、三种不同的预训练策略包括分别利用边、节点和子图上下文的边预测、节点属性掩蔽和上下文预测。
根据上表所示, AD-GCL-FIX 在 9 个数据集中的 3 个数据集中显着优于基线,并且在这 9 个数据集中实现了 2.4 的平均排名,这优于所有基线。请注意,尽管 AD-GCL 在某些数据集上仅获得第 5 名,但 AD-GCL 仍显着优于 InfoGraph和GraphCL,两者都是强大的GNN 自训练baseline。与 InfoGraph和GraphCL相比,基于领域知识和广泛的评估, AD-GCL 实现了更接近于那些基线(EdgePred、AttrMasking 和 ContextPred)。这是 相当重要的,因为我们的方法仅使用边缘下降 GDA,这再次显示了 AD-GCL 原理的有效性。
3.4 半监督学习:
最后,我们在基准 TU 数据集上对图分类的半监督学习评估 AD-GCL。
GNN 使用自监督学习在一个数据集上进行预训练,然后在同一数据集上基于 10% 的标签监督进行微调。同样,我们只考虑 AD-GCL-FIX 并将其与几个baseline进行比较:
- 没有预训练的 GCN,它直接由 10% 的标签从头开始训练;
- SS-GCN-A,一种通过创建随机增强引入更多标记数据然后从头开始训练的baseline;
3)一种预测方法GAE在预训练阶段利用邻接重建和 GCL 方法;
- InfoGraph;
- GraphCL;
请注意,这里我们必须保持编码器架构相同,因此 AD-GCL-FIX 采用 GCN 作为编码器。
四、总结
在这项工作中,作者开发了一个理论上有动机的新颖原理:AD-GCL,它超越了传统的InfoMax 目标,用于 GNN 的自监督学习。与下游任务无关的最佳 GNN 编码器是那些捕获最少足够信息来识别数据集中每个图的编码器。为了实现这一目标,AD-GCL 建议通过以对抗方式优化图增强来更好地进行图对比学习。实验结果表明,ADGCL优于InfoGraph和GraphCL等强大的GNN 自训练baseline。