超越GraphCL，GNN+对比学习的节点分类新SOTA-阿里云开发者社区

超越GraphCL，GNN+对比学习的节点分类新SOTA

2022-04-26 472

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 超越GraphCL，GNN+对比学习的节点分类新SOTA

今天给大家解读一篇NIPS2021中GNN与对比学习结合的论文，后面会持续更新NIPS2021中关于对比学习（Contrastive Learning）论文的解读，欢迎大家关注。

这篇论文来自美国普渡大学，通过引入对抗学习作为图数据增强方法，从而避免在训练期间捕获冗余信息导致下游任务效果差的问题。

一、摘要

由于现实世界图/网络数据中普遍存在的标签稀缺问题，因此非常需要图神经网络 (GNN) 的自监督学习。图对比学习 (GCL) 通过训练 GNN 以最大化相同图在不同增强形式中的表示之间的对应关系，即使不使用标签也可以产生鲁棒且可迁移的 GNN。然而，由传统 GCL 训练的 GNN 经常冒着捕获冗余图特征的风险，因此可能很脆弱，并且在下游任务中效果很差。在这里，我们提出了一种新的方法，称为对抗性图对比学习 (AD-GCL)，它使 GNN 能够通过优化 GCL 中使用的对抗性图增强策略来避免在训练期间捕获冗余信息。我们将 AD-GCL 与理论解释相结合，并基于可训练的边缘下降图增强设计了一个实用的实例。通过与最先进的 GCL 方法相比，我们通过实验验证了 AD-GCL ，在 18 个不同的基准数据集的任务中，在无监督学习中实现了高达 14%、在迁移学习中高达 6% 和在半监督学习设置中的 3% 的性能提升。

AD-GCL 由两个组件组成：第一个组件包含一个 GNN 编码器，它采用 InfoMax 来最大化原始图及其增强图的表示之间的对应/互信息。第二个组件包含一个基于 GNN 的增强器，旨在优化增强策略以尽可能减少原始图中的冗余信息。AD-GCL 本质上允许编码器捕获最少的足够信息来区分数据集中的图形。我们进一步提供了 AD-GCL 的理论解释。我们表明，通过对增强器的搜索空间进行一定的正则化，AD-GCL 可以产生与下游任务相关的信息的下限保证，同时保持原始图中冗余信息的上限保证，这符合信息瓶颈（IB）原则的目标。

二、AD-GCL 的理论动机和制定

等式3中的 InfoMax 原理对于一般表示学习在实践中可能会出现问题。Tschannen 等人已经表明，对于图像分类，捕获与图像标签完全无关的信息的表示也能够最大化互信息，但这种表示对于图像分类绝对没有用。在图表示学习中也可以观察到类似的问题，如下图所示：

我们考虑数据集 ogbg-molbace 中的图的二元图分类问题。两个具有完全相同架构的 GNN 编码器被训练以保持图表示和输入图之间的互信息最大化，但同时一个 GNN 编码器由随机图标签进一步作监督。尽管由随机标签监督的 GNN 编码器仍然在每个输入图与其表示（即互信息最大化）之间保持一对一的对应关系，但我们可能会在对下游ground-truth标签进行评估时观察到该 GNN 编码器的显著性能退化。

这一观察激励我们重新思考什么是好的图表示。最近，信息瓶颈（IB）已应用于学习图表示。具体来说，图信息瓶颈（GIB）的目标如下：

InfoMax 和 GIB 的区别：InfoMax 要求最大化原始图中的信息，而 GIB 要求最小化此类信息但同时最大化与下游任务相关的信息。

不幸的是，GIB 需要来自下游任务的类标签 Y 的知识，因此不适用于只有很少或没有标签的

GNN 的自监督训练。然后，问题是如何以自监督的方式学习鲁棒且可迁移的 GNN。

为了解决这个问题，我们将开发一种 GCL 方法，该方法使用对抗学习来避免在表示学习期间捕获冗余信息。一般来说，GCL 方法使用图数据增强 (GDA) 过程来扰乱原始观察到的图并减少它们编码的信息量。然后，这些方法将 InfoMax 应用于扰动图对（使用不同的 GDA）来训练编码器 f 来捕获剩余的信息。

定义1：图数据增强（GDA）

AD-GCL：我们在GDA上优化以下目标

三、实验分析

3.1 无监督学习:

3e8c0a803e39772ea51853d48b62f75c (1).png

3.2 GDA模型正则化分析：

3.3 迁移学习：

我们评估由 AD-GCL 训练的 GNN 编码器在迁移学习上预测化学分子特性和生物蛋白质功能。我们按照设置并使用相同的数据集：GNN 使用自监督学习在一个数据集上进行预训练，然后在另一个数据集上进行微调以测试分布外性能。在这里，我们只考虑 AD-GCL-FIX，因为 AD-GCL-OPT 只会有更好的性能。我们采用的基线包括没有预训练的 GIN（即，没有对第一个数据集进行自我监督训练，只有微调），InfoGraph、GraphCL、三种不同的预训练策略包括分别利用边、节点和子图上下文的边预测、节点属性掩蔽和上下文预测。

根据上表所示， AD-GCL-FIX 在 9 个数据集中的 3 个数据集中显着优于基线，并且在这 9 个数据集中实现了 2.4 的平均排名，这优于所有基线。请注意，尽管 AD-GCL 在某些数据集上仅获得第 5 名，但 AD-GCL 仍显着优于 InfoGraph和GraphCL，两者都是强大的GNN 自训练baseline。与 InfoGraph和GraphCL相比，基于领域知识和广泛的评估， AD-GCL 实现了更接近于那些基线（EdgePred、AttrMasking 和 ContextPred）。这是相当重要的，因为我们的方法仅使用边缘下降 GDA，这再次显示了 AD-GCL 原理的有效性。

3.4 半监督学习：

最后，我们在基准 TU 数据集上对图分类的半监督学习评估 AD-GCL。

GNN 使用自监督学习在一个数据集上进行预训练，然后在同一数据集上基于 10% 的标签监督进行微调。同样，我们只考虑 AD-GCL-FIX 并将其与几个baseline进行比较：

没有预训练的 GCN，它直接由 10% 的标签从头开始训练；

SS-GCN-A，一种通过创建随机增强引入更多标记数据然后从头开始训练的baseline；

3）一种预测方法GAE在预训练阶段利用邻接重建和 GCL 方法；

InfoGraph；

GraphCL；

请注意，这里我们必须保持编码器架构相同，因此 AD-GCL-FIX 采用 GCN 作为编码器。

四、总结

在这项工作中，作者开发了一个理论上有动机的新颖原理：AD-GCL，它超越了传统的InfoMax 目标，用于 GNN 的自监督学习。与下游任务无关的最佳 GNN 编码器是那些捕获最少足够信息来识别数据集中每个图的编码器。为了实现这一目标，AD-GCL 建议通过以对抗方式优化图增强来更好地进行图对比学习。实验结果表明，ADGCL优于InfoGraph和GraphCL等强大的GNN 自训练baseline。

超越GraphCL，GNN+对比学习的节点分类新SOTA