GraphCL:基于数据增强的图对比学习

简介: GraphCL:基于数据增强的图对比学习

论文标题:Graph Contrastive Learning with Augmentations


论文链接:https://arxiv.org/abs/2010.13902


论文来源:NeurIPS 2020


一、概述


预训练在深度模型的训练过程中相当于作为一个正则化器以避免梯度消失或爆炸。而对于GNN而言,很少有关于(自监督)预训练相关技术的研究。究其原因可能是图数据集通常规模较小,而且GNN模型通常在结构上设计较浅以避免过平滑(over-smoothing)或者信息损失。对于图数据集来说,数据的标注(比如化学和生物领域内的分子标注)是困难的,预训练的方法可以缓解这一问题,因而本文着力研究图数据集上的自监督预训练方法。


图是具有不同性质的原始数据的抽象表示,数据可能来自各个领域(比如化学分子或者社交网络),在图的上下文中存在极为丰富的信息,因而不容易设计一个能够应用在各种下游任务的通用框架。一种比较朴素的预训练方式如GAE、GraphSAGE,主要通过重构节点邻接信息来实现,这种方式是非常有限的,因为其过分强调接近性,这并不总是有效的,有时候会忽略和损伤结构信息。因此,需要一个设计良好的预训练框架来捕获图结构数据中的高度异构信息。


本文提出的GraphCL作为一种图的预训练框架,采用对比学习的方法作为基础,并且实验采用了四种不同的图数据增强方式,同时应用互信息最大化的方法来进行训练。


二、方法


  1. 图神经网络


image.png


  1. 数据增强


image.png


在图上与图像上类似,对于图数据的数据增强应该保证增强后的图数据不应该丢失对于分类或者回归任务很关键的信息。不过对于图数据来说,由于其来自多个不同的领域,因此不容易像图像那样找到统一的数据增强方式。换句话说,对于不同类别的图数据集,某些数据增强可能比其他类型更需要。本文主要关注三类图数据集:生物化学分子(例如化合物、蛋白质)、社交网络以及图片super-pixel图。另外在实验中采用了四种不同的数据增强方式,分别对应不同的四种先验:


image.png

image.png

                                                数据增强


四种数据增强用到的比例默认设置为0.2。


  1. GraphCL


本文提出的graph contrastive learning(GraphCL)框架利用对比学习的方法来最大化图的两个不同视图之间的一致性以学习图的表示。下图展示了GraphCL的框架:


image.png

                                               框架


image.png


GraphCL可以看做最大化互信息的一种方式,可以将损失函数写成下列形式:


image.png

三、实验


  1. 数据集统计


本文实验采用下列数据集:


image.png

                                               数据集


  1. 数据增强的组合和选择


下图实验探究了不同数据增强组合的影响:


image.png

                                                         实验


下列实验表明,对于不同类型的增强对,对比损失的下降速度总是比相同类型的增强对慢,这说明模型更难识别不同类型的数据增强:


image.png

                                                        实验


  1. 数据增强的类型、范围和模式


下列实验数据增强的类型、范围和模式对效果的影响:


image.png

                                                实验


image.png

                                                     实验


有以下结论:


①Edge perturbation对社会网络数据集有益,但会伤害生物分子数据集的性能;


②在密度较大的图中应用attribute masking可以获得更好的性能;


③Node dropping和subgraph对所有数据集都有益。


  1. 与SOTA方法的对比


  • 半监督学习


实验如下:


image.png

                                                     实验


  • 无监督学习


实验如下:

image.png

                                                  实验


  • 迁移学习


实验如下:


image.png

                                                实验


  • 对抗鲁棒性


实验如下:

image.png

                                                      实验

相关文章
|
4月前
|
数据可视化 算法 大数据
深入解析高斯过程:数学理论、重要概念和直观可视化全解
这篇文章探讨了高斯过程作为解决小数据问题的工具,介绍了多元高斯分布的基础和其边缘及条件分布的性质。文章通过线性回归与维度诅咒的问题引出高斯过程,展示如何使用高斯过程克服参数爆炸的问题。作者通过数学公式和可视化解释了高斯过程的理论,并使用Python的GPy库展示了在一维和多维数据上的高斯过程回归应用。高斯过程在数据稀疏时提供了一种有效的方法,但计算成本限制了其在大数据集上的应用。
127 1
|
4月前
|
编解码 算法 计算机视觉
YOLOv8数据增强预处理方式详解:包括数据增强的作用,数据增强方式与方法
YOLOv8数据增强预处理方式详解:包括数据增强的作用,数据增强方式与方法
|
5月前
|
机器学习/深度学习 搜索推荐 物联网
微软开源创新LoRA组合方法,增强文生图复杂细节控制
微软研究团队推出Multi-LoRA Composition技术,改善文本到图像模型的细节控制。利用低秩适应(LoRA)提升图像生成精度,通过LORA SWITCH和LORA COMPOSITE解决组合复杂图像的挑战。新方法在ComposLoRA平台上测试,性能优于基线,为图像生成和个性化内容创作开辟新途径。尽管有学习曲线和定制需求优化的问题,但该研究仍为领域带来显著进步。
396 3
微软开源创新LoRA组合方法,增强文生图复杂细节控制
|
5月前
|
数据可视化 网络可视化
混合图形模型MGM的网络可预测性分析
混合图形模型MGM的网络可预测性分析
|
5月前
|
机器学习/深度学习 数据可视化 算法
神经网络模型结构框架可视化的在线与软件绘图方法
神经网络模型结构框架可视化的在线与软件绘图方法
204 1
|
5月前
|
机器学习/深度学习 算法 数据处理
【计算机视觉】数据获取、数据标注、数据增强的概念简介
【计算机视觉】数据获取、数据标注、数据增强的概念简介
137 0
|
10月前
优化模型案例
优化模型案例
|
12月前
|
人工智能 程序员 C#
通过简单原理增强软件可靠性
通过简单原理增强软件可靠性
|
算法
基于自动亮度对比度增强功能的可逆数据隐藏(Matlab代码实现)
基于自动亮度对比度增强功能的可逆数据隐藏(Matlab代码实现)
104 0
|
机器学习/深度学习 人工智能 架构师
AI框架跟计算图什么关系?PyTorch如何表达计算图?
目前主流的深度学习框架都选择使用计算图来抽象神经网络计算表达,通过通用的数据结构(张量)来理解、表达和执行神经网络模型,通过计算图可以把 AI 系统化的问题形象地表示出来。 本节将会以AI概念落地的时候,遇到的一些问题与挑战,因此引出了计算图的概念来对神经网络模型进行统一抽象。接着展开什么是计算,计算图的基本构成来深入了解诶计算图。最后简单地学习PyTorch如何表达计算图。
170 0