GCA：基于自适应数据增强的图对比学习

2022-06-12 673

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： GCA：基于自适应数据增强的图对比学习

论文标题：Graph Contrastive Learning with Adaptive Augmentation

论文链接：https://arxiv.org/abs/2010.14945

论文来源：WWW 2021

一、概述

图对比学习中的数据增强在近来的方法中被证明是一个关键的部分，然而对于图数据增强的方法的研究却是不充分的。对于图像和文本来说，数据增强有很多种方式，然而对于图数据来说，数据增强是不容易的，这是由图数据的非欧几里得特性引起的。本文认为过去的图数据增强方法有两个缺点：

①简单的数据增强，比如DGI中的特征打乱，对于生成节点多样化的邻域（也就是上下文）是不充分的，尤其是节点特征较为稀疏时，会导致对比目标函数的优化是困难的；

②在执行数据增强时忽略了不同节点和不同边的影响。

数据增强应该保留原始数据最本质的特征，举例来说，对一张猫的图片进行数据增强（比如对其进行翻转），应该使得增强后的图仍然是一只猫，而不能使其丢失其作为猫的本质特征，这样模型才可以通过对比来学习到猫的特征。同样的，如果在对图通过随机删除边的方式进行数据增强时，某些重要的边被删除掉就会影响最终学习到的embedding的质量，也就是说图的不同节点和不同边在数据增强时产生的影响是不同的，在数据增强时应该尽可能的保留重要的边以及重要的节点特征，而一些图数据增强采用随机处理的方式，这样势必造成性能的损伤。

对比学习得到的表示应该对通过数据增强引入的破坏具备一定的不变性，因而数据增强策略应自适应输入的图，以反映其内在模式。同样的以删除边的数据增强方式为例，我们应该给不重要的边以大的移除概率，给重要的边以小的移除概率。然后，该方案能够引导模型忽略不重要边上引入的噪声，从而学习输入图下的重要模式。

本文提出了Graph Contrastive learning with Adaptive augmentation（GCA）框架来利用自适应的数据增强策略进行图的节点表示学习，整体框架图如下：

框架

本文采用的自适应图数据增强的主要思想是给不重要的边以更大的移除概率，给不重要的节点特征维度以更大的mask概率。

二、方法

定义

整个模型的算法如下：

算法

自适应图数据增强

本文研究的重点在于自适应的图数据增强方法，希望数据增强在扰乱不重要的连接和特征时能够保持重要的结构和属性不变。本文采用随机删除边和mask节点属性的方式来进行数据增强，但是删除和mask的概率应该向不重要的边或特征倾斜，也就是对于不重要的边或特征删除或mask的概率要大，对于重要的要小，这是本文数据增强方法设计的基本思想。