再介绍一篇最新的Contrastive Self-supervised Learning综述论文(一)

简介: 再介绍一篇最新的Contrastive Self-supervised Learning综述论文(一)

作者 | 对白


出品 | 对白的算法屋


自监督学习(Self-supervised learning)最近获得了很多关注,因为其可以避免对数据集进行大量的标签标注。它可以把自己定义的伪标签当作训练的信号,然后把学习到的表示(representation)用作下游任务里。最近,对比学习被当作自监督学习中一个非常重要的一部分,被广泛运用在计算机视觉、自然语言处理等领域。它的目标是:将一个样本的不同的、增强过的新样本们在嵌入空间中尽可能地近,然后让不同的样本之间尽可能地远。这篇论文提供了一个非常详尽的对比自监督学习综述。


我们解释了在对比学习中常用的前置任务(pretext task),以及各种新的对比学习架构。然后我们对不同的方法做了效果对比,包括各种下游任务例如图片分类、目标检测、行为识别等。最后,我们对当前模型的局限性、它们所需要的更多的技术、以及它们未来的发展方向做了总结。


b77ba793a925a0a4166b3c19490a103d.png


1. 介绍




深度学习从大量数据中自动学习的能力使其在各种领域广泛应用,例如CV和NLP。但是深度学习也有其瓶颈,就是它需要大量的人工标注的标签。例如在计算机视觉中,监督模型需要在图片的表示和图片的标签之间建立关联。


传统的监督学习模型极度依赖于大量的有标签数据。所以研究者们想研究出一种办法,如何利用大量的无标签数据。所以自监督学习的到了广泛关注,因为它可以从数据自己本身中寻找标签来监督模型的训练。


图一:对比学习的直观理解:让原图片和增强的图片变近,让原图片和其他图片变远


监督学习不仅需要大量的标注数据,它还面临着下面的各种问题:


  • 模型的泛化性能


  • 伪相关


  • 对抗攻击


最近,自监督学习结合了生成模型和对比模型的特点:从大量无标签数据中学习表示。


一种流行的方式是设计各种前置任务(pretext task)来让模型从伪标签中来学习特征。例如图像修复、图像着色、拼图、超分辨率、视频帧预测、视听对应等。这些前置任务被证明可以学习到很好的表示。


bfcd060e77d27da42b6d9d2a1f0ab69a.png


图二:对比自监督学习训练范式


在2014年生成对抗网络(GAN)推出之后,生成模型得到了很多关注。它之后变成了许多强大的模型的基础,例如 CycleGAN, StyleGAN, PixelRNN, Text2Image, DiscoGAN 等。


这些模型启发研究者去研究自监督学习(不需要标签)。


他们发现基于GAN的模型很复杂,不容易训练,主要是由于下面原因:


  1. 难以收敛


  1. 判别器太强大而导致生成器难以生成好的结果


  1. 判别器和生成器需要同步


c5b1efba12da358dd503bb60194b5407.png


图三:不同的对比学习方法在ImageNet上的效果(TOP1 分类准确率)


与生成模型不同,对比学习是一种判别模型,它让相似样本变近,不同样本变远(见图一)。


为了达到这一点,一种衡量远近的指标被用来衡量嵌入之间的远近。


如图二所示,对比损失用来训练对比学习模型。一般来说,以图片为例,对比学习把一张图片的增强版本当作一个正例,其余图片当作反例,然后训练一个模型来区分正反例。区分依赖于某种前置任务。


这样做,学习到的表示就可以用到下游任务之中。


2.前置任务



前置任务是自监督学习中非常重要的一种策略。它可以用伪标签从数据中学习表示。


伪标签是从数据本身中定义而来的。


这些任务可以应用到各种数据之中,例如图片、视频、语言、信号等。


在对比学习的前置任务之中,原始图片被当作一种anchor,其增强的图片被当作正样本(positive sample),然后其余的图片被当作负样本。


大多数的前置任务可以被分为四类:


  • 颜色变换


  • 几何变换


  • 基于上下文的任务


  • 基于交叉模式的任务


具体使用哪种任务取决于具体的问题。


颜色变换



622078bf2a164cdc538b96b8f4c35010.png


图四:颜色变换前置任务,包括:原图,高四噪声,高斯模糊,颜色失真(jitter)


颜色变换很好理解,不多说了。在这个前置任务中,图片经过变换,它们还是相似的图片,模型需要学会辨别这些经过颜色变换的图片。


几何变换



几何变换也很好理解,不多说了。


原图被当作全局视图(global view),转换过的图片被当作局部试图(local view):


54ea03642cac37dd19681d10dfe521ff.png


图五:几何变换,包括:原图,裁剪、旋转、翻转等


基于上下文的



拼图


解决拼图问题是无监督学习中一个非常重要的部分。


在对比学习中,原图被当作anchor,打乱后的图片被当作正样本,其余图片被当作负样本。


2dbceab6fbf963dafb0b9dbf6c97b493.png


图六:解决一个拼图问题被当作学习表示的前置任务


基于帧的



这个策略一般应用于时许数据,例如传感器的数据或者一系列视频帧。


策略背后的意义是:时间上相近的相似,时间上很远的不相似。


解决这样的前置任务可以让模型学习到一些跟时间有关的表示。


在这里,一个视频中的帧被当作正样本,其余视频被当作负样本。


其余的方法还包括:随机抽样一个长视频中的两个片段,或者对每个视频片段做几何变换。


目标是使用对比损失(contrastive loss)来训练模型,使得来自一个视频的片段在嵌入空间中相近,来自不同视频的片段不相近。


Qian 等人 [20] 提出的一个模型中将两个正样本和其余所有的负样本之间进行对比。


一对正样本是两个增强的来自同一个视频的视频片段。


这样,所有的视频在嵌入空间中都是分割开来的,每个视频占据一个小的嵌入空间。


未来预测



f5ba5160afd91f3ce5abf1c1afefe1a9.png


图七:对比预测编码CPC:contrastive predictive coding。图中的例子是音频预测。类似的想法可以用在图片、视频、文本等领域上


对于时序数据做对比一个最直观的方法是预测将来或者预测缺失的信息。


这个前置任务是基于已有的一系列时间点数据,去预测将来的高阶的信息。


在 [21] [22] 等模型中,高阶数据被压缩在一个低维度的隐藏嵌入空间之中。强大的序列模型被当作encoder来生成一个基于上下文的

,然后用 来预测未来的信息。其中蕴含的意义是最大化两者之间的互信息(Mutual information maximization)。


相关文章
|
机器学习/深度学习 编解码 自然语言处理
Vision Transformer 必读系列之图像分类综述(二): Attention-based(上)
Transformer 结构是 Google 在 2017 年为解决机器翻译任务(例如英文翻译为中文)而提出,从题目中可以看出主要是靠 Attention 注意力机制,其最大特点是抛弃了传统的 CNN 和 RNN,整个网络结构完全是由 Attention 机制组成。为此需要先解释何为注意力机制,然后再分析模型结构。
797 0
Vision Transformer 必读系列之图像分类综述(二): Attention-based(上)
|
机器学习/深度学习 搜索推荐 算法
Learning Disentangled Representations for Recommendation | NIPS 2019 论文解读
近年来随着深度学习的发展,推荐系统大量使用用户行为数据来构建用户/商品表征,并以此来构建召回、排序、重排等推荐系统中的标准模块。普通算法得到的用户商品表征本身,并不具备可解释性,而往往只能提供用户-商品之间的attention分作为商品粒度的用户兴趣。我们在这篇文章中,想仅通过用户行为,学习到本身就具备一定可解释性的解离化的用户商品表征,并试图利用这样的商品表征完成单语义可控的推荐任务。
23834 0
Learning Disentangled Representations for Recommendation | NIPS 2019 论文解读
|
3月前
|
存储 算法
【博士每天一篇文献-算法】On tiny episodic memories in continual learning
本文研究了在连续学习环境中使用小型情节记忆来解决灾难性遗忘问题,通过实证分析发现经验重播(ER)方法在连续学习中的表现优于现有最先进方法,并且重复训练对过去任务的小型记忆可以提升泛化性能。
22 1
【博士每天一篇文献-算法】On tiny episodic memories in continual learning
|
3月前
|
机器学习/深度学习 算法
【博士每天一篇文献-综述】A wholistic view of continual learning with deep neural networks Forgotten
本文提出了一个整合持续学习、主动学习(active learning)和开放集识别(open set recognition)的统一框架,基于极端值理论(Extreme Value Theory, EVT)的元识别方法,强调了在深度学习时代经常被忽视的从开放集识别中学习识别未知样本的教训和主动学习中的数据查询策略,通过实证研究展示了这种整合方法在减轻灾难性遗忘、数据查询、任务顺序选择以及开放世界应用中的鲁棒性方面的联合改进。
35 6
|
3月前
|
机器学习/深度学习 存储 人工智能
【博士每天一篇文献-算法】改进的PNN架构Progressive learning A deep learning framework for continual learning
本文提出了一种名为“Progressive learning”的深度学习框架,通过结合课程选择、渐进式模型容量增长和剪枝机制来解决持续学习问题,有效避免了灾难性遗忘并提高了学习效率。
61 4
|
3月前
|
机器学习/深度学习 存储 算法
【博士每天一篇文献-综述】Continual lifelong learning with neural networks_ A review
这篇综述论文深入探讨了神经网络在终身学习领域的研究进展,包括生物学启发的概念、终身学习方法的分类与评估,以及未来研究方向,旨在解决神经网络在学习新任务时如何避免灾难性遗忘的问题。
43 2
|
机器学习/深度学习 算法 TensorFlow
监督学习(Supervised Learning)
监督学习(Supervised Learning)是机器学习的一种主要方法,用于从标记的训练数据中学习预测模型或者决策函数。在监督学习中,我们有一组输入特征和相应的标签,目标是根据输入特征预测或分类新的未标记数据。
197 1
|
机器学习/深度学习 数据挖掘 Go
深度学习论文阅读图像分类篇(五):ResNet《Deep Residual Learning for Image Recognition》
更深的神经网络更难训练。我们提出了一种残差学习框架来减轻 网络训练,这些网络比以前使用的网络更深。我们明确地将层变为学 习关于层输入的残差函数,而不是学习未参考的函数。我们提供了全 面的经验证据说明这些残差网络很容易优化,并可以显著增加深度来 提高准确性。在 ImageNet 数据集上我们评估了深度高达 152 层的残 差网络——比 VGG[40]深 8 倍但仍具有较低的复杂度。这些残差网络 的集合在 ImageNet 测试集上取得了 3.57%的错误率。这个结果在 ILSVRC 2015 分类任务上赢得了第一名。我们也在 CIFAR-10 上分析 了 100 层和 1000 层的残差网络。
265 0
|
机器学习/深度学习 人工智能 自然语言处理
Unsupervised NMT、PBSMT、coarse-to-fine...你都掌握了吗?一文总结机器翻译必备经典模型(3)
Unsupervised NMT、PBSMT、coarse-to-fine...你都掌握了吗?一文总结机器翻译必备经典模型
196 0
|
机器学习/深度学习 自然语言处理
Unsupervised NMT、PBSMT、coarse-to-fine...你都掌握了吗?一文总结机器翻译必备经典模型(2)
Unsupervised NMT、PBSMT、coarse-to-fine...你都掌握了吗?一文总结机器翻译必备经典模型
149 0
下一篇
无影云桌面