用图像混合学习更细粒度的特征表示,CMU邢波团队新论文入选AAAI 2022

简介: 用图像混合学习更细粒度的特征表示,CMU邢波团队新论文入选AAAI 2022

这是一篇来自卡耐基梅隆大学和加州伯克利大学 Eric Xing 和 Trevor Darrell 团队联合出品的论文,探究如何在自监督双子结构中通过图像混合学习更加细粒度的特征表示,并入选 AAAI 2022。




文章核心思想非常直观易懂:希望去探究在自监督学习常用的双子结构网络中,通过在输入空间做图像融合来学习更加细粒度的特征表示。核心内容讨论了如何来设计数据采样和构建对应的损失函数,从而去匹配图像融合之后新的输入空间

如下图所示,首先形象地解释这一基于图像融合在自监督学习中实现更加细粒度的距离度量的机制


左边示例表示一般常用的双子自监督网络结构的工作原理,它的两个分支的距离就是默认的距离度量,比如使用 InfoNCE 去分类输入的图片对是正对 (positive) 还是负对 (negative)。

右边是本文 Un-Mix 提出的研究思路,即通过在一个分支上做图像融合,使得最后的距离度量变为一个 [0,1] 之间的软化系数的倍数,从而使两个分支之间的距离变得更加细微和敏感(该工作是首个在自监督双子模型中引入了软距离概念的文章),进而让模型学习到更加细粒度的输入信息的隐空间表达。

实现策略

具体怎么来方便简单地实现这一机制呢?本文作者提出了如下一种策略:通过在一个 mini-batch 内部通过某种顺序做样本融合,从而得到固定的距离度量,如下图所示:


具体地,作者将一个批量(mini-batch)中的样本做一个倒序,然后跟原来的样本们做加权融合,两张原图的距离分别变成为λ和1-λ ,因此一个批量样本集合之间相互的语义距离矩阵变为如下形式:


利用这一新的距离度量,我们可以使用新的损失函数来训练模型,如下所示:


下面是 Un-Mix 算法实现的伪代码:


实验结果

作者在多个数据集上进行了大量的实验。

首先是非 ImageNet 数据集上的训练和测试曲线


可以发现一个比较有趣的现象:在加入了 Un-Mix 之后,训练的损失值(training loss)变得非常不稳定,波动很大,这是因为在输入空间进行图像融合操作之后导致两个分支的距离度量变得更加细微多样和敏感。但是这对模型泛化能力是有帮助的,在做模型测试的时候依然可以取得更好的测试性能。

具体的数值结果对比如下,可以看到在不同数据集和对照方法上结果都有非常明显的提升。


接下来是在 ImageNet 上的结果,文章提出的方法在 200 和 800 epoch 两种不同的的训练参数设置下都有比较稳定的提升:


最后是在下游任务目标检测上的迁移结果,该方法依然有稳定的提升:


此外,作者还讨论了如何处理含有 memory bank 的框架以及如何进行多尺度(multi-scale)训练(如上图 11 所示),有兴趣的同学可以去阅读原论文。

相关文章
|
7月前
|
机器学习/深度学习 数据挖掘
西浦、利物浦大学提出:点云数据增强首个全面综述
【5月更文挑战第26天】西交利物浦大学和利物浦大学的研究团队发表了一篇关于点云数据增强的首部全面综述,分析了点云增强技术在缓解深度学习模型过拟合问题上的作用。研究将方法分为基本(如仿射变换、随机丢弃)和高级(混合、对抗性变形)两类,并探讨了各类方法的优缺点及应用场景。尽管基本方法常用,但自动优化组合和参数、多模态增强及性能评估标准仍是挑战。该综述为研究者提供了理解与应用点云增强的指导,但也指出在某些领域的深入探讨尚不足。[arXiv:2308.12113]
180 1
|
机器学习/深度学习 存储 编解码
【OpenVI—论文解读系列】ICCV | 开源融合不确定度的自监督MVS框架
论文链接:Digging into Uncertainty inSelf-supervised Multi-view Stereo 多视图立体视觉作为计算机视觉领域的一项基本的任务,利用同一场景在不同视角下的多张图片来重构3D的信息。自监督多视角立体视觉(MVS)近年来取得了显著的进展。然而,以往的方法缺乏对自监督MVS中pretext任务提供的监督信号进行有效性的全面解释。本文首次提出在自监督MVS中估计认知不确定性(epistemic uncertainty)。
323 5
|
机器学习/深度学习 算法 数据可视化
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
299 0
|
机器学习/深度学习 编解码 人工智能
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
134 0
|
机器学习/深度学习 编解码 自然语言处理
CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法
CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法
215 0
|
机器学习/深度学习 人工智能 搜索推荐
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
200 0
|
机器学习/深度学习 数据可视化 算法
SIGIR 2022 | 当多层级遇到多兴趣:快手联合武汉大学提出用于序列推荐的多粒度神经模型
SIGIR 2022 | 当多层级遇到多兴趣:快手联合武汉大学提出用于序列推荐的多粒度神经模型
171 0
|
机器学习/深度学习 人工智能 运维
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
144 0
|
存储 机器学习/深度学习 人工智能
IJCAI 2022 | 推理速度22.3倍提升,北航、字节跳动提出二值化关键字识别模型(2)
IJCAI 2022 | 推理速度22.3倍提升,北航、字节跳动提出二值化关键字识别模型
148 0
|
机器学习/深度学习 存储 人工智能
IJCAI 2022 | 推理速度22.3倍提升,北航、字节跳动提出二值化关键字识别模型(1)
IJCAI 2022 | 推理速度22.3倍提升,北航、字节跳动提出二值化关键字识别模型
114 0
下一篇
DataWorks