用图像混合学习更细粒度的特征表示,CMU邢波团队新论文入选AAAI 2022

简介: 这是一篇来自卡耐基梅隆大学和加州伯克利大学 Eric Xing 和 Trevor Darrell 团队联合出品的论文,探究如何在自监督双子结构中通过图像混合学习更加细粒度的特征表示,并入选 AAAI 2022。

这是一篇来自卡耐基梅隆大学和加州伯克利大学 Eric Xing 和 Trevor Darrell 团队联合出品的论文,探究如何在自监督双子结构中通过图像混合学习更加细粒度的特征表示,并入选 AAAI 2022。

image.png

文章核心思想非常直观易懂:希望去探究在自监督学习常用的双子结构网络中,通过在输入空间做图像融合来学习更加细粒度的特征表示。核心内容讨论了如何来设计数据采样和构建对应的损失函数,从而去匹配图像融合之后新的输入空间

如下图所示,首先形象地解释这一基于图像融合在自监督学习中实现更加细粒度的距离度量的机制

image.png

左边示例表示一般常用的双子自监督网络结构的工作原理,它的两个分支的距离就是默认的距离度量,比如使用 InfoNCE 去分类输入的图片对是正对 (positive) 还是负对 (negative)。
右边是本文 Un-Mix 提出的研究思路,即通过在一个分支上做图像融合,使得最后的距离度量变为一个 [0,1] 之间的软化系数image.png的倍数,从而使两个分支之间的距离变得更加细微和敏感(该工作是首个在自监督双子模型中引入了软距离概念的文章),进而让模型学习到更加细粒度的输入信息的隐空间表达。

实现策略

具体怎么来方便简单地实现这一机制呢?本文作者提出了如下一种策略:通过在一个 mini-batch 内部通过某种顺序做样本融合,从而得到固定的距离度量,如下图所示:

image.png

具体地,作者将一个批量(mini-batch)中的样本做一个倒序,然后跟原来的样本们做加权融合,两张原图的距离分别变成为λ和1-λ ,因此一个批量样本集合之间相互的语义距离矩阵变为如下形式:

image.png

利用这一新的距离度量,我们可以使用新的损失函数来训练模型,如下所示:

image.png

下面是 Un-Mix 算法实现的伪代码:

0014.jpg

实验结果

作者在多个数据集上进行了大量的实验。

首先是非 ImageNet 数据集上的训练和测试曲线

image.png

可以发现一个比较有趣的现象:在加入了 Un-Mix 之后,训练的损失值(training loss)变得非常不稳定,波动很大,这是因为在输入空间进行图像融合操作之后导致两个分支的距离度量变得更加细微多样和敏感。但是这对模型泛化能力是有帮助的,在做模型测试的时候依然可以取得更好的测试性能。

具体的数值结果对比如下,可以看到在不同数据集和对照方法上结果都有非常明显的提升。

image.png

接下来是在 ImageNet 上的结果,文章提出的方法在 200 和 800 epoch 两种不同的的训练参数设置下都有比较稳定的提升:


image.png

最后是在下游任务目标检测上的迁移结果,该方法依然有稳定的提升:

image.png

此外,作者还讨论了如何处理含有 memory bank 的框架以及如何进行多尺度(multi-scale)训练(如上图 11 所示),有兴趣的同学可以去阅读原论文。

00.jpg

相关文章
|
5天前
|
存储 弹性计算 人工智能
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
2025年9月24日,阿里云弹性计算团队多位产品、技术专家及服务器团队技术专家共同在【2025云栖大会】现场带来了《通用计算产品发布与行业实践》的专场论坛,本论坛聚焦弹性计算多款通用算力产品发布。同时,ECS云服务器安全能力、资源售卖模式、计算AI助手等用户体验关键环节也宣布升级,让用云更简单、更智能。海尔三翼鸟云服务负责人刘建锋先生作为特邀嘉宾,莅临现场分享了关于阿里云ECS g9i推动AIoT平台的场景落地实践。
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
|
4天前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
|
4天前
|
人工智能 自然语言处理 自动驾驶
关于举办首届全国大学生“启真问智”人工智能模型&智能体大赛决赛的通知
关于举办首届全国大学生“启真问智”人工智能模型&智能体大赛决赛的通知
|
Linux 虚拟化 iOS开发
VMware Workstation Pro 25H2 for Windows & Linux - 领先的免费桌面虚拟化软件
VMware Workstation Pro 25H2 for Windows & Linux - 领先的免费桌面虚拟化软件
1026 4
|
7天前
|
存储 机器学习/深度学习 人工智能
大模型微调技术:LoRA原理与实践
本文深入解析大语言模型微调中的关键技术——低秩自适应(LoRA)。通过分析全参数微调的计算瓶颈,详细阐述LoRA的数学原理、实现机制和优势特点。文章包含完整的PyTorch实现代码、性能对比实验以及实际应用场景,为开发者提供高效微调大模型的实践指南。
651 2
|
6天前
|
JavaScript API 开发工具
如何在原生App中调用Uniapp的原生功能?
如何在原生App中调用Uniapp的原生功能?
318 139
|
5天前
|
编解码 自然语言处理 文字识别
Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大
凌晨,Qwen3-VL系列再添新成员——Dense架构的Qwen3-VL-8B、Qwen3-VL-4B 模型,本地部署友好,并完整保留了Qwen3-VL的全部表现,评测指标表现优秀。
445 7
Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大