浙大发布「数据混合增强」框架AutoMix,还顺手开源了众多mixup算法(2)

简介: 浙大发布「数据混合增强」框架AutoMix,还顺手开源了众多mixup算法

3.3 Offline mixup limits the power of mixup

为了优化上述函数,现有的方法主要采用非参数化的方式将单独做离线优化设计。基于不同的先验假设,先前的mixup方法主要侧重在以非参数化的方式手动设计,比如最大化混合样本中与标签相关的saliency信息,而这样设计的是脱离了最终优化目标的。如下图所示,左图中手工设计的mixup所对应对的混合样本生成是独立于混合样本分类任务的,所以他们所生成出的混合样本可能与最终优化目标无关因此存在冗余甚至降低训练效率。为了解决该问题,我们提出了具有闭环自学习性质的AutoMix,如右图所示,成功把这两个子任务动态得联系了起来。

4 AutoMix: closed self-feedback framework 4.1 Parametric Mixup Generation 参数化的mixup policy 不仅可以与主干网络同时更新,而且摆脱计算显著性信息的额外开销。为了形成闭环反馈,我们使用中间层的特征作为的输入。在给定样本特征和和混合比例的条件下,AutoMix的混合函数可以写成以下形式:其中是逐元素点乘,为嵌入了信息的层特征。我们选择的嵌入方式也非常简单有效,,样本混合效果如下图所示(=0, 0.3, 0.7, 1)。

4.2 Mix Block

的目标是生成一个像素级的掩码,用于混合输入空间的样本对和。由于是计算样本对之间的关系并且在输入空间使用,所以参数化的混合函数中需要包含相似度矩阵的计算和上采样函数。此外,由于mixup的对称性,。以为例子,的计算过程可以写成这样:为线性变换矩阵;是矩阵乘;是将输出的掩码归一到0到1之间的Sigmoid激活函数。得到之后,对于的掩码则利用对称性便可得到,。由于需要根据计算和样本对之间像素级的相对关系,所以我们提出cross-attention mechanism来达到这个目的:其中,是共享参数的线性变换矩阵,是归一化因子。综上所述,Mix Block的设计如下图所示:在Mix Block的端到端的训练方面,我们提出了一个辅助损失函数,用于帮助Mix Block在训练早期生成与成比例的混合掩码:是一个随着训练渐变为0的损失权重,初始值为0.1。此外,我们在使用MCE loss的同时也加入了标准的CE loss,主要是为了加速主干网络的学习以提供稳定的特征给Mix Block生成新的混合样本。AutoMix的最终优化目标可以总结为:但是我们发现,在一次梯度反传中同时更新和两套参数的方式会带来不稳定性,如下图所示,Mix Block很容易陷入Trivial solution (vanilla mixup)。为了更好在一套框架下同时优化两套参数(bi-level optimization),我们进一步引入了Momentum Pipeline(MP)用于解耦合两套参数的训练,在稳定了训练过程的同时也加快了收敛速度。

4.3 Momentum Pipeline

受自监督学习中解决特征塌缩(feature collapse)问题的启发,我们也尝试通过使用stop gradient操作和孪生网络(Siamese)来解决Mix Block塌缩点问题,从而稳定AutoMix训练。

如上图所示,绿色的计算流通过使用冻结的encoder 来专注训练Mix Block,而蓝色则固定Mix Block参数只训练encoder ,这种解耦合的计算流是通过stop gradient操作来实现的。值得注意多是被冻结的encoder的参数是通过和EMA (exponential moving average)的策略进行更新的:在MP的加持下,我们可以能看到最直接的效果就是Mix Block的训练变得稳定且收敛快速。如下图所示,Mix Block在前几个epoch就可以为主干网络提供高质量的混合样本。

5 Results

我们对AutoMix做了全面的评估,主要分为以下三个方面:(1)多场景下的图像分类问题,(2)基于对抗样本的鲁棒性测试和(3)迁移到其他下游任务的性能表现。AutoMix均表现突出,达到最佳性能。

5.1 Image Classification 在图像分类的经典benchmark上进行大量测试,主要测试数据为CIFAR、Tiny ImageNet和ImageNet。在小分辨率数据集上,我们基于ResNet、ResNeXt和Wide-ResNet对比了主流mixup算法。

ImageNet:在ImageNet上,我们基于不同参数量的ResNet和主流Transformer架构对比了更多实用的mixup算法。有一个比较有趣的现象是其他mixup方法在基于ResNet-18网络在ImageNet上训练时都起到了负面效果,一个可能的解释是mixup方法所生成的混合样本过大的增加了学习难度。而AutoMix生成的样本尽可能与语意保持一致,更贴切真实数据分布,适当增加了数据的丰富程度。

Fine-grained and Scene Classification:此外,我们也做了全面的细粒度分类能力测试,包括经典的CUB-200和FGVC-Aircraft和更具有挑战性的大规模数据集iNaturalist17/18。同时,我们在Place205上测试了场景分类性能。在各类场景上,AutoMix均取得最佳性能。

Calibration:mixup方法可以对分类模型过度自信的(over-confident)预测起到矫正的作用,即分类准确度和置信度应该保持线性的对应关系,我们既不希望模型对预测错误的样本有过高的置信度,也不希望对预测正确的样本是低置信的。如下图所示,AutoMix更加贴近红色虚线,起到了最佳的矫正效果。

5.2 Robustness 我们使用人造数据集CIFAR-C和对抗攻击手段FGSM来测试模型的鲁棒性。5.3 Transfer Learning 与其他mixup方法一致,我们分别在CUB-200和COCO2017数据集上对弱监督目标定位和目标检测这两个常见的下游任务做了测试。效果如下:

Weakly supervised object localization

Object detection5.4 Ablation Study消融实验主要分析了三个问题:(1)Mix Block中所提出的模块是否有效?(2)如果去掉EMA和CE loss,模型性能会受多少影响?(3)AutoMix中的超参数应该如何选择?


上面的两个表格回答问题(1)和(2)。左边的表验证了cross attention模块、 embedding和辅助损失的重要性。右边的表格将设计的Mix Block与MixUp和CutMix做横向对比,我们可以看出MP的设计对Mix Block是非常关键的,而EMA和CE loss只是起到incremental的增益效果。下图回答了问题(3),AutoMix的超参数包括分布中的值和特征图的层数,我们通过实验测试将他们分别定为和。这种设置是通用且高效的,无需额外调整。参考资料:https://zhuanlan.zhihu.com/p/550300558

相关文章
|
24天前
|
存储 人工智能 自然语言处理
Delta-CoMe:清华联合OpenBMB等高校开源的新型增量压缩算法
Delta-CoMe是由清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法。该算法通过结合低秩分解和低比特量化技术,显著减少了大型语言模型的存储和内存需求,同时保持了模型性能几乎无损。Delta-CoMe特别适用于处理数学、代码和多模态等复杂任务,并在推理速度上有所提升。
58 6
Delta-CoMe:清华联合OpenBMB等高校开源的新型增量压缩算法
|
1月前
|
存储 编解码 负载均衡
数据分片算法
【10月更文挑战第25天】不同的数据分片算法适用于不同的应用场景和数据特点,在实际应用中,需要根据具体的业务需求、数据分布情况、系统性能要求等因素综合考虑,选择合适的数据分片算法,以实现数据的高效存储、查询和处理。
|
1月前
|
存储 缓存 算法
分布式缓存有哪些常用的数据分片算法?
【10月更文挑战第25天】在实际应用中,需要根据具体的业务需求、数据特征以及系统的可扩展性要求等因素综合考虑,选择合适的数据分片算法,以实现分布式缓存的高效运行和数据的合理分布。
|
2月前
|
机器学习/深度学习 人工智能 算法
"拥抱AI规模化浪潮:从数据到算法,解锁未来无限可能,你准备好迎接这场技术革命了吗?"
【10月更文挑战第14天】本文探讨了AI规模化的重要性和挑战,涵盖数据、算法、算力和应用场景等方面。通过使用Python和TensorFlow的示例代码,展示了如何训练并应用一个基本的AI模型进行图像分类,强调了AI规模化在各行业的广泛应用前景。
39 5
|
1月前
|
算法
”回溯算法“框架及练习题
”回溯算法“框架及练习题
45 0
|
1月前
|
存储 JSON 算法
TDengine 检测数据最佳压缩算法工具,助你一键找出最优压缩方案
在使用 TDengine 存储时序数据时,压缩数据以节省磁盘空间是至关重要的。TDengine 支持用户根据自身数据特性灵活指定压缩算法,从而实现更高效的存储。然而,如何选择最合适的压缩算法,才能最大限度地降低存储开销?为了解决这一问题,我们特别推出了一个实用工具,帮助用户快速判断并选择最适合其数据特征的压缩算法。
56 0
|
2月前
|
人工智能 算法 前端开发
无界批发零售定义及无界AI算法,打破传统壁垒,累积数据流量
“无界批发与零售”是一种结合了批发与零售的商业模式,通过后端逻辑、数据库设计和前端用户界面实现。该模式支持用户注册、登录、商品管理、订单处理、批发与零售功能,并根据用户行为计算信用等级,确保交易安全与高效。
|
2月前
|
前端开发 算法 JavaScript
无界SaaS模式深度解析:算力算法、链接力、数据确权制度
私域电商的无界SaaS模式涉及后端开发、前端开发、数据库设计、API接口、区块链技术、支付和身份验证系统等多个技术领域。本文通过简化框架和示例代码,指导如何将核心功能转化为技术实现,涵盖用户管理、企业店铺管理、数据流量管理等关键环节。
|
3天前
|
机器学习/深度学习 算法
基于改进遗传优化的BP神经网络金融序列预测算法matlab仿真
本项目基于改进遗传优化的BP神经网络进行金融序列预测,使用MATLAB2022A实现。通过对比BP神经网络、遗传优化BP神经网络及改进遗传优化BP神经网络,展示了三者的误差和预测曲线差异。核心程序结合遗传算法(GA)与BP神经网络,利用GA优化BP网络的初始权重和阈值,提高预测精度。GA通过选择、交叉、变异操作迭代优化,防止局部收敛,增强模型对金融市场复杂性和不确定性的适应能力。
109 80
|
22天前
|
算法
基于WOA算法的SVDD参数寻优matlab仿真
该程序利用鲸鱼优化算法(WOA)对支持向量数据描述(SVDD)模型的参数进行优化,以提高数据分类的准确性。通过MATLAB2022A实现,展示了不同信噪比(SNR)下模型的分类误差。WOA通过模拟鲸鱼捕食行为,动态调整SVDD参数,如惩罚因子C和核函数参数γ,以寻找最优参数组合,增强模型的鲁棒性和泛化能力。

热门文章

最新文章