【最强模型之道】AWS Auto-Aug:通过Weight共享改进自动数据增广,打造最高精度单模型

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 【最强模型之道】AWS Auto-Aug:通过Weight共享改进自动数据增广,打造最高精度单模型

1 Introduction


深度学习技术在计算机视觉领域得到了大量应用,在图像分类、目标检测、图像分割、图像描述、人体姿态估计等许多任务中都取得了显著地进展。而过拟合是深度学习中一个广泛存在而又很难回避的问题。很多学者针对不同的任务也提出了不同的正则化方法来缓解过拟合的问题。

数据增强是将具有语义不变性的图像变换方法应用于训练数据中以增加数据的数量和多样性,该方法简单有效,同时也是最常用的正则化方法。对于图像数据,有各种常用的增强操作,包括传统的图像转换,如调整大小、裁剪、剪切、水平翻转、平移和旋转。最近,一些特殊的操作被提出,如Cutout和Sample Pairing。

但是,选择适当的数据增强策略非常耗时,并且需要经验丰富的专家大量努力。因此,自动增强技术被用来根据特定的数据集和模型进行搜索性能增强策略。


2 本文方法


2.1 Motivations

为了验证Data Augmentation可以缓解过拟合的问题,作者探究了性能增加和周期增加之间的关系。在Cifar-10上使用ResNet-18总共训练了300个Epoch,其中一些被AutoAug的搜索策略扩充数据。具体来说增加的开始或结束 Epoch,表示数量扩张的时代。

image.png

主要证明了两点:

  • 1)、在增大Epoch 数相同的情况下,在后期进行数据增强可以不断获得较好的模型性能,虚线曲线总是在实线曲线之上。
  • 2)、为了将模型训练到相同的性能水平,在后期进行数据增强比在早期进行数据增强需要的Epoch更少,因为虚线总是在实线的左边。

综上所述,实证结果表明,在训练的后期,数据增强的作用更大,可以利用它对不同的增强策略产生有效和可靠的奖励估计。

2.2、Augmentation-Wise Weight Sharing

本文提出了一种新的用于自动增强方法。它包括两个阶段:

  • 第一阶段,选择一个共享的增强策略来训练共享的权值,即基于增强的共享模型权值。借鉴了NAS中的权重共享方法,在不同的网络架构中共享权重,以加快搜索速度。
  • 第二阶段,进行有效的策略搜索。可靠性在后期更多地作为增强操作功能。

2.3、 Auto-Aug Formulation

本文的搜索数据扩充策略为一个特定的模型表示ω,参数化的ω。这里将增强策略看作是对候选图像变换的一个分布函数,它是由线性变换控制的。最优增强策略可以描述为一个优化问题。通过求解最优ω来固定以得到最优的权重优化模型,进而得到最优的增强策略。

image.png

式中L为损失函数,即交叉熵损失。

外部层是增强策略优化,即对策略参数进行优化给出了内部层次问题的结果。值得注意的是,的优化的目的是验证准确性ACC

image.png

表示参数的最优值和ω表示验证准确性。于是该问题便是一个典型的优化问题。

2.4、Proxy Task

在观察到后期的增强操作比早期的增强操作影响更大的情况下,本文提出了一种新的Proxy任务,该Proxy任务用计算效率评估过程代替了内部层优化的求解过程。

Proxy任务是通过2个part来训练增强的参数ω:

  • 第一个part:采用共享增强策略对网络进行训练,而不考虑外部优化给出的当前策略;
  • 第二个part:通过给定策略的加权,对网络模型的扩展共享权值进行微调,以评估该策略的性能。

由于第一个part中共享的增强训练独立于给定的策略冗余,对于所有候选的增强策略只需训练一次就可以进行搜索,大大加快了优化速度。

此外,通过调整微调的次数,还可以在很大程度上保持评估的可靠性。


3 消融实验


3.1、Cifar10实验

3.2、Cifar100实验

3.3、ImageNet实验

更为详细内容可以参见论文中的描述。

相关文章
|
5月前
|
机器学习/深度学习 存储 编解码
Tiny Time Mixers (TTM)轻量级时间序列基础模型:无需注意力机制,并且在零样本预测方面表现出色
IBM研究人员提出Tiny Time Mixers (TTM),这是一个轻量级、基于mlp的TS模型,参数量小于1M,在M4数据集上表现优于大型SOTA模型,且具备优秀的零样本预测能力。TTM无注意力机制,利用TSMixer进行多级建模,自适应补丁和频率前缀调整等创新特性提升性能。预训练和微调阶段各有独特设计,预训练仅用单变量序列,微调时学习多变量依赖。TTM在某些任务中证明了小模型的优越性,且模型已开源。
249 1
|
4月前
|
人工智能 监控 Serverless
函数计算产品使用问题之sdXL 1.0模型启动无效,该怎么办
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
4月前
|
分布式计算 自然语言处理 MaxCompute
构建NLP 开发问题之如何在数据加载框架中实现从两个ODPS表中分别读取正样本和负样本,并在batch内以1:1的方式混合
构建NLP 开发问题之如何在数据加载框架中实现从两个ODPS表中分别读取正样本和负样本,并在batch内以1:1的方式混合
|
5月前
|
机器学习/深度学习 人工智能 监控
人工智能平台PAI产品使用合集之设置了7个特征,但在最后生成的数据表中只包含了6个id_feature的特征,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
机器学习/深度学习 决策智能
**批量归一化(BN)**是2015年提出的深度学习优化技术,旨在解决**内部协变量偏移**和**梯度问题**。
【6月更文挑战第28天】**批量归一化(BN)**是2015年提出的深度学习优化技术,旨在解决**内部协变量偏移**和**梯度问题**。BN通过在每个小批量上执行**标准化**,然后应用学习到的γ和β参数,确保层间输入稳定性,加速训练,减少对超参数的敏感性,并作为隐含的正则化手段对抗过拟合。这提升了模型训练速度和性能,简化了初始化。
52 0
|
6月前
|
机器学习/深度学习 人工智能 物联网
加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了
【5月更文挑战第9天】字节跳动研究团队推出Hyper-SD框架,实现快速图像生成,仅需1步即可达SOTA水平。该框架采用TSCD技术减少误差,整合ReFL优化加速模型,提高图像质量。在1步推理时,Hyper-SDXL在CLIP和Aes Score上超越SDXL-Lightning。开源LoRA插件促进社区发展,但可能牺牲部分模型通用性,未来仍需关注用户需求多样性。[论文链接](https://arxiv.org/abs/2404.13686)
77 1
|
6月前
|
机器学习/深度学习 人工智能 API
人工智能平台PAI 操作报错合集之DSSM负采样时,输入数据不同,被哈希到同一个桶里,导致生成的embedding相同如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
6月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之如何配置DSSM模型负采样item表的schema
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能平台PAI产品使用合集之在使用DSSM负采样时,不知道label_fields的配置方法如何解决
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
|
机器学习/深度学习 存储 数据可视化
【AAAI2024】M2SD:通过特征空间预构建策略重塑小样本类增量学习
小样本类增量学习代表了机器学习领域中一个高度挑战性的议题,其核心目标在于能够在仅有限的数据支持下识别新类别,同时保留对已学习类别的认知,而无须重新训练整个模型。这一目标在模型需适应新类别的同时使用有限训练数据的情况下尤为艰巨。针对上述挑战,我们提出了一种创新性策略,称为多重混合自蒸馏。旨在为类增量学习阶段准备一个具有高度可扩展性和包容性的特征空间。

热门文章

最新文章