阿里巴巴提出USI 让AI炼丹自动化了,训练任何Backbone无需超参配置,实现大一统!

简介: 阿里巴巴提出USI 让AI炼丹自动化了,训练任何Backbone无需超参配置,实现大一统!

1主要贡献


  • 为ImageNet数据集引入了一个统一的、高效的训练方案,USI,它不需要超参数调整。完全相同的配置也适用于任何Backbone。因此,ImageNet训练从一个面向专业炼丹师的任务转变为一个自动化的过程。
  • 在各种深度学习模型上测试了USI,包括类似于ResNet、MobileNet、基于Transformer和MLP-base的模型。与每个模型的定制方案相比,USI的性能优秀得到了证明。
  • 使用USI对深度学习模型进行方法上的速度-准确性比较。

2本文方法


2.1 KD for Classification

对于任何输入图像,分类网络输出logit向量,其中K是class的数量。soften预测向量用表示,其中每个元素通过应用softmax函数给出:

这里将学生模型和教师模型的soften预测向量分别定义为和。用于训练学生模型的目标函数是学生预测和GT向量y之间的交叉熵(CE)损失,以及学生和教师预测之间的KL散度的组合:

其中,是调整KD损失的相对重要性的一个超参数。CE的损失:

image.png

KL散度损失:

image.png

2.2 为什么在ImageNet网络训练中需要KD?

ImageNet是预训练和评估计算机视觉模型的主要数据集。与其他分类数据集不同,在ImageNet上,从头开始训练模型,而不做迁移学习。一般来说,从零开始的训练更加困难,因为需要更高的学习率、更强的正则化和更大的Epoch。因此,ImageNet上的优化过程对不同的超参数和所使用的体系结构更加敏感。

为了更深入地了解和激励KD的作用,在下图中展示了一些典型的教师模型预测的例子:

image.png

图片(a)包含了钉状物。这是GT,也是教师模型的预测概率为99.9%。请注意,教师模型的第2和第3个预测与钉子(螺丝和锤子)有关,但概率可以忽略不计。

图片(b)中包含了一架客机。这是教师模型预测概率为83.6%。然而,教师模型也有不可忽视的概率所谓的误分类概率11.3%。但是这并不是一个误分类,因为飞机上有机翼。这里的教师模型减轻了GT标签不是相互排斥的情况,并提供了关于图像内容的更准确的信息。

图片(c)中包含了一只母鸡。然而,母鸡并不是很大和突出的。通过教师模型的预测可以看出这一点,教师模型识别为母鸡的概率为55.5%。教师模型还给出了公鸡的概率为8.9%。这是教师模型的错误预测,但逻辑上的母鸡和公鸡是非常相似的。

在图片(d)中,教师模型与GT不相符。GT是冰棒,而教师模型预测的是英国塞特犬。其实教师模型是对的,因为狗在图片中更为突出。

从上面的例子中可以看到,教师模型的预测比单一标签的GT包含了更多的信息。教师模型提供的丰富的预测解释了class之间的相关性和相似性。它们用几个物体处理更好的图片,甚至弥补GT的错误。因此KD预测也能处理更好的这类情况,因为它们代表了增强图像的正确内容。它们还消除了对标签平滑的需要,因为教师模型输出的是Soften预测。

由于这些因素,与仅使用Hard标签的训练相比,使用教师模型的训练可以提供了更好的监督,可以带来一个更有效和更稳健的训练优化过程。

2.3 统一的训练配置

USI便是本文提出的ImageNet的训练方案,USI是基于KD的训练方法。当使用KD在ImageNet上进行训练时,可以观察到训练过程对超参数选择的鲁棒性更强,并且需要更少的训练技巧和正则化。

image.png

图1

此外,消除了每个Backbone对专用技巧的需求,使用这个统一方案可以训练任何Backbone并达到最佳结果。USI方案的说明上图1所示。

在下表中,展示了完整的训练配置:

image.png

表1

对方案的一些观察和见解:

Batchsize的选择

不同Backbone所允许的最大Batch-size差异显著(见附录中的表10)。因此,对所有Backbone使用固定的Batch-size并不总是可行的。选择尽可能大的Batch-size是有益的,因为它可以充分利用GPU核心,减少通信开销,并提高训练速度。以前的方案表明,更大的Batch-size需要更大的学习率或专用的优化器

USI是一种基于kd的训练方案,采用AdamW优化器,对Batch-size和学习率调优更具鲁棒性。使用相同的学习速率,USI始终为广泛的Batch-size提供比较好的结果。因此,本文陈述了Batch-size的范围,而不是固定的Batch-size。可以选择此范围内的任何值。

作者建议使用最大可能的0.8到0.9的Batch-size,以优化训练速度。

Teacher的选择

USI主要要求是选择一个表现优于学生模型的教师模型,这也是KD的一个常见要求。考虑到这种约束条件,作者建议选择一个具有良好的速度-精度权衡的教师模型(见下图)。

image.png

USI方案对教师和学生类型都是鲁棒的。具有相似准确性的教师模型训练学生模型可以达到相似的准确性,无论是CNN还是Transformer。

KD对于训练的影响

增加KD监督会带来额外的开销,并降低了训练速度。然而,额外的开销通常很小。学生模型需要做前传、存储中间特征图、做反传以及更新权值,而教师网络只需要向前传。

此外,由于教师模型是固定的,可以对其进行各种优化,如batch-norm fusion、channels-last和jit。

作者发现,KD的相对开销随着Batch-size的增加而减小,这是选择大Batch-size的另一个原因。对于TResNet-L教师模型(83.9%的准确率),来自KD的额外开销使训练速度降低了10-20%。


3实验结果


3.1 消融实验

1、KD teacher relative weight

可以看出,在没有KD的情况下,USI训练方案表现不佳,比使用默认值α获得的准确率低6.5%。如果KD相对权重过低(α),得分也会下降。对于α,取得了最好的结果。

有趣的是,即使在没有最初的Hard标签监督,并且只依赖教师模型的情况下进行训练,训练结果仍然保持不变。这进一步证明了KD在ImageNet训练中的有效性。

2、KD Temperature

表7显示,在KD损失中,使用Temperature并没有得到任何提升。τ<1和τ>1都降低了准确性。利用标准的Softmax概率可以得到最好的结果。

3、Mixup-Cutmix vs. Cutout

image.png

可以看出,应用每一种增强都是有益的,但Mixup-Cutmix增强更有助于提高精度。

4、Architecture-based regularizations

image.png

可以看出,在USI方案中添加drop-path正则化并没有得到任何提升。

3.2 与之前机制的对比

image.png

从表2中可以看到,在所有测试的架构(CNN、Transformer、Mobile-oriented、MLP-only)上,USI获得的结果优于之前结果

3.3 Batch-szie的鲁棒性

image.png

表3表明,在一个大范围的Batch-size范围内,512-3456,精度几乎保持不变。这表明USI在固定的学习速率下运行良好。

3.4 对于教师模型的鲁棒性

image.png

从表4中可以看到,CNN和Transformer的学生模型与CNN和Transformer教师模型结果都很好。这意味着USI方法在选择教师模型的类型方面有灵活性。

3.5 Epoch的影响

image.png

在表5中,给出了在不同的训练长度下获得的准确性。可以看出,随着将训练时间从300增加到600增加到1000,准确性继续提高。

3.6 速度精度的测量

图4

图4比较了各种关于GPU和CPU推理的架构。


4参考


[1].Solving ImageNet: a Unified Scheme for Training any Backbone to Top Results

相关文章
|
1月前
|
运维 Linux Apache
Puppet 作为一款强大的自动化运维工具,被广泛应用于配置管理领域。通过定义资源的状态和关系,Puppet 能够确保系统始终处于期望的配置状态。
Puppet 作为一款强大的自动化运维工具,被广泛应用于配置管理领域。通过定义资源的状态和关系,Puppet 能够确保系统始终处于期望的配置状态。
51 3
|
2月前
|
JSON 人工智能 数据格式
AI计算机视觉笔记二十六:YOLOV8自训练关键点检测
本文档详细记录了使用YOLOv8训练关键点检测模型的过程。首先通过清华源安装YOLOv8,并验证安装。接着通过示例权重文件与测试图片`bus.jpg`演示预测流程。为准备训练数据,文档介绍了如何使用`labelme`标注工具进行关键点标注,并提供了一个Python脚本`labelme2yolo.py`将标注结果从JSON格式转换为YOLO所需的TXT格式。随后,通过Jupyter Notebook可视化标注结果确保准确性。最后,文档展示了如何组织数据集目录结构,并提供了训练与测试代码示例,包括配置文件`smoke.yaml`及训练脚本`train.py`,帮助读者完成自定义模型的训练与评估。
|
11天前
|
存储 人工智能 安全
从梦想到现实:十年见证AI自动化漏洞修复的演变
2014年,我怀揣着利用科技创造更安全数字世界的梦想,提出了通过云平台自动化修复第三方网站漏洞的构想。十年后的2024年,随着AI技术的崛起,这一梦想已成为现实。如今,用户只需简单注册并安装插件,AI系统就能自动检测、修复漏洞,整个过程高效、智能。AI不仅提升了系统的可靠性和效率,还具备自我学习能力,使安全防护更加主动。未来,我将继续用AI探索更多可能,推动技术的发展,不断完善这个充满智慧与安全的数字世界。
35 3
从梦想到现实:十年见证AI自动化漏洞修复的演变
|
9天前
|
人工智能 自然语言处理 IDE
通义灵码让AI帮你实现自动化编程
通义灵码是由阿里云与通义实验室联合开发的智能编码辅助工具,具备行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答及异常报错排查等功能。该工具支持200多种编程语言,兼容主流IDE,如Visual Studio Code、Visual Studio和JetBrains IDEs。通义灵码在Gartner发布的AI代码助手魔力象限中表现出色,成为唯一进入挑战者象限的中国科技公司。目前,通义灵码下载量已超过470万,每日辅助生成代码超3000万次,被开发者广泛采用。
|
27天前
|
人工智能 安全 决策智能
OpenAI推出实验性“Swarm”框架,引发关于AI驱动自动化的争论
OpenAI推出实验性“Swarm”框架,引发关于AI驱动自动化的争论
|
1月前
|
Python 机器学习/深度学习 人工智能
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
【10月更文挑战第1天】本文通过构建一个简单的强化学习环境,演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体,使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法,为更复杂应用奠定基础。首先需安装必要库: ```bash pip install gym torch ``` 接着定义环境并与之交互,实现智能体的训练。通过多个回合的试错学习,智能体逐步优化其策略。这一过程虽从基础做起,但为后续研究提供了良好起点。
114 4
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
|
21天前
|
机器学习/深度学习 数据采集 人工智能
探索AI驱动的自动化测试新纪元###
本文旨在探讨人工智能如何革新软件测试领域,通过AI技术提升测试效率、精准度和覆盖范围。在智能算法的支持下,自动化测试不再局限于简单的脚本回放,而是能够模拟复杂场景、预测潜在缺陷,并实现自我学习与优化。我们正步入一个测试更加主动、灵活且高效的新时代,本文将深入剖析这一变革的核心驱动力及其对未来软件开发的影响。 ###
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
探索软件测试的未来:AI与自动化的融合
【10月更文挑战第25天】在本文中,我们将深入探讨软件测试领域正在经历的革命性变化。随着人工智能(AI)和自动化技术的不断进步,传统的测试方法正逐步被更高效、更智能的解决方案所取代。文章将展示如何通过AI增强自动化测试框架,实现更高效的缺陷检测和问题解决。我们将从基础出发,逐步揭示AI在测试用例生成、测试执行和结果分析中的应用,以及这些技术如何帮助团队提高生产力并缩短产品上市时间。
|
1月前
|
Linux 应用服务中间件 Shell
利用 ACME 实现SSL证书自动化配置更新
【10月更文挑战第11天】多项式承诺原理是密码学中的重要工具,允许证明者向验证者承诺一个多项式并证明其某些性质。Kate多项式承诺是一种知名方案,基于有限域上的多项式表示,通过生成和验证简洁的证明来确保多项式的正确性和隐私。其安全性基于离散对数假设。应用场景包括区块链中的零知识证明和可验证计算,以及多方计算和身份认证协议。在区块链中,Kate多项式承诺可用于保护隐私币和智能合约中的敏感信息。
|
1月前
|
机器学习/深度学习 人工智能 边缘计算
AI技术趋势:从自动化到智能化的演变
AI技术趋势:从自动化到智能化的演变