自 Google 提出 Vision Transformer (ViT)以来,ViT 渐渐成为许多视觉任务的默认 backbone。凭借着 ViT 结构,许多视觉任务的 SOTA 都得到了进一步提升,包括图像分类、分割、检测、识别等。
然而,训练 ViT 并非易事。除了需要较复杂的训练技巧,模型训练的计算量往往也较之前的 CNN 大很多。近日,新加坡 Sea AI Lab 和北大 ZERO Lab 的研究团队共同提出新的深度模型优化器 Adan。该优化器可以仅用一半的计算量就能完成 ViT 的训练。此外,在计算量一样的情况下, Adan 在多个场景(涉及 CV、NLP、RL)、多种训练方式(有监督与自监督)和多种网络结构 / 算法(Swin、ViT、ResNet、ConvNext、MAE、LSTM、BERT、Transformer-XL、PPO 算法)上,均获得了性能提升。
机器之心最新一期线上分享邀请到了北京大学智能学院2019级博士生谢星宇(Sea AI Lab 实习生),为大家解读他们提出加速训练深度模型的高效优化器—— Adan。
分享主题:高效优化器 Adan 加速训练深度模型,一半计算量训练多种网络结构
分享嘉宾:谢星宇,北京大学智能学院 2019 级博士生,Sea AI Lab(SAIL)实习生
分享摘要:介绍如何通过传统优化算法启发得到几种流行的深度学习优化器。介绍两种流行的一阶 momentum 优化加速方法并引入进现有的深度学习优化器。总结一些 SOTA 模型优化器的选取和参数调整技巧。
相关链接:
1)SOTA!模型平台项目主页链接:
https://sota.jiqizhixin.com/project/adan
2)论文链接:
https://arxiv.org/abs/2208.06677
3)代码仓库:
https://github.com/sail-sg/Adan(代码、配置文件、训 log 等)