Sea AI Lab和北大Adan项目原作解读:加速训练深度模型的高效优化器

简介: Sea AI Lab和北大Adan项目原作解读:加速训练深度模型的高效优化器

自 Google 提出 Vision Transformer (ViT)以来,ViT 渐渐成为许多视觉任务的默认 backbone。凭借着 ViT 结构,许多视觉任务的 SOTA 都得到了进一步提升,包括图像分类、分割、检测、识别等。

然而,训练 ViT 并非易事。除了需要较复杂的训练技巧,模型训练的计算量往往也较之前的 CNN 大很多。近日,新加坡 Sea AI Lab 和北大 ZERO Lab 的研究团队共同提出新的深度模型优化器 Adan。该优化器可以仅用一半的计算量就能完成 ViT 的训练。此外,在计算量一样的情况下, Adan 在多个场景(涉及 CV、NLP、RL)、多种训练方式(有监督与自监督)和多种网络结构 / 算法(Swin、ViT、ResNet、ConvNext、MAE、LSTM、BERT、Transformer-XL、PPO 算法)上,均获得了性能提升。

机器之心最新一期线上分享邀请到了北京大学智能学院2019级博士生谢星宇(Sea AI Lab 实习生),为大家解读他们提出加速训练深度模型高效优化器—— Adan。


分享主题:高效优化器 Adan 加速训练深度模型,一半计算量训练多种网络结构

分享嘉宾:谢星宇,北京大学智能学院 2019 级博士生,Sea AI Lab(SAIL)实习生

分享摘要:介绍如何通过传统优化算法启发得到几种流行的深度学习优化器。介绍两种流行的一阶 momentum 优化加速方法并引入进现有的深度学习优化器。总结一些 SOTA 模型优化器的选取和参数调整技巧。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/adan

2)论文链接:

https://arxiv.org/abs/2208.06677

3)代码仓库:

https://github.com/sail-sg/Adan码、配置文件、训 log 等

相关文章
|
2月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
1749 120
|
3月前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
本文讲解 Prompt 基本概念与 10 个优化技巧,结合学术分析 AI 应用的需求分析、设计方案,介绍 Spring AI 中 ChatClient 及 Advisors 的使用。
1354 133
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
|
3月前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段三:自定义 Advisor 与结构化输出实现以及对话记忆持久化开发
本文介绍如何在Spring AI中自定义Advisor实现日志记录、结构化输出、对话记忆持久化及多模态开发,结合阿里云灵积模型Qwen-Plus,提升AI应用的可维护性与功能性。
704 125
AI 超级智能体全栈项目阶段三:自定义 Advisor 与结构化输出实现以及对话记忆持久化开发
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1581 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
2月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
304 120
|
2月前
|
人工智能 小程序 搜索推荐
【一步步开发AI运动APP】十二、自定义扩展新运动项目2
本文介绍如何基于uni-app运动识别插件实现“双手并举”自定义扩展运动,涵盖动作拆解、姿态检测规则构建及运动分析器代码实现,助力开发者打造个性化AI运动APP。
|
双11 人工智能
双11 AI LAB“全息直播2+2
#看直播,享特惠# 喜迎双十一,阿里云AI LAB特别推出“全息直播2+2”活动: 不仅有最新鲜的人工智能界黑科技, 还有产品及解决方案特惠等你来拿! 全息无限,智享未来!
2517 0
双11 AI LAB“全息直播2+2
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
535 33
|
2月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
454 30

热门文章

最新文章