阿里云神龙AI加速引擎帮助vivo将训练性能提升30%-70%

本文涉及的产品
轻量应用服务器 4vCPU 16GiB,适用于搭建游戏自建服
轻量应用服务器 2vCPU 1GiB,适用于搭建电商独立站
轻量应用服务器 2vCPU 4GiB,适用于网站搭建
简介: 神龙AI加速引擎与GPU云服务器,双结合,更强劲~

公司简介

vivo是专注于智能手机领域的国际化品牌,vivo追求乐趣、充满活力、专业音质、极致影像、愉悦体验的智能产品,并将敢于追求极致、持续创造惊喜作为vivo的坚定追求。 2014年vivo品牌的国际化之路全面开启,除中国大陆市场外,vivo进驻的海外市场包含印度、泰国、缅甸、马来西亚、印度尼西亚、越南和菲律宾。

业务痛点

1.GPU利用率不高,资源浪费明显VIVO客户的业务场景中使用的是大规模多模态模型。对该类模型进行分布式训练时,通常使用单步更新的训练模式,即每一次单步训练之后都会进行一次梯度通信,这样会导致短时间内出现大量的通信请求,造成很大的通信压力。同时,该模型的参数量较大,每次梯度通信的通信量与模型参数量成正比,这进一步的增加了通信压力。另外,该模型的训练过程中也没有对计算和通信进行时间上的重叠,这也显著的导致了训练过程中的通信时长的增加。整个分布式训练过程中大量的时间被梯度通信占据,GPU的计算资源在大多数时间处于等待状态,无法完美发挥作用。


2.训练时间长,业务模型迭代周期太长:客户业务模型的更新频率很高,每次模型迭代期间不仅要进行模型的分布式训练,还要进行测试,上线等流程。在这个迭代周期内,分布式训练占据了大量的时间,导致其它流程不得不精简以保证迭代周期,这也使得客户的业务团队承担不小的压力。

解决方案

对大规模多模态模型进行分布式训练时,由于通信压力巨大,相比于单机训练,多机训练获得的性能增益并不多,在双机场景下甚至观察到性能的负增长。于是,里云的神龙AI加速引擎AIACC团队,针对VIVO的场景,在底层针对通讯、计算、时延和带宽等做了深度优化。由于客户训练集群的网络状况有可能发生变化,AIACC团队采用了自适应优化策略,能够实时的根据网络状况对通信优化策略进行调整,从而大大提升了GPU的利用率。


在多种复杂的网络条件下,将大规模多模态模型的训练性能提升了30%-70%AIACC团队协助VIVO客户大大的缩短了的模型训练时间,加速模型迭代,助力业务模型快速上线

image.png

业务价值

1.在多种复杂的网络条件下,将大规模多模态模型的训练性能提升了30%70%

2.缩短了客户业务模型的迭代周期,为客户的业务团队减轻了压力。

相关产品


神龙AI加速引擎

神龙AI加速引擎是AIACC业界首个统一加速Tensorflow、MXNet、Caffe、PyTorch等主流深度学习框架的加速引擎,拿下斯坦福深度学习榜单Dawnbench图像识别四个世界第一。

更多关于神龙AI加速引擎的介绍,参见神龙AI加速引擎帮助文档

GPU云服务器

GPU 云服务器(GPU Cloud Computing,GPU)是提供 GPU 算力的弹性计算服务,具有超强的计算能力,服务于深度学习、科学计算、图形可视化、视频处理多种应用场景。阿里云作为亚洲第一的云服务提供商,随时为您提供触手可得的算力,有效缓解计算压力,提升您的业务效率,助您提高企业竞争力。

更多关于GPU服务器的介绍,参见GPU服务器产品详情页

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
1天前
|
存储 人工智能 Cloud Native
小鹏汽车选用阿里云PolarDB,开启AI大模型训练新时代
PolarDB-PG云原生分布式数据库不仅提供了无限的扩展能力,还借助丰富的PostgreSQL生态系统,统一了后台技术栈,极大地简化了运维工作。这种强大的组合不仅提高了系统的稳定性和性能,还为小鹏汽车大模型训练的数据管理带来了前所未有的灵活性和效率。
|
1天前
|
人工智能 弹性计算 运维
|
9天前
|
存储 机器学习/深度学习 人工智能
Elasticsearch:使用阿里云 AI 服务进行向量化和重新排名
本文介绍了如何将阿里云 AI 功能与 Elasticsearch 集成,以提高语义搜索的相关性。
218 0
|
10天前
|
云安全 人工智能 安全
阿里云欧阳欣:AI时代下的安全新范式
阿里云欧阳欣:AI时代下的安全新范式
|
2天前
|
人工智能 Kubernetes 安全
积极拥抱AI,F5携手NVIDIA赋能加速AI应用交付
积极拥抱AI,F5携手NVIDIA赋能加速AI应用交付
18 4
|
3天前
|
人工智能 前端开发 JavaScript
AI程序员:通义灵码 2.0应用VScode前端开发深度体验
AI程序员:通义灵码 2.0应用VScode前端开发深度体验,在软件开发领域,人工智能技术的融入正深刻改变着程序员的工作方式。通义灵码 2.0 作为一款先进的 AI 编程助手,与广受欢迎的代码编辑器 Visual Studio Code(VScode)相结合,为前端开发带来了全新的可能性。本文将详细分享通义灵码 2.0 在 VScode 前端开发环境中的深度使用体验。
73 2
|
10天前
|
人工智能 Java API
Spring AI与DeepSeek实战一:快速打造智能对话应用
在 AI 技术蓬勃发展的今天,国产大模型DeepSeek凭借其低成本高性能的特点,成为企业智能化转型的热门选择。而Spring AI作为 Java 生态的 AI 集成框架,通过统一API、简化配置等特性,让开发者无需深入底层即可快速调用各类 AI 服务。本文将手把手教你通过spring-ai集成DeepSeek接口实现普通对话与流式对话功能,助力你的Java应用轻松接入 AI 能力!虽然通过Spring AI能够快速完成DeepSeek大模型与。
266 11
|
10天前
|
人工智能 弹性计算 Ubuntu
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
本文介绍了如何使用阿里云提供的DeepSeek-R1大模型解决方案,通过Chatbox和Dify平台调用百炼API,实现稳定且高效的模型应用。首先,文章详细描述了如何通过Chatbox配置API并开始对话,适合普通用户快速上手。接着,深入探讨了使用Dify部署AI应用的过程,包括选购云服务器、安装Dify、配置对接DeepSeek-R1模型及创建工作流,展示了更复杂场景下的应用潜力。最后,对比了Chatbox与Dify的输出效果,证明Dify能提供更详尽、精准的回复。总结指出,阿里云的解决方案不仅操作简便,还为专业用户提供了强大的功能支持,极大提升了用户体验和应用效率。
688 18
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
|
11天前
|
人工智能 Java API
Java 也能快速搭建 AI 应用?一文带你玩转 Spring AI 可观测性
Java 也能快速搭建 AI 应用?一文带你玩转 Spring AI 可观测性
|
11天前
|
人工智能 运维 架构师
Serverless + AI 让应用开发更简单,加速应用智能化
Serverless + AI 让应用开发更简单,加速应用智能化