阿里云神龙AI加速引擎帮助vivo将训练性能提升30%-70%

本文涉及的产品
轻量应用服务器 2vCPU 1GiB,适用于搭建电商独立站
轻量应用服务器 2vCPU 4GiB,适用于搭建容器环境
轻量应用服务器 2vCPU 4GiB,适用于搭建Web应用/小程序
简介: 神龙AI加速引擎与GPU云服务器,双结合,更强劲~

公司简介

vivo是专注于智能手机领域的国际化品牌,vivo追求乐趣、充满活力、专业音质、极致影像、愉悦体验的智能产品,并将敢于追求极致、持续创造惊喜作为vivo的坚定追求。 2014年vivo品牌的国际化之路全面开启,除中国大陆市场外,vivo进驻的海外市场包含印度、泰国、缅甸、马来西亚、印度尼西亚、越南和菲律宾。

业务痛点

1.GPU利用率不高,资源浪费明显VIVO客户的业务场景中使用的是大规模多模态模型。对该类模型进行分布式训练时,通常使用单步更新的训练模式,即每一次单步训练之后都会进行一次梯度通信,这样会导致短时间内出现大量的通信请求,造成很大的通信压力。同时,该模型的参数量较大,每次梯度通信的通信量与模型参数量成正比,这进一步的增加了通信压力。另外,该模型的训练过程中也没有对计算和通信进行时间上的重叠,这也显著的导致了训练过程中的通信时长的增加。整个分布式训练过程中大量的时间被梯度通信占据,GPU的计算资源在大多数时间处于等待状态,无法完美发挥作用。


2.训练时间长,业务模型迭代周期太长:客户业务模型的更新频率很高,每次模型迭代期间不仅要进行模型的分布式训练,还要进行测试,上线等流程。在这个迭代周期内,分布式训练占据了大量的时间,导致其它流程不得不精简以保证迭代周期,这也使得客户的业务团队承担不小的压力。

解决方案

对大规模多模态模型进行分布式训练时,由于通信压力巨大,相比于单机训练,多机训练获得的性能增益并不多,在双机场景下甚至观察到性能的负增长。于是,里云的神龙AI加速引擎AIACC团队,针对VIVO的场景,在底层针对通讯、计算、时延和带宽等做了深度优化。由于客户训练集群的网络状况有可能发生变化,AIACC团队采用了自适应优化策略,能够实时的根据网络状况对通信优化策略进行调整,从而大大提升了GPU的利用率。


在多种复杂的网络条件下,将大规模多模态模型的训练性能提升了30%-70%AIACC团队协助VIVO客户大大的缩短了的模型训练时间,加速模型迭代,助力业务模型快速上线

image.png

业务价值

1.在多种复杂的网络条件下,将大规模多模态模型的训练性能提升了30%70%

2.缩短了客户业务模型的迭代周期,为客户的业务团队减轻了压力。

相关产品


神龙AI加速引擎

神龙AI加速引擎是AIACC业界首个统一加速Tensorflow、MXNet、Caffe、PyTorch等主流深度学习框架的加速引擎,拿下斯坦福深度学习榜单Dawnbench图像识别四个世界第一。

更多关于神龙AI加速引擎的介绍,参见神龙AI加速引擎帮助文档

GPU云服务器

GPU 云服务器(GPU Cloud Computing,GPU)是提供 GPU 算力的弹性计算服务,具有超强的计算能力,服务于深度学习、科学计算、图形可视化、视频处理多种应用场景。阿里云作为亚洲第一的云服务提供商,随时为您提供触手可得的算力,有效缓解计算压力,提升您的业务效率,助您提高企业竞争力。

更多关于GPU服务器的介绍,参见GPU服务器产品详情页

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
1月前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
|
1月前
|
人工智能 vr&ar UED
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
|
1月前
|
机器学习/深度学习 人工智能 Serverless
吉利汽车携手阿里云函数计算,打造新一代 AI 座舱推理引擎
当前吉利汽车研究院人工智能团队承担了吉利汽车座舱 AI 智能化的方案建设,在和阿里云的合作中,基于星睿智算中心 2.0 的 23.5EFLOPS 强大算力,构建 AI 混合云架构,面向百万级用户的实时推理计算引入阿里云函数计算的 Serverless GPU 算力集群,共同为智能座舱的交互和娱乐功能提供大模型推理业务服务,涵盖的场景如针对模糊指令的复杂意图解析、文生图、情感 TTS 等。
|
1月前
|
机器学习/深度学习 人工智能 JSON
PHP从0到1实现 AI 智能体系统并且训练知识库资料
本文详解如何用PHP从0到1构建AI智能体,涵盖提示词设计、记忆管理、知识库集成与反馈优化四大核心训练维度,结合实战案例与系统架构,助你打造懂业务、会进化的专属AI助手。
202 6
|
1月前
|
机器学习/深度学习 人工智能 算法
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
NBA中国与阿里云达成合作,首发360°实时回放技术,融合AI视觉引擎,实现多视角、低延时、沉浸式观赛新体验,重新定义体育赛事观看方式。
309 0
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
|
1月前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。
|
1月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
398 29
|
1月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
454 28
|
2月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
785 42
|
1月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
308 1

热门文章

最新文章