阿里云神龙AI加速引擎帮助vivo将训练性能提升30%-70%

本文涉及的产品
轻量应用服务器 2vCPU 4GiB,适用于网站搭建
轻量应用服务器 2vCPU 4GiB,适用于搭建容器环境
轻量应用服务器 2vCPU 4GiB,适用于搭建Web应用/小程序
简介: 神龙AI加速引擎与GPU云服务器,双结合,更强劲~

公司简介

vivo是专注于智能手机领域的国际化品牌,vivo追求乐趣、充满活力、专业音质、极致影像、愉悦体验的智能产品,并将敢于追求极致、持续创造惊喜作为vivo的坚定追求。 2014年vivo品牌的国际化之路全面开启,除中国大陆市场外,vivo进驻的海外市场包含印度、泰国、缅甸、马来西亚、印度尼西亚、越南和菲律宾。

业务痛点

1.GPU利用率不高,资源浪费明显VIVO客户的业务场景中使用的是大规模多模态模型。对该类模型进行分布式训练时,通常使用单步更新的训练模式,即每一次单步训练之后都会进行一次梯度通信,这样会导致短时间内出现大量的通信请求,造成很大的通信压力。同时,该模型的参数量较大,每次梯度通信的通信量与模型参数量成正比,这进一步的增加了通信压力。另外,该模型的训练过程中也没有对计算和通信进行时间上的重叠,这也显著的导致了训练过程中的通信时长的增加。整个分布式训练过程中大量的时间被梯度通信占据,GPU的计算资源在大多数时间处于等待状态,无法完美发挥作用。


2.训练时间长,业务模型迭代周期太长:客户业务模型的更新频率很高,每次模型迭代期间不仅要进行模型的分布式训练,还要进行测试,上线等流程。在这个迭代周期内,分布式训练占据了大量的时间,导致其它流程不得不精简以保证迭代周期,这也使得客户的业务团队承担不小的压力。

解决方案

对大规模多模态模型进行分布式训练时,由于通信压力巨大,相比于单机训练,多机训练获得的性能增益并不多,在双机场景下甚至观察到性能的负增长。于是,里云的神龙AI加速引擎AIACC团队,针对VIVO的场景,在底层针对通讯、计算、时延和带宽等做了深度优化。由于客户训练集群的网络状况有可能发生变化,AIACC团队采用了自适应优化策略,能够实时的根据网络状况对通信优化策略进行调整,从而大大提升了GPU的利用率。


在多种复杂的网络条件下,将大规模多模态模型的训练性能提升了30%-70%AIACC团队协助VIVO客户大大的缩短了的模型训练时间,加速模型迭代,助力业务模型快速上线

image.png

业务价值

1.在多种复杂的网络条件下,将大规模多模态模型的训练性能提升了30%70%

2.缩短了客户业务模型的迭代周期,为客户的业务团队减轻了压力。

相关产品


神龙AI加速引擎

神龙AI加速引擎是AIACC业界首个统一加速Tensorflow、MXNet、Caffe、PyTorch等主流深度学习框架的加速引擎,拿下斯坦福深度学习榜单Dawnbench图像识别四个世界第一。

更多关于神龙AI加速引擎的介绍,参见神龙AI加速引擎帮助文档

GPU云服务器

GPU 云服务器(GPU Cloud Computing,GPU)是提供 GPU 算力的弹性计算服务,具有超强的计算能力,服务于深度学习、科学计算、图形可视化、视频处理多种应用场景。阿里云作为亚洲第一的云服务提供商,随时为您提供触手可得的算力,有效缓解计算压力,提升您的业务效率,助您提高企业竞争力。

更多关于GPU服务器的介绍,参见GPU服务器产品详情页

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
1天前
|
人工智能 自然语言处理 机器人
对话阿里云CIO蒋林泉:AI时代,企业如何做好智能化系统建设?
对话阿里云CIO蒋林泉:AI时代,企业如何做好智能化系统建设?
|
1天前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
|
1天前
|
人工智能 数据管理 数据库
Data+AI用户体验升级,阿里云「DMS+UX」焕醒数智一体化新体验
Data+AI用户体验升级,阿里云「DMS+UX」焕醒数智一体化新体验
|
1天前
|
人工智能 关系型数据库 分布式数据库
阿里云PolarDB重磅发布云原生与Data+AI新特性,打造智能时代数据引擎
阿里云PolarDB重磅发布云原生与Data+AI新特性,打造智能时代数据引擎
|
1天前
|
SQL 人工智能 大数据
【4月重点功能发布】阿里云大数据+ AI 一体化平台
【4月重点功能发布】阿里云大数据+ AI 一体化平台
|
4天前
|
人工智能 Java API
Java也能快速搭建AI应用?一文带你玩转Spring AI可落地性
Java语言凭借其成熟的生态与解决方案,特别是通过 Spring AI 框架,正迅速成为 AI 应用开发的新选择。本文将探讨如何利用 Spring AI Alibaba 构建在线聊天 AI 应用,并实现对其性能的全面可观测性。
|
3天前
|
人工智能 边缘计算 运维
容器化浪潮下的AI赋能:智能化运维与创新应用
近年来,容器技术以其轻量、高效、可移植的特性成为云原生时代的基石,推动应用开发和部署方式革新。随着容器化应用规模扩大,传统运维手段逐渐力不从心。AI技术的引入为容器化生态带来新活力,实现智能监控、自动化故障诊断与修复及智能资源调度,提升运维效率和可靠性。同时,AI驱动容器化创新应用,如模型训练、边缘计算和Serverless AI服务,带来更多可能性。未来,AI与容器技术的融合将更加紧密,推动更智能、高效的运维平台和丰富的创新应用场景,助力数字化转型。
|
1月前
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
125 24
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
|
22天前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
1321 14
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
19天前
|
人工智能 开发框架 数据可视化
Eino:字节跳动开源基于Golang的AI应用开发框架,组件化设计助力构建AI应用
Eino 是字节跳动开源的大模型应用开发框架,帮助开发者高效构建基于大模型的 AI 应用。支持组件化设计、流式处理和可视化开发工具。
193 27