阿里云神龙AI加速引擎帮助vivo将训练性能提升30%-70%-阿里云开发者社区

阿里云神龙AI加速引擎帮助vivo将训练性能提升30%-70%

2022-03-15 1849

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 神龙AI加速引擎与GPU云服务器，双结合，更强劲~

公司简介

vivo是专注于智能手机领域的国际化品牌，vivo追求乐趣、充满活力、专业音质、极致影像、愉悦体验的智能产品，并将敢于追求极致、持续创造惊喜作为vivo的坚定追求。 2014年vivo品牌的国际化之路全面开启，除中国大陆市场外，vivo进驻的海外市场包含印度、泰国、缅甸、马来西亚、印度尼西亚、越南和菲律宾。

业务痛点

1.GPU利用率不高，资源浪费明显：VIVO客户的业务场景中使用的是大规模多模态模型。对该类模型进行分布式训练时，通常使用单步更新的训练模式，即每一次单步训练之后都会进行一次梯度通信，这样会导致短时间内出现大量的通信请求，造成很大的通信压力。同时，该模型的参数量较大，每次梯度通信的通信量与模型参数量成正比，这进一步的增加了通信压力。另外，该模型的训练过程中也没有对计算和通信进行时间上的重叠，这也显著的导致了训练过程中的通信时长的增加。整个分布式训练过程中大量的时间被梯度通信占据，GPU的计算资源在大多数时间处于等待状态，无法完美发挥作用。

2.训练时间长，业务模型迭代周期太长：客户业务模型的更新频率很高，每次模型迭代期间不仅要进行模型的分布式训练，还要进行测试，上线等流程。在这个迭代周期内，分布式训练占据了大量的时间，导致其它流程不得不精简以保证迭代周期，这也使得客户的业务团队承担不小的压力。

解决方案

对大规模多模态模型进行分布式训练时，由于通信压力巨大，相比于单机训练，多机训练获得的性能增益并不多，在双机场景下甚至观察到性能的负增长。于是，阿里云的神龙AI加速引擎AIACC团队，针对VIVO的场景，在底层针对通讯、计算、时延和带宽等做了深度优化。由于客户训练集群的网络状况有可能发生变化，AIACC团队采用了自适应优化策略，能够实时的根据网络状况对通信优化策略进行调整，从而大大提升了GPU的利用率。

在多种复杂的网络条件下，将大规模多模态模型的训练性能提升了30%-70%。AIACC团队协助VIVO客户大大的缩短了的模型训练时间，加速了模型迭代，助力业务模型快速上线。

业务价值

1.在多种复杂的网络条件下，将大规模多模态模型的训练性能提升了30%～70%。

2.缩短了客户业务模型的迭代周期，为客户的业务团队减轻了压力。

阿里云神龙AI加速引擎帮助vivo将训练性能提升30%-70%

公司简介

业务痛点

解决方案

业务价值

相关产品

神龙AI加速引擎

GPU云服务器

云服务器ECS

热门文章

最新文章

相关课程

相关电子书

相关实验场景