高性能计算技术也能助推大规模深度学习（百度实践）-阿里云开发者社区

高性能计算技术也能助推大规模深度学习（百度实践）

2017-03-11 4145

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文描写了百度硅谷人工智能实验室在深度学习框架中引入HPC技术的实践，通过对OpenMPI里ring all-reduce算法进行改进，使语音识别训练模型的性能得到数十倍的提升，最后百度开源了其实现，希望更多的人受益。

更多深度文章，请关注：https://yq.aliyun.com/cloud

作者简介：

1ce2199fbc603a104d7e1c2d7598193e2fac99c0

Tiffany Trader，毕业于圣地亚哥州立大学和加州州立大学，长期致力于高性能计算、云计算、绿色计算新闻报道和分析，2015年开始担任全球知名高性能计算新闻网站HPCwire的总编辑。Tiffany Trader 的LinkedIn主页，Twitter主页。

来自百度硅谷人工智能实验室（SVAIL）的研究人员改进了众所周知的HPC通信技术，提升了通信速度，并且扩大了他们的神经网络训练规模，今天，在知名深度学习社区分享了他们的实现。

百度改进的这个技术就是OpenMPI算法ring all-reduce，在百度的语音识别模型（Deep Speech 2，建立在多个GPU计算节点之上）并行训练中使用了ring all-reduce算法，百度在今年2月开源了两个软件包，一个是baidu-allreduce c库（一个小型C++库），另一个是tensorflow-allreduce（给 tensorflow 0.12.1打了一个补丁），使用tensorflow建立的模型可以使用这个新的版本，利用它的跨多设备并行处理能力。相关代码托管在GitHub上，有兴趣的读者点击前面的链接即可。

百度的SVAIL团队大约两年前开始在他们内部的深度学习框架（名叫Gene and Majel，为了向著名的星际旅行创立者Gene Roddenberry和他的第二任妻子Majel Barrett致敬）上使用这个算法，百度研究人员表示，在HPC领域，大家对这个算法早已是老生常谈，但在人工智能和深度学习领域，这个算法却未被充分利用。

SVAIL团队成员大都来自高性能计算领域。百度研究科学家Shubho Sengupta说：“ring all-reduce算法其实是OpenMPI的一部分，但OpenMPI本身并不是很快，我们在刚用它来进行训练时遇到了不少问题，我们发现它的伸缩能力有限，但我们又很想让它具有良好的伸缩性，因此我们决定研究它的源代码，最终发现这个算法的效率不高，我们就重新实现了这个算法”。

SVAIL研究人员重写的ring all-reduce算法性能更好，也更稳定，与OpenMPI最大的差别是，SVAIL实现的算法避免了CPU和GPU之间额外的副本传输。

Sengupta解释，“OpenMPI在这些矩阵通信时，如果矩阵在GPU内存中，它实际上会复制一份到CPU内存中，这种做法是非常浪费资源的，实际上可以不用复制，只需要编写一个小的内核来减少GPU内存空间即可，当你在一个节点内执行all-reduce，并且所有GPU都在一个PCI根复合体中时这种方法特别有用，在GPU内存空间就可以完成一切任务，就是这么一个简单的想法，最终我们的算法实现比OpenMPI自身的要快得多”。

516720dc3fd12b9d50342efc534509cf18c3dcee

Ring all-reduce，所有GPU同时发送数据

SVAIL除了在算法实现上有突破外，他们还注重高速网络（InfiniBand）和软硬一体设计，最终使GPU纵向扩展到128个，具体细节请查阅2015年12月SVAIL团队发布的论文“Deep Speech 2：中英文端到端语音识别”。通过对ring all-reduce算法的改进，与OpenMPI（v1.8.5）相比，百度SVAIL团队在同等GPU数量的情况下，将速度提升了2.3-21.4倍。

Sengupta表示，GPU数量很少时速度是最快的，“8颗GPU是快大约20倍，睡着GPU数量的增加，性能反而会有所下降，因为必须通过网络将数据发送给CPU，但在我们内部的框架上，我们可以将GPU数量扩大到128颗，实现线性扩展”。

be1c1c6e1ec53f5561e8e8b40a7374511d004ea4

两种all-reduce算法实现的性能对比（单位：秒）

Deep Speech 2论文发布后，SVAIL团队开始收到来自社区想了解实现细节的请求，由于这个算法与SVAIL的深度学习框架专利结合得太紧密了，因此，他们就创建了两种实现方法，一个是针对TensorFlow的，另一个就是更通用的。

领导TensorFlow补丁工作的Gibiansky阐述了他们多管齐下传播信息的方法，“看看这篇博客你就知道了，如果你在使用TensorFlow，可以使用我们提交的补丁版本来训练你的模型，如果你是深度学习的作者，你可以看看我们的C库，并集成它，通过我们内部的尝试结果来看还是非常成功的，我们希望让更多的人受益于此”。

Sengupta就深挖HPC技术用于深度学习分享了一个有趣的观点， “搞深度学习的人总认为MPI是一项过时的技术，并且好像和深度学习也没什么关系，但我认为使用MPI也可以搭建非常快的集合，并且支持同步梯度下降，使收敛速度更快，不需要用到异步梯度下降就能得到结果”。

关于百度ring all-reduce算法的详细解释，请看百度研究院的这篇博客文章，对于百度开源的深度学习框架 PaddlePaddle来说，它还使用了其它大量的技术来保证高性能节点的扩展，有兴趣的同学可以到PaddlePaddle的主页去看看。

数十款阿里云产品限时折扣中，赶紧点击领劵开始云上实践吧！

以上为译文。

本文由北邮@爱可可-爱生活老师推荐，阿里云云栖社区组织翻译。

文章原标题《HPC Technique Propels Deep Learning at Scale》

作者：Tiffany Trader，译者：耕牛的人，审校：身形。

文章为简译，更为详细的内容，请查看原文

高性能计算技术也能助推大规模深度学习（百度实践）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

高性能计算技术也能助推大规模深度学习（百度实践）

热门文章

最新文章

相关课程

相关电子书

相关实验场景