AI加速器的分布式通信优化方法是怎样的?-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

AI加速器的分布式通信优化方法是怎样的?

来自:电子工业出版社 2021-11-26 11:46:39 96 1

AI加速器的分布式通信优化方法是怎样的?

取消 提交回答
全部回答(1)
  • 令人无语的八阿哥
    2021-11-26 16:08:15

    (1)计算和通信的重叠。传统的计算和通信是串行的,即先做完梯度计算、再做梯度通信,我们的第一个优化工作是将计算和通信重叠起来,尽量减少通信的开销。

    (2)去中心化梯度协商。传统分布式梯度协商方式是根节点和所有节点都协商, 因此根节点的负担会随着节点数增加而大幅升高。而我们采取的去中心化的梯度协商方式,将大规模下梯度协商的复杂度降低了一个数量级。

    (3)梯度压缩。将要传输的梯度从FP32 压缩到FP16,并建立了相应的数据缩放机制,从而防止精度损失。

    (4)分级通信优化。传统的环形通信方式是将所有节点上的GPU 形成一个大环, 致使其整体性能在以太网的通信上受到限制。我们做了分级通信的优化,首先在节点内部的GPU 上做一级规约通信,每个节点都规约到一块GPU 上,然后每个节点的这个GPU 再做二级规约通信。这样一方面减少了以太网上传输的数据量,另一方面通过流水线将节点内部的规约通信和节点之间的规约通信重叠起来,减少了整体通信时间。

    (5)梯度融合优化。传统的通信方法是计算出一个梯度通信一次,这样会产生很多小包的通信,对网络带宽非常不友好,优化是等一批梯度计算完成后再融合在一起做通信,这样的大数据包能够大大提升网络带宽的利用率。

    资料来源:《弹性计算—无处不在的算力》

    0 0
相关问答

7

回答

【漏洞公告】CVE-2016-5195“脏牛(Dirty COW)”漏洞- Linux内核通杀提权漏洞

英鸷 2016-10-22 17:10:15 25437浏览量 回答数 7

2

回答

云栖小镇•云计算生态-《凌云》2014.11总第五期

tech君 2014-11-05 15:54:28 17152浏览量 回答数 2

15

回答

免费Docker镜像来袭,你造么?

豆妹 2014-11-21 15:49:57 23294浏览量 回答数 15

59

回答

【有话“值”说】说出你对自助服务的感受或期待 众多奖品搬回家

阿里云支持与服务 2016-07-19 13:41:07 22012浏览量 回答数 59

7

回答

他用20年写下1亿行代码 神级程序员编程必备歌单

元芳啊 2016-07-18 15:13:21 18097浏览量 回答数 7

11

回答

新的技术,比如大数据、AI如何应用在航空行业?

诺诺罗亚 2019-06-26 16:15:54 117976浏览量 回答数 11

22

回答

专家教你:省钱更省心,用镜像0元购云服务器!

豆妹 2014-08-27 17:03:25 43183浏览量 回答数 22

87

回答

亮出你的专属二次元形象,领天猫精灵音箱

霸道网管 2021-01-08 09:08:10 23242浏览量 回答数 87

5

回答

2018云栖大会·重庆峰会

游客886 2018-07-27 10:57:51 26919浏览量 回答数 5

55

回答

『开发者大会.2013』伙伴们,快准备素材,登上“云梦想墙”!

qiujin2012 2013-09-13 21:46:41 31384浏览量 回答数 55
0
文章
759
问答
问答排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载