显著提升深度学习 GPU 利用率，阿里云拿下国际网络顶会优胜奖！-阿里云开发者社区

显著提升深度学习 GPU 利用率，阿里云拿下国际网络顶会优胜奖！

2024-08-15 1406

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 显著提升深度学习 GPU 利用率，阿里云拿下国际网络顶会优胜奖！

国际网络通信顶会SIGCOMM近日闭幕

阿里云共有7篇论文入选

其中，AI网络调度成果论文

斩获SIGCOMM 2024优胜奖！

图｜阿里云获 SIGCOMM 2024 优胜奖论文

SIGCOMM 评审专家认为 ——

Crux解决了多租环境深度学习中的一个基础性问题，通过理论创新和实践分析设计了一套高效的解决方案，因此授予 Crux 成果论文SIGCOMM优胜奖。

此次，获奖论文Crux: GPU-Efficient Communication Scheduling for Deep Learning Training 介绍了阿里云自研的集合通信优化调度器 Crux，其可提升高达 14.8%的GPU 计算利用率。

阿里云网络研发团队从实际业务环境的深度学习任务出发，发现任务之间存在通信竞争，是GPU集群的训练效率不高的基础性原因。

对此，团队从学术理论层面突破，证明了GPU利用率问题与基于任务优先级的通信调度问题是近似的，进而创新设计了集合通信优化调度器 Crux，实现更高效的选路和优先级分配机制，提升了 GPU 计算利用率。

图｜阿里云自研集合通信优化调度器 Crux，

提升 GPU 计算利用率

实验结果表明，在96卡GPU测试环境中，Crux可以提高GPU计算利用率 8.3％至 14.8％。在基于大规模生产跟踪仿真中，与Sincronia、TACCL和 CASSINI等已有方案相比，Crux可以将GPU计算利用率最多提高23％。据了解，Crux已被集成到阿里云自研通信库，实现规模化使用。

图｜阿里云网络研发团队与大会程序委员会主席合影

从 2019 年以来，阿里云有近30篇成果论文先后发表在 SIGCOMM上，为国内机构之首。今年，阿里云有7篇论文入选SIGCOMM。除上述介绍的Crux论文外，今年关于智算集群网络架构HPN 7.0的成果论文，成为 SIGCOMM在AI智算集群网络架构领域的首篇论文。

HPN7.0架构面向AI时代对网络高性能需求而研发，针对大模型训练场景下规模大、大流多、突发强烈、稳定性需求高的特点，创新性地设计了“双上联+多轨+双平面”的网络架构，并配合最新一代的51.2Tbps单芯片以太网交换机和400G 高性能网卡，自研Solar-RDMA和ACCL通信库，实现了单层千卡、两层万卡的高性能和高稳定互联。

图｜HPN7.0架构：为AI设计的高性能网络集群

ACM SIGCOMM是计算机网络通信领域历史最悠久、最权威的顶级学术会议，至今已有 50 多年的历史。SIGCOMM对论文质量要求极高，成果也被学术界和业界视为网络通信领域未来发展的风向标，现在耳熟能详的各种协议、技术几乎都发表在 SIGCOMM上。2024 年度的SIGCOMM 仅录用 62 篇论文, 录取率不到17%，为近五年最低。SIGCOMM 2024 优胜奖（Honorable Mentions，也即最佳论文候选），是对论文成果的业务创新价值和行业影响力的综合评价。

/ END /

显著提升深度学习 GPU 利用率，阿里云拿下国际网络顶会优胜奖！

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

显著提升深度学习 GPU 利用率，阿里云拿下国际网络顶会优胜奖！

热门文章

最新文章

相关课程

相关电子书