国际网络通信顶会SIGCOMM近日闭幕
阿里云共有7篇论文入选
其中,AI网络调度成果论文
斩获SIGCOMM 2024优胜奖!
图|阿里云获 SIGCOMM 2024 优胜奖论文
SIGCOMM 评审专家认为 ——
Crux解决了多租环境深度学习中的一个基础性问题,通过理论创新和实践分析设计了一套高效的解决方案,因此授予 Crux 成果论文SIGCOMM优胜奖。
此次,获奖论文Crux: GPU-Efficient Communication Scheduling for Deep Learning Training 介绍了阿里云自研的集合通信优化调度器 Crux,其可提升高达 14.8%的GPU 计算利用率。
阿里云网络研发团队从实际业务环境的深度学习任务出发,发现任务之间存在通信竞争,是GPU集群的训练效率不高的基础性原因。
对此,团队从学术理论层面突破,证明了GPU利用率问题与基于任务优先级的通信调度问题是近似的,进而创新设计了集合通信优化调度器 Crux,实现更高效的选路和优先级分配机制,提升了 GPU 计算利用率。
图|阿里云自研集合通信优化调度器 Crux,
提升 GPU 计算利用率
实验结果表明,在96卡GPU测试环境中,Crux可以提高GPU计算利用率 8.3% 至 14.8%。在基于大规模生产跟踪仿真中,与Sincronia、TACCL和 CASSINI等已有方案相比,Crux可以将GPU计算利用率最多提高23%。据了解,Crux已被集成到阿里云自研通信库,实现规模化使用。
图|阿里云网络研发团队与大会程序委员会主席合影
从 2019 年以来,阿里云有近30篇成果论文先后发表在 SIGCOMM上,为国内机构之首。今年,阿里云有7篇论文入选SIGCOMM。除上述介绍的Crux论文外,今年关于智算集群网络架构HPN 7.0的成果论文,成为 SIGCOMM在AI智算集群网络架构领域的首篇论文。
HPN7.0架构面向AI时代对网络高性能需求而研发,针对大模型训练场景下规模大、大流多、突发强烈、稳定性需求高的特点,创新性地设计了“双上联+多轨+双平面”的网络架构,并配合最新一代的51.2Tbps单芯片以太网交换机和400G 高性能网卡,自研Solar-RDMA和ACCL通信库,实现了单层千卡、两层万卡的高性能和高稳定互联。
图|HPN7.0架构:为AI设计的高性能网络集群
ACM SIGCOMM是计算机网络通信领域历史最悠久、最权威的顶级学术会议,至今已有 50 多年的历史。SIGCOMM对论文质量要求极高,成果也被学术界和业界视为网络通信领域未来发展的风向标,现在耳熟能详的各种协议、技术几乎都发表在 SIGCOMM上。2024 年度的SIGCOMM 仅录用 62 篇论文, 录取率不到17%,为近五年最低。SIGCOMM 2024 优胜奖(Honorable Mentions,也即最佳论文候选),是对论文成果的业务创新价值和行业影响力的综合评价。
/ END /