显著提升深度学习 GPU 利用率,阿里云拿下国际网络顶会优胜奖!

简介: 显著提升深度学习 GPU 利用率,阿里云拿下国际网络顶会优胜奖!


国际网络通信顶会SIGCOMM近日闭幕

阿里云共有7篇论文入选

其中,AI网络调度成果论文

斩获SIGCOMM 2024优胜奖!


图|阿里云获 SIGCOMM 2024 优胜奖论文


SIGCOMM 评审专家认为 ——

Crux解决了多租环境深度学习中的一个基础性问题,通过理论创新和实践分析设计了一套高效的解决方案,因此授予 Crux 成果论文SIGCOMM优胜奖。


此次,获奖论文Crux: GPU-Efficient Communication Scheduling for Deep Learning Training 介绍了阿里云自研的集合通信优化调度器 Crux,其可提升高达 14.8%的GPU 计算利用率。


阿里云网络研发团队从实际业务环境的深度学习任务出发,发现任务之间存在通信竞争,是GPU集群的训练效率不高的基础性原因。


对此,团队从学术理论层面突破,证明了GPU利用率问题与基于任务优先级的通信调度问题是近似的,进而创新设计了集合通信优化调度器 Crux,实现更高效的选路和优先级分配机制,提升了 GPU 计算利用率。


126244c683f5eec8844d936370d4216e.png

图|阿里云自研集合通信优化调度器 Crux,

提升 GPU 计算利用率


实验结果表明,在96卡GPU测试环境中,Crux可以提高GPU计算利用率 8.3% 至 14.8%。在基于大规模生产跟踪仿真中,与Sincronia、TACCL和 CASSINI等已有方案相比,Crux可以将GPU计算利用率最多提高23%。据了解,Crux已被集成到阿里云自研通信库,实现规模化使用。


5a0aa0dfa1f3c6226f35408a9f849762.png

图|阿里云网络研发团队与大会程序委员会主席合影


从 2019 年以来,阿里云有近30篇成果论文先后发表在 SIGCOMM上,为国内机构之首。今年,阿里云有7篇论文入选SIGCOMM。除上述介绍的Crux论文外,今年关于智算集群网络架构HPN 7.0的成果论文,成为 SIGCOMM在AI智算集群网络架构领域的首篇论文。


HPN7.0架构面向AI时代对网络高性能需求而研发,针对大模型训练场景下规模大、大流多、突发强烈、稳定性需求高的特点,创新性地设计了“双上联+多轨+双平面”的网络架构,并配合最新一代的51.2Tbps单芯片以太网交换机和400G 高性能网卡,自研Solar-RDMA和ACCL通信库,实现了单层千卡、两层万卡的高性能和高稳定互联。


369892d344061362b8bcf3eb1a99f1ef.png

图|HPN7.0架构:为AI设计的高性能网络集群


ACM SIGCOMM是计算机网络通信领域历史最悠久、最权威的顶级学术会议,至今已有 50 多年的历史。SIGCOMM对论文质量要求极高,成果也被学术界和业界视为网络通信领域未来发展的风向标,现在耳熟能详的各种协议、技术几乎都发表在 SIGCOMM上。2024 年度的SIGCOMM 仅录用 62 篇论文, 录取率不到17%,为近五年最低。SIGCOMM 2024 优胜奖(Honorable Mentions,也即最佳论文候选),是对论文成果的业务创新价值和行业影响力的综合评价。




/ END /

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
12天前
|
SQL 缓存 Cloud Native
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
99 63
|
4天前
|
弹性计算 运维 监控
阿里云操作系统控制台解决网络故障
阿里云操作系统控制台是一款功能强大、操作便捷的云服务器管理平台,专为用户提供高效、智能的运维体验。它不仅支持服务器的创建、配置和监控,还集成了智能诊断、自动化运维和资源优化等高级功能,让云服务器管理变得更加轻松高效。通过直观的界面和丰富的工具,用户可以便捷地管理多台云服务器,实时监控系统性能,并快速定位和解决故障。例如,控制台的智能诊断功能能够自动分析系统异常,并提供优化建议,帮助用户迅速恢复服务。除此之外,控制台还支持批量操作、权限管理和日志分析,充分满足企业级用户的需求。无论是个人开发者还是大型企业,都可以借助阿里云操作系统控制台提升运维效率,降低管理成本,确保业务稳定运行。接下来就让我们
40 17
|
9天前
|
缓存 边缘计算 安全
阿里云CDN:全球加速网络的实践创新与价值解析
在数字化浪潮下,用户体验成为企业竞争力的核心。阿里云CDN凭借技术创新与全球化布局,提供高效稳定的加速解决方案。其三层优化体系(智能调度、缓存策略、安全防护)确保低延迟和高命中率,覆盖2800+全球节点,支持电商、教育、游戏等行业,帮助企业节省带宽成本,提升加载速度和安全性。未来,阿里云CDN将继续引领内容分发的行业标准。
52 7
|
9天前
|
弹性计算 运维 负载均衡
课时3:阿里云专有网络VPC:让网络更加独立
阿里云专有网络VPC提供独立、安全的云上网络环境,支持自定义IP地址网段和灵活的路由配置。通过高速通道实现优质网络链路,可用性达99.95%,满足企业高要求的数据传输需求。VPC结合弹性公网IP、负载均衡SLB、Net网关等功能,帮助企业轻松管理网络资源,降低运维成本,实现高效、安全的混合云架构部署。
|
11天前
|
Web App开发 监控 网络协议
网络分析与监控:阿里云拨测方案解密
网络分析与监控:阿里云拨测方案解密
|
11天前
|
存储 监控 安全
网络安全视角:从地域到账号的阿里云日志审计实践
网络安全视角:从地域到账号的阿里云日志审计实践
|
11天前
|
负载均衡 数据中心 芯片
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
|
1月前
|
存储 机器学习/深度学习 人工智能
2025年阿里云GPU服务器租用价格、选型策略与应用场景详解
随着AI与高性能计算需求的增长,阿里云提供了多种GPU实例,如NVIDIA V100、A10、T4等,适配不同场景。2025年重点实例中,V100实例GN6v单月3830元起,适合大规模训练;A10实例GN7i单月3213.99元起,适用于混合负载。计费模式有按量付费和包年包月,后者成本更低。针对AI训练、图形渲染及轻量级推理等场景,推荐不同配置以优化成本和性能。阿里云还提供抢占式实例、ESSD云盘等资源优化策略,支持eRDMA网络加速和倚天ARM架构,助力企业在2025年实现智能计算的效率与成本最优平衡。 (该简介为原文内容的高度概括,符合要求的字符限制。)
|
20天前
|
边缘计算 调度 对象存储
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
介绍如何使用ACK Edge与虚拟节点满足DeepSeek部署的弹性需求。
|
16天前
|
人工智能 云计算 数据中心
阿里云当选UALink联盟董事会成员,推进新一代GPU互连技术!
阿里云当选UALink联盟董事会成员,推进新一代GPU互连技术!
37 2

热门文章

最新文章