显著提升深度学习 GPU 利用率,阿里云拿下国际网络顶会优胜奖!

简介: 显著提升深度学习 GPU 利用率,阿里云拿下国际网络顶会优胜奖!


国际网络通信顶会SIGCOMM近日闭幕

阿里云共有7篇论文入选

其中,AI网络调度成果论文

斩获SIGCOMM 2024优胜奖!


图|阿里云获 SIGCOMM 2024 优胜奖论文


SIGCOMM 评审专家认为 ——

Crux解决了多租环境深度学习中的一个基础性问题,通过理论创新和实践分析设计了一套高效的解决方案,因此授予 Crux 成果论文SIGCOMM优胜奖。


此次,获奖论文Crux: GPU-Efficient Communication Scheduling for Deep Learning Training 介绍了阿里云自研的集合通信优化调度器 Crux,其可提升高达 14.8%的GPU 计算利用率。


阿里云网络研发团队从实际业务环境的深度学习任务出发,发现任务之间存在通信竞争,是GPU集群的训练效率不高的基础性原因。


对此,团队从学术理论层面突破,证明了GPU利用率问题与基于任务优先级的通信调度问题是近似的,进而创新设计了集合通信优化调度器 Crux,实现更高效的选路和优先级分配机制,提升了 GPU 计算利用率。


126244c683f5eec8844d936370d4216e.png

图|阿里云自研集合通信优化调度器 Crux,

提升 GPU 计算利用率


实验结果表明,在96卡GPU测试环境中,Crux可以提高GPU计算利用率 8.3% 至 14.8%。在基于大规模生产跟踪仿真中,与Sincronia、TACCL和 CASSINI等已有方案相比,Crux可以将GPU计算利用率最多提高23%。据了解,Crux已被集成到阿里云自研通信库,实现规模化使用。


5a0aa0dfa1f3c6226f35408a9f849762.png

图|阿里云网络研发团队与大会程序委员会主席合影


从 2019 年以来,阿里云有近30篇成果论文先后发表在 SIGCOMM上,为国内机构之首。今年,阿里云有7篇论文入选SIGCOMM。除上述介绍的Crux论文外,今年关于智算集群网络架构HPN 7.0的成果论文,成为 SIGCOMM在AI智算集群网络架构领域的首篇论文。


HPN7.0架构面向AI时代对网络高性能需求而研发,针对大模型训练场景下规模大、大流多、突发强烈、稳定性需求高的特点,创新性地设计了“双上联+多轨+双平面”的网络架构,并配合最新一代的51.2Tbps单芯片以太网交换机和400G 高性能网卡,自研Solar-RDMA和ACCL通信库,实现了单层千卡、两层万卡的高性能和高稳定互联。


369892d344061362b8bcf3eb1a99f1ef.png

图|HPN7.0架构:为AI设计的高性能网络集群


ACM SIGCOMM是计算机网络通信领域历史最悠久、最权威的顶级学术会议,至今已有 50 多年的历史。SIGCOMM对论文质量要求极高,成果也被学术界和业界视为网络通信领域未来发展的风向标,现在耳熟能详的各种协议、技术几乎都发表在 SIGCOMM上。2024 年度的SIGCOMM 仅录用 62 篇论文, 录取率不到17%,为近五年最低。SIGCOMM 2024 优胜奖(Honorable Mentions,也即最佳论文候选),是对论文成果的业务创新价值和行业影响力的综合评价。




/ END /

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
5月前
|
人工智能 算法 调度
阿里云ACK托管集群Pro版共享GPU调度操作指南
本文介绍在阿里云ACK托管集群Pro版中,如何通过共享GPU调度实现显存与算力的精细化分配,涵盖前提条件、使用限制、节点池配置及任务部署全流程,提升GPU资源利用率,适用于AI训练与推理场景。
522 1
|
5月前
|
人工智能 城市大脑 运维
喜讯!阿里云国产异构GPU云平台技术荣获“2025算力中国·年度重大成果”
2025年8月23日,在工业和信息化部新闻宣传中心、中国信息通信研究院主办的2025中国算力大会上,阿里云与浙江大学联合研发的“国产异构GPU云平台关键技术与系统”荣获「算力中国·年度重大成果」。该评选旨在选拔出算力产业具有全局性突破价值的重大成果,是业内公认的技术创新“风向标”。
641 0
|
10月前
|
存储 机器学习/深度学习 数据库
阿里云服务器X86/ARM/GPU/裸金属/超算五大架构技术特点、场景适配参考
在云计算技术飞速发展的当下,云计算已经渗透到各个行业,成为企业数字化转型的关键驱动力。选择合适的云服务器架构对于提升业务效率、降低成本至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供大家了解和选择参考。
1400 61
|
机器学习/深度学习 数据可视化 算法
PyTorch生态系统中的连续深度学习:使用Torchdyn实现连续时间神经网络
神经常微分方程(Neural ODEs)是深度学习领域的创新模型,将神经网络的离散变换扩展为连续时间动力系统。本文基于Torchdyn库介绍Neural ODE的实现与训练方法,涵盖数据集构建、模型构建、基于PyTorch Lightning的训练及实验结果可视化等内容。Torchdyn支持多种数值求解算法和高级特性,适用于生成模型、时间序列分析等领域。
646 77
PyTorch生态系统中的连续深度学习:使用Torchdyn实现连续时间神经网络
|
存储 机器学习/深度学习 人工智能
2025年阿里云GPU服务器租用价格、选型策略与应用场景详解
随着AI与高性能计算需求的增长,阿里云提供了多种GPU实例,如NVIDIA V100、A10、T4等,适配不同场景。2025年重点实例中,V100实例GN6v单月3830元起,适合大规模训练;A10实例GN7i单月3213.99元起,适用于混合负载。计费模式有按量付费和包年包月,后者成本更低。针对AI训练、图形渲染及轻量级推理等场景,推荐不同配置以优化成本和性能。阿里云还提供抢占式实例、ESSD云盘等资源优化策略,支持eRDMA网络加速和倚天ARM架构,助力企业在2025年实现智能计算的效率与成本最优平衡。 (该简介为原文内容的高度概括,符合要求的字符限制。)
|
11月前
|
存储 机器学习/深度学习 算法
阿里云X86/ARM/GPU/裸金属/超算等五大服务器架构技术特点、场景适配与选型策略
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别。本文将深入解析这些架构的特点、优势及适用场景,帮助用户更好地根据实际需求做出选择。
|
11月前
|
机器学习/深度学习 人工智能 运维
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
447 8
|
机器学习/深度学习 数据采集 算法
基于MobileNet深度学习网络的MQAM调制类型识别matlab仿真
本项目基于Matlab2022a实现MQAM调制类型识别,使用MobileNet深度学习网络。完整程序运行效果无水印,核心代码含详细中文注释和操作视频。MQAM调制在无线通信中至关重要,MobileNet以其轻量化、高效性适合资源受限环境。通过数据预处理、网络训练与优化,确保高识别准确率并降低计算复杂度,为频谱监测、信号解调等提供支持。
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能
害虫识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了12种常见的害虫种类数据集【"蚂蚁(ants)", "蜜蜂(bees)", "甲虫(beetle)", "毛虫(catterpillar)", "蚯蚓(earthworms)", "蜚蠊(earwig)", "蚱蜢(grasshopper)", "飞蛾(moth)", "鼻涕虫(slug)", "蜗牛(snail)", "黄蜂(wasp)", "象鼻虫(weevil)"】 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Djan
684 1
基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能

热门文章

最新文章