数据中心网络关键技术,技术发明一等奖!

简介: 近日,阿里云联合清华大学与中国移动申报的“性能可预期的大规模数据中心网络关键技术与应用”项目荣获中国电子学会技术发明一等奖。该项目通过端网融合架构,实现数据中心网络性能的可预期性,在带宽保障、时延控制和故障恢复速度上取得重大突破,显著提升服务质量。成果已应用于阿里云多项产品及重大社会活动中,如巴黎奥运会直播、“双十一”购物节等,展现出国际领先水平。

近日,中国电子学会正式颁发“2024中国电子学会科学技术奖”,由阿里云联合清华大学、中国移动(苏州)软件技术有限公司共同申报的“性能可预期的大规模数据中心网络关键技术与应用”项目荣获中国电子学会技术发明一等奖

6CEAD982-07E3-42D4-A25A-7B368312BC48-18020-00000448F090BB29.jpg

院士专家组成的鉴定委员会认为:

该项目技术复杂,创新性强,具有完全自主知识产权,整体技术处于国际领先水平。


“性能可预期的大规模数据中心网络关键技术与应用”项目通过充分利用数据中心网络设备可编程等特性,采取端网融合的新型网络架构,包括高性能网络通信库、RDMA多路径网络传输、精细化拥塞控制等,实现了性能可预期的数据中心网络,显著提升了数据中心网络的服务质量保障能力


传统的数据中心网络常面临流量负载不均匀、易拥塞、用户之间带宽干扰大、突发流量尾部延时高、网络故障反应速度慢等局限。

13835376-E2EB-4AAF-A9AE-661BFD9F2709-18020-00000448FD24BAAD.jpg

图|阿里云端网融合的性能可预期网络架构


此次获奖项目的核心发明在于把传统数据中心网络从服务器和交换机网络的“端网解耦设计”变成了“端网协同融合”,将网络性能在带宽、延迟以及故障发生时的恢复进行了“可预期”创新:包括实现了用户高带宽从“无法保障”到“严格保障”的突破;实现了突发流量控制效果从“时延无界”到“时延有界”的突破;实现了流量恢复时长效果从“秒级别恢复”到“毫秒级别恢复”的突破。


阿里云智能研发副总裁、基础网络负责人蔡德忠表示,“传统云计算中,每个网络数据包传输就好比是坐出租车去火车站,只要尽力而为抵达即可,但AI时代,智能算力及高性能存储等服务对网络带宽、延迟要求会非常高,需要确保大带宽和‘可预期’时间必须到达,如同需要开发‘地铁’的能力来替代出租车一样。”


目前,性能可预期网络的成果在面向阿里云块存储产品应用时,将网络尾部时延降低了50%,帮助阿里云PAI-灵骏产品把智算万卡集群有效算力提升到98%。


“性能可预期的大规模数据中心网络关键技术与应用”项目成果已产出共计36篇国际顶级会议如SIGCOMM、NSDI等会议论文,并通过应用在阿里云计算平台,支撑政务、教育、医疗、交通、农业、电子商务等重要行业应用,保障了2024年巴黎奥运会、2022年北京冬奥会直播、“双十一”购物节、“云端抗疫”等重大社会活动的网络性能和稳定性。


/ END /

相关文章
|
6月前
|
人工智能 光互联 数据中心
横跨半世纪的光通讯巅峰盛会OFC落幕,阿里云在全球光通信顶会OFC2025上发表多个创新成果和报告
​2025年3月,全球光通讯领域最具标杆意义的年度盛会——OFC(光纤通信学术会议暨展览会)迎来其50周年里程碑,在美国加州旧金山盛大开幕。来自全球83个国家和地区,约17000名专家、学者、企业和政府人员齐聚美国,共同融入这场知识与思想的盛会。
|
6月前
|
人工智能 大数据 光互联
阿里云首次规模部署LPO光模块
2024年阿里云基础设施网络团队完成线性可插拔光模块(LPO, Linear Pluggable Optics)规模上线,成为全球首家实现LPO技术规模部署的云服务商。
|
6月前
|
存储 人工智能 安全
AI 驱动下的阿里云基础设施:技术创新与产品演进
本文整理自阿里云智能集团副总裁、阿里云弹性计算产品线与存储产品线负责人吴结生在“2025 AI势能大会”上的演讲,重点介绍了阿里云在AI基础设施领域的技术创新与产品演进。内容涵盖CIPU架构、盘古存储系统、高性能网络HPN等关键技术,以及第九代英特尔企业实例、ESSD同城冗余云盘等新产品发布。同时,文章详细阐述了灵骏集群的优化措施和可观测能力的提升,展示阿里云如何通过持续创新为AI负载提供强大支持,助力企业在AI时代实现智能化转型。
AI 驱动下的阿里云基础设施:技术创新与产品演进
|
5月前
|
人工智能 网络性能优化 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
阿里云在NSDI 2025会议上发表5篇主会论文,涵盖大模型训练网络故障诊断、仿真、性能优化及CDN流控算法等领域。其中,《Evolution of Aegis》提出两阶段演进路线,显著降低故障诊断时间;《SimAI》实现高精度大模型训练模拟;其他论文分别在CDN拥塞控制、GPU解耦推理和容器网络性能优化上取得突破。这些成果为AI大模型时代的云计算基础设施发展提供了重要支持。NSDI是计算机网络与系统研究领域的顶级会议,本次录取率仅12.5%。
|
8月前
2024阿里云技术年报 基础设施篇
2024阿里云技术年报 基础设施篇
173 11
|
5月前
|
人工智能 数据挖掘 大数据
“龟速”到“光速”?算力如何加速 AI 应用进入“快车道”
阿里云将联合英特尔、蚂蚁数字科技专家,带来“云端进化论”特别直播。
163 11
|
3月前
|
机器学习/深度学习 人工智能 分布式计算
AI 大模型时代的网络架构演进
​2025 年 7 月 26 日,第二届中国计算机学会(CCF)分布式计算大会暨中国算力网大会(CCF Computility 2025)在甘肃兰州隆重召开。大会以“算力网:新质生产力背景下的分布式系统”为主题,吸引了来自学术界与产业界的 1200 余位专家学者、行业代表齐聚一堂,共探分布式计算与算力网络的前沿技术与未来趋势。
|
9月前
|
人工智能 网络协议 数据中心
阿里云基础设施网络2024年创新总结
本文将盘点阿里云基础设施网络团队2024年在AI时代可预期网络的技术突破、学术成果、开源生态共建与重要会议技术布道等,与业界同仁一同探讨和展望AI时代的网络技术发展热点和趋势。
阿里云基础设施网络2024年创新总结
|
11月前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
105476 10
|
11月前
|
人工智能 并行计算 云计算
从UALink近期发展再看GPU Scale Up的互连方向
ALink System的目标是聚焦GPU算力需求、驱动云计算定义的开放生态,形成智算超节点的竞争力。