数据中心网络关键技术,技术发明一等奖!

简介: 近日,阿里云联合清华大学与中国移动申报的“性能可预期的大规模数据中心网络关键技术与应用”项目荣获中国电子学会技术发明一等奖。该项目通过端网融合架构,实现数据中心网络性能的可预期性,在带宽保障、时延控制和故障恢复速度上取得重大突破,显著提升服务质量。成果已应用于阿里云多项产品及重大社会活动中,如巴黎奥运会直播、“双十一”购物节等,展现出国际领先水平。

近日,中国电子学会正式颁发“2024中国电子学会科学技术奖”,由阿里云联合清华大学、中国移动(苏州)软件技术有限公司共同申报的“性能可预期的大规模数据中心网络关键技术与应用”项目荣获中国电子学会技术发明一等奖

6CEAD982-07E3-42D4-A25A-7B368312BC48-18020-00000448F090BB29.jpg

院士专家组成的鉴定委员会认为:

该项目技术复杂,创新性强,具有完全自主知识产权,整体技术处于国际领先水平。


“性能可预期的大规模数据中心网络关键技术与应用”项目通过充分利用数据中心网络设备可编程等特性,采取端网融合的新型网络架构,包括高性能网络通信库、RDMA多路径网络传输、精细化拥塞控制等,实现了性能可预期的数据中心网络,显著提升了数据中心网络的服务质量保障能力


传统的数据中心网络常面临流量负载不均匀、易拥塞、用户之间带宽干扰大、突发流量尾部延时高、网络故障反应速度慢等局限。

13835376-E2EB-4AAF-A9AE-661BFD9F2709-18020-00000448FD24BAAD.jpg

图|阿里云端网融合的性能可预期网络架构


此次获奖项目的核心发明在于把传统数据中心网络从服务器和交换机网络的“端网解耦设计”变成了“端网协同融合”,将网络性能在带宽、延迟以及故障发生时的恢复进行了“可预期”创新:包括实现了用户高带宽从“无法保障”到“严格保障”的突破;实现了突发流量控制效果从“时延无界”到“时延有界”的突破;实现了流量恢复时长效果从“秒级别恢复”到“毫秒级别恢复”的突破。


阿里云智能研发副总裁、基础网络负责人蔡德忠表示,“传统云计算中,每个网络数据包传输就好比是坐出租车去火车站,只要尽力而为抵达即可,但AI时代,智能算力及高性能存储等服务对网络带宽、延迟要求会非常高,需要确保大带宽和‘可预期’时间必须到达,如同需要开发‘地铁’的能力来替代出租车一样。”


目前,性能可预期网络的成果在面向阿里云块存储产品应用时,将网络尾部时延降低了50%,帮助阿里云PAI-灵骏产品把智算万卡集群有效算力提升到98%。


“性能可预期的大规模数据中心网络关键技术与应用”项目成果已产出共计36篇国际顶级会议如SIGCOMM、NSDI等会议论文,并通过应用在阿里云计算平台,支撑政务、教育、医疗、交通、农业、电子商务等重要行业应用,保障了2024年巴黎奥运会、2022年北京冬奥会直播、“双十一”购物节、“云端抗疫”等重大社会活动的网络性能和稳定性。


/ END /

目录
打赏
0
17
17
0
50
分享
相关文章
阿里云首次规模部署LPO光模块
2024年阿里云基础设施网络团队完成线性可插拔光模块(LPO, Linear Pluggable Optics)规模上线,成为全球首家实现LPO技术规模部署的云服务商。
|
5月前
2024阿里云技术年报 基础设施篇
2024阿里云技术年报 基础设施篇
138 11
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
阿里云在NSDI 2025会议上发表5篇主会论文,涵盖大模型训练网络故障诊断、仿真、性能优化及CDN流控算法等领域。其中,《Evolution of Aegis》提出两阶段演进路线,显著降低故障诊断时间;《SimAI》实现高精度大模型训练模拟;其他论文分别在CDN拥塞控制、GPU解耦推理和容器网络性能优化上取得突破。这些成果为AI大模型时代的云计算基础设施发展提供了重要支持。NSDI是计算机网络与系统研究领域的顶级会议,本次录取率仅12.5%。
AI 驱动下的阿里云基础设施:技术创新与产品演进
本文整理自阿里云智能集团副总裁、阿里云弹性计算产品线与存储产品线负责人吴结生在“2025 AI势能大会”上的演讲,重点介绍了阿里云在AI基础设施领域的技术创新与产品演进。内容涵盖CIPU架构、盘古存储系统、高性能网络HPN等关键技术,以及第九代英特尔企业实例、ESSD同城冗余云盘等新产品发布。同时,文章详细阐述了灵骏集群的优化措施和可观测能力的提升,展示阿里云如何通过持续创新为AI负载提供强大支持,助力企业在AI时代实现智能化转型。
AI 驱动下的阿里云基础设施:技术创新与产品演进
“龟速”到“光速”?算力如何加速 AI 应用进入“快车道”
阿里云将联合英特尔、蚂蚁数字科技专家,带来“云端进化论”特别直播。
118 11
横跨半世纪的光通讯巅峰盛会OFC落幕,阿里云在全球光通信顶会OFC2025上发表多个创新成果和报告
​2025年3月,全球光通讯领域最具标杆意义的年度盛会——OFC(光纤通信学术会议暨展览会)迎来其50周年里程碑,在美国加州旧金山盛大开幕。来自全球83个国家和地区,约17000名专家、学者、企业和政府人员齐聚美国,共同融入这场知识与思想的盛会。
阿里云基础设施网络2024年创新总结
本文将盘点阿里云基础设施网络团队2024年在AI时代可预期网络的技术突破、学术成果、开源生态共建与重要会议技术布道等,与业界同仁一同探讨和展望AI时代的网络技术发展热点和趋势。
阿里云基础设施网络2024年创新总结
什么是AI?如何使用AI?本文告诉你
人工智能(AI)是借助计算机技术来模拟与实现人类智慧的一项科技。它涵盖了从感知到语言理解等多方面的能力。AI可划分为弱AI、强AI及超AI三类,当前主要集中在弱AI的应用上,如语音助手和图像识别。为了高效运用AI,首先需清晰目标,再选取合适的工具,同时保证数据质量,不断优化模型,并注重伦理考量,最终实现人机协同作业,充分发挥各自优势。
1854 1
揭秘!CIPU最新秘密武器–弹性RDMA的技术解析与实践
弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA),是阿里云自研的云上弹性RDMA网络,底层链路复用VPC网络,采用全栈自研的拥塞控制CC(Congestion Control )算法,兼具传统RDMA网络高吞吐、低延迟特性,同时支持秒级的大规模RDMA组网。基于弹性RDMA,开发者可以将HPC应用软件部署在云上,获取成本更低、弹性更好的高性能应用集群;也可以将VPC网络替换成弹性RDMA网络,加速应用性能。
揭秘!CIPU最新秘密武器–弹性RDMA的技术解析与实践
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问