数据中心网络关键技术,技术发明一等奖!

简介: 近日,阿里云联合清华大学与中国移动申报的“性能可预期的大规模数据中心网络关键技术与应用”项目荣获中国电子学会技术发明一等奖。该项目通过端网融合架构,实现数据中心网络性能的可预期性,在带宽保障、时延控制和故障恢复速度上取得重大突破,显著提升服务质量。成果已应用于阿里云多项产品及重大社会活动中,如巴黎奥运会直播、“双十一”购物节等,展现出国际领先水平。

近日,中国电子学会正式颁发“2024中国电子学会科学技术奖”,由阿里云联合清华大学、中国移动(苏州)软件技术有限公司共同申报的“性能可预期的大规模数据中心网络关键技术与应用”项目荣获中国电子学会技术发明一等奖

6CEAD982-07E3-42D4-A25A-7B368312BC48-18020-00000448F090BB29.jpg

院士专家组成的鉴定委员会认为:

该项目技术复杂,创新性强,具有完全自主知识产权,整体技术处于国际领先水平。


“性能可预期的大规模数据中心网络关键技术与应用”项目通过充分利用数据中心网络设备可编程等特性,采取端网融合的新型网络架构,包括高性能网络通信库、RDMA多路径网络传输、精细化拥塞控制等,实现了性能可预期的数据中心网络,显著提升了数据中心网络的服务质量保障能力


传统的数据中心网络常面临流量负载不均匀、易拥塞、用户之间带宽干扰大、突发流量尾部延时高、网络故障反应速度慢等局限。

13835376-E2EB-4AAF-A9AE-661BFD9F2709-18020-00000448FD24BAAD.jpg

图|阿里云端网融合的性能可预期网络架构


此次获奖项目的核心发明在于把传统数据中心网络从服务器和交换机网络的“端网解耦设计”变成了“端网协同融合”,将网络性能在带宽、延迟以及故障发生时的恢复进行了“可预期”创新:包括实现了用户高带宽从“无法保障”到“严格保障”的突破;实现了突发流量控制效果从“时延无界”到“时延有界”的突破;实现了流量恢复时长效果从“秒级别恢复”到“毫秒级别恢复”的突破。


阿里云智能研发副总裁、基础网络负责人蔡德忠表示,“传统云计算中,每个网络数据包传输就好比是坐出租车去火车站,只要尽力而为抵达即可,但AI时代,智能算力及高性能存储等服务对网络带宽、延迟要求会非常高,需要确保大带宽和‘可预期’时间必须到达,如同需要开发‘地铁’的能力来替代出租车一样。”


目前,性能可预期网络的成果在面向阿里云块存储产品应用时,将网络尾部时延降低了50%,帮助阿里云PAI-灵骏产品把智算万卡集群有效算力提升到98%。


“性能可预期的大规模数据中心网络关键技术与应用”项目成果已产出共计36篇国际顶级会议如SIGCOMM、NSDI等会议论文,并通过应用在阿里云计算平台,支撑政务、教育、医疗、交通、农业、电子商务等重要行业应用,保障了2024年巴黎奥运会、2022年北京冬奥会直播、“双十一”购物节、“云端抗疫”等重大社会活动的网络性能和稳定性。


/ END /

相关文章
|
7月前
|
人工智能 运维 安全
云栖专刊 | 深度解读阿里云网络全新能力升级,助力企业出海和AI创新
阿里云飞天洛神云网络在2025云栖大会发布全新升级,聚焦企业出海与AI创新,推出确定性网络、智能云网络及AI for Network三大能力,提升全球连接质量,构建高效、安全、智能的云网络底座。
911 8
云栖专刊 | 深度解读阿里云网络全新能力升级,助力企业出海和AI创新
|
存储 人工智能 安全
AI 驱动下的阿里云基础设施:技术创新与产品演进
本文整理自阿里云智能集团副总裁、阿里云弹性计算产品线与存储产品线负责人吴结生在“2025 AI势能大会”上的演讲,重点介绍了阿里云在AI基础设施领域的技术创新与产品演进。内容涵盖CIPU架构、盘古存储系统、高性能网络HPN等关键技术,以及第九代英特尔企业实例、ESSD同城冗余云盘等新产品发布。同时,文章详细阐述了灵骏集群的优化措施和可观测能力的提升,展示阿里云如何通过持续创新为AI负载提供强大支持,助力企业在AI时代实现智能化转型。
AI 驱动下的阿里云基础设施:技术创新与产品演进
|
11月前
|
机器学习/深度学习 人工智能 分布式计算
AI 大模型时代的网络架构演进
​2025 年 7 月 26 日,第二届中国计算机学会(CCF)分布式计算大会暨中国算力网大会(CCF Computility 2025)在甘肃兰州隆重召开。大会以“算力网:新质生产力背景下的分布式系统”为主题,吸引了来自学术界与产业界的 1200 余位专家学者、行业代表齐聚一堂,共探分布式计算与算力网络的前沿技术与未来趋势。
|
人工智能 网络协议 数据中心
阿里云基础设施网络2024年创新总结
本文将盘点阿里云基础设施网络团队2024年在AI时代可预期网络的技术突破、学术成果、开源生态共建与重要会议技术布道等,与业界同仁一同探讨和展望AI时代的网络技术发展热点和趋势。
阿里云基础设施网络2024年创新总结
|
机器学习/深度学习 存储 人工智能
2025年阿里云GPU服务器的租赁价格与选型指南
随着AI、深度学习等领域的发展,GPU服务器成为企业及科研机构的核心算力选择。阿里云提供多种GPU实例类型(如NVIDIA V100、A100等),涵盖计算型、共享型和弹性裸金属等,满足不同场景需求。本文详解2025年阿里云GPU服务器的核心配置、价格策略及适用场景,帮助用户优化选型与成本控制,实现高效智能计算。
|
算法 人机交互 UED
响应时间指标的探索
本文探讨了响应时间在人机交互中的重要性及发展。从1968年Rober B.Miller首次定义响应时间的多个维度,到1991年Stuart K.Card等人提出的立即响应时间常数,再到1993年Jakob Nielsen将响应时间划分为三个关键阈值,直至2020年Google提出的RAIL模型,强调了以用户为中心的性能衡量标准。这些研究为提升用户体验提供了理论基础和技术指导。
1708 5
|
人工智能 API 弹性计算
在阿里云快速启动LibreChat轻松玩转AI对话
本文介绍了LibreChat的基本信息,并通过阿里云计算巢完成了LibreChat的快速部署,使用者不需要自己下载代码,不需要自己安装复杂的依赖,不需要了解底层技术,只需要在控制台图形界面点击几下鼠标就可以快速部署并启动LibreChat,非技术同学也能轻松搞定。
|
SQL 存储 Oracle
SQL优化2020最全干货总结---MySQL
BATJTMD等大厂的面试难度越来越高,但无论从大厂还是到小公司,一直未变的一个重点就是对SQL优化经验的考察。一提到数据库,先“说一说你对SQL优化的见解吧?”。
31359 2
|
存储 Linux 文件存储
在Linux中,raid0、raid1、raid5 三种工作模式的工作原理及特点?
在Linux中,raid0、raid1、raid5 三种工作模式的工作原理及特点?

热门文章

最新文章