OSFP MSA发布液冷标准Cage

简介: 2025年4月,阿里云基础设施网络团队提案的分离式OSFP cage,获得OSFP MSA委员会全票通过,合入OSFP MSA Rev 5.2 发布,成为行业首个支持OSFP冷板液冷的cage标准。分离式cage凭借低成本、易组装、易维修、产业链分层解耦的优势,能解决高密AI交换机的光模块液冷难题。

【阅读原文】戳:OSFP MSA发布液冷标准Cage

阿里网络提案OSFP MSA全票通过

开源、开放助力液冷产业发展

 

2025年4月,阿里云基础设施网络团队提案的分离式OSFP Cage,获得OSFP MSA委员会全票通过,合入OSFP MSA Rev 5.2发布,成为行业首个支持OSFP冷板液冷的Cage标准。分离式Cage凭借低成本、易组装、易维修、产业链分层解耦优势,能解决高密AI交换机的光模块液冷难题。MSA正式发布,意味着全球用户、供应商可基于标准液冷产品设计系统,秉承网络团队的开源、开放理念,助力液冷产业发展。

 

image.png

 

 

MSA简介:光模块产业全球企业联盟

 

MSA(Multi-Source Agreement)是一种多源协议,旨在为光模块提供标准化的接口和规范。MSA组织是光模块产业影响最大的全球性企业联盟之一,汇聚全世界众多互联网用户、芯片、设备、光模块、连接器厂家,所有不同类型光模块相关规范基本由MSA组织规定,如SFP、SFP+、XFP、QSFP、OSFP等。只有经过全球范围用户/厂商充分讨论、一致认可的提案,才能被MSA接纳和发布。

 

 

行业难题:光模块冷板液冷

 

交换机带宽持续增长,导致光模块功耗增长超20多倍,远超风冷散热能力提升速度,风冷、液冷切换拐点越来越近,行业多数观点认为1.6T~3.2T OSFP模块是不同用户选择液冷的临界点。光模块功耗已超过交换芯片功耗,液冷系统如果不能支持光模块液冷,未来就无法解决系统散热和满足节能需求。AI交换机大Radix设计,导致光模块冷板液冷设计挑战很大,详解见:《深度揭秘:下一代液冷AI交换机该是什么样?》,尤其是stack I/O应用。

 

image.png image.png

 

 

解决难题:加速液冷AI交换机部署

 

相比光模块其他的液冷解决方案,阿里提案的分离式OSFP Cage,实现冷板供应商和Cage供应商分层解耦,可以一块冷板覆盖多个底层光模块,成本更低,组装方便。支持flyover和non-flyover两种设计,满足不同场景应用需求。

 

image.png image.png

 

 

工程实践:分离式Cage液冷部署

 

阿里51.2T冷板液冷AI交换机Liquid Tigatron采用分离式Cage,2024年已上线支持多个业务长期稳定运行。基于分离式Cage设计的光模块液冷成本,和光模块风冷成本相当。在实现节能减排的同时,不会带来成本较大上涨,更容易被用户接受。每部署一台液冷Tigatron交换机,机房可多放一颗GPU,集群算力会有相应提升。

 

image.png image.png image.png image.png

 

 

总结

 

液冷-节能减排缓解AI场景的电力瓶颈,液冷-高效冷却解决芯片功耗持续增长的挑战。液冷在可靠性的挑战要比风冷大很多,用户需要尽早进行规模部署积累经验,并提前进行产业布局,才能从容面对即将到来液冷时代。




我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
机器学习/深度学习 人工智能 安全
千帆大模型平台再升级:接入大模型最多、Prompt模板最全面
千帆大模型平台再升级:接入大模型最多、Prompt模板最全面
607 1
|
运维 大数据 云计算
|
5月前
|
存储 人工智能 安全
AI 驱动下的阿里云基础设施:技术创新与产品演进
本文整理自阿里云智能集团副总裁、阿里云弹性计算产品线与存储产品线负责人吴结生在“2025 AI势能大会”上的演讲,重点介绍了阿里云在AI基础设施领域的技术创新与产品演进。内容涵盖CIPU架构、盘古存储系统、高性能网络HPN等关键技术,以及第九代英特尔企业实例、ESSD同城冗余云盘等新产品发布。同时,文章详细阐述了灵骏集群的优化措施和可观测能力的提升,展示阿里云如何通过持续创新为AI负载提供强大支持,助力企业在AI时代实现智能化转型。
AI 驱动下的阿里云基础设施:技术创新与产品演进
|
24天前
|
开发框架 缓存 前端开发
【Axure原型】Ant Design Pro 原型后台项目-免费
Ant Design Pro 是基于 Ant Design 组件库构建的企业级中后台前端解决方案,提供丰富的页面模板、预设设计规范、路由配置及状态管理,支持快速搭建高质量应用。内置高阶组件如 ProTable、ProForm,提升开发效率,适用于复杂业务场景。
|
5月前
|
人工智能 大数据 光互联
阿里云首次规模部署LPO光模块
2024年阿里云基础设施网络团队完成线性可插拔光模块(LPO, Linear Pluggable Optics)规模上线,成为全球首家实现LPO技术规模部署的云服务商。
|
存储 人工智能 运维
阿里云首款单相浸没液冷解决方案正式对外发布!
阿里云首款单相浸没液冷解决方案正式对外发布!
阿里云首款单相浸没液冷解决方案正式对外发布!
|
6月前
|
存储 弹性计算 容灾
阿里云基础设施高可用最佳实践沙龙北京站圆满举办!
2025年3月19日,阿里云在北京举办高可用最佳实践沙龙,探讨云端业务连续性与架构设计。活动涵盖数据备份、故障切换、多活架构等主题,结合电商、金融等行业案例,分享高可用建设经验。专家强调,高可用不仅是技术命题,更是业务战略,助力企业实现“永不宕机”目标。系列沙龙将持续全国落地,推动企业云上容灾体系建设。
阿里云基础设施高可用最佳实践沙龙北京站圆满举办!
|
Kotlin
Kotlin中的算数运算符
Kotlin中的算数运算符
148 3
|
存储 NoSQL MongoDB
学习如何使用 Python 连接 MongoDB: PyMongo 安装和基础操作教程
Python 需要一个 MongoDB 驱动程序来访问 MongoDB 数据库。我将使用 MongoDB 驱动程序 PyMongo 建议您使用 PIP 来安装 PyMongo。PIP 很可能已经安装在您的 Python 环境中。将命令行导航到 PIP 的位置,然后键入以下内容:
389 1
|
存储 芯片 异构计算
LocalBus总线介绍及FPGA总线编程
LocalBus总线介绍及FPGA总线编程
2500 0
LocalBus总线介绍及FPGA总线编程