OSFP MSA发布液冷标准Cage

简介: 2025年4月,阿里云基础设施网络团队提案的分离式OSFP cage,获得OSFP MSA委员会全票通过,合入OSFP MSA Rev 5.2 发布,成为行业首个支持OSFP冷板液冷的cage标准。分离式cage凭借低成本、易组装、易维修、产业链分层解耦的优势,能解决高密AI交换机的光模块液冷难题。

【阅读原文】戳:OSFP MSA发布液冷标准Cage

阿里网络提案OSFP MSA全票通过

开源、开放助力液冷产业发展

 

2025年4月,阿里云基础设施网络团队提案的分离式OSFP Cage,获得OSFP MSA委员会全票通过,合入OSFP MSA Rev 5.2发布,成为行业首个支持OSFP冷板液冷的Cage标准。分离式Cage凭借低成本、易组装、易维修、产业链分层解耦优势,能解决高密AI交换机的光模块液冷难题。MSA正式发布,意味着全球用户、供应商可基于标准液冷产品设计系统,秉承网络团队的开源、开放理念,助力液冷产业发展。

 

image.png

 

 

MSA简介:光模块产业全球企业联盟

 

MSA(Multi-Source Agreement)是一种多源协议,旨在为光模块提供标准化的接口和规范。MSA组织是光模块产业影响最大的全球性企业联盟之一,汇聚全世界众多互联网用户、芯片、设备、光模块、连接器厂家,所有不同类型光模块相关规范基本由MSA组织规定,如SFP、SFP+、XFP、QSFP、OSFP等。只有经过全球范围用户/厂商充分讨论、一致认可的提案,才能被MSA接纳和发布。

 

 

行业难题:光模块冷板液冷

 

交换机带宽持续增长,导致光模块功耗增长超20多倍,远超风冷散热能力提升速度,风冷、液冷切换拐点越来越近,行业多数观点认为1.6T~3.2T OSFP模块是不同用户选择液冷的临界点。光模块功耗已超过交换芯片功耗,液冷系统如果不能支持光模块液冷,未来就无法解决系统散热和满足节能需求。AI交换机大Radix设计,导致光模块冷板液冷设计挑战很大,详解见:《深度揭秘:下一代液冷AI交换机该是什么样?》,尤其是stack I/O应用。

 

image.png image.png

 

 

解决难题:加速液冷AI交换机部署

 

相比光模块其他的液冷解决方案,阿里提案的分离式OSFP Cage,实现冷板供应商和Cage供应商分层解耦,可以一块冷板覆盖多个底层光模块,成本更低,组装方便。支持flyover和non-flyover两种设计,满足不同场景应用需求。

 

image.png image.png

 

 

工程实践:分离式Cage液冷部署

 

阿里51.2T冷板液冷AI交换机Liquid Tigatron采用分离式Cage,2024年已上线支持多个业务长期稳定运行。基于分离式Cage设计的光模块液冷成本,和光模块风冷成本相当。在实现节能减排的同时,不会带来成本较大上涨,更容易被用户接受。每部署一台液冷Tigatron交换机,机房可多放一颗GPU,集群算力会有相应提升。

 

image.png image.png image.png image.png

 

 

总结

 

液冷-节能减排缓解AI场景的电力瓶颈,液冷-高效冷却解决芯片功耗持续增长的挑战。液冷在可靠性的挑战要比风冷大很多,用户需要尽早进行规模部署积累经验,并提前进行产业布局,才能从容面对即将到来液冷时代。




我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
机器学习/深度学习 人工智能 安全
千帆大模型平台再升级:接入大模型最多、Prompt模板最全面
千帆大模型平台再升级:接入大模型最多、Prompt模板最全面
633 1
|
运维 大数据 云计算
|
存储 人工智能 运维
阿里巴巴浙江云计算仁和液冷数据中心获评5A级(设计)绿色数据中心
9月15日,阿里巴巴浙江云计算仁和液冷数据中心在ODCC(开放数据中心委员会,以下同)2020峰会上获得数据中心绿色等级5 A(设计类)认证,成为全国首座绿色等级达5A的液冷数据中心。该数据中心绿色分级评估由ODCC联合中国信通院、TGGC(绿色网格,以下同)发起。阿里巴巴获得此项认证是2020年ODCC颁发的唯一一个5A设计类认证,是ODCC与绿色网格自2013年联合开展数据中心绿色等级评估以来颁发的全国第三个设计类5A等级奖牌,也是阿里巴巴继千岛湖数据中心获评5A绿色数据中心(设计)后又一座获此顶级殊荣的数据中心,再次展现了阿里巴巴数据中心的绿色节能实力。
阿里巴巴浙江云计算仁和液冷数据中心获评5A级(设计)绿色数据中心
|
3月前
|
存储 运维 监控
云服务运行安全创新标杆:阿里云飞天洛神云网络子系统“齐天”再次斩获奖项
阿里云“超大规模云计算网络一体化运行管理平台——齐天系统”凭借卓越的技术创新与实践成果,荣获“云服务运行安全创新成果奖”,同时,齐天团队负责人吕彪获评“全栈型”专家认证。
|
5月前
|
存储 人工智能 安全
AI 驱动下的阿里云基础设施:技术创新与产品演进
本文整理自阿里云智能集团副总裁、阿里云弹性计算产品线与存储产品线负责人吴结生在“2025 AI势能大会”上的演讲,重点介绍了阿里云在AI基础设施领域的技术创新与产品演进。内容涵盖CIPU架构、盘古存储系统、高性能网络HPN等关键技术,以及第九代英特尔企业实例、ESSD同城冗余云盘等新产品发布。同时,文章详细阐述了灵骏集群的优化措施和可观测能力的提升,展示阿里云如何通过持续创新为AI负载提供强大支持,助力企业在AI时代实现智能化转型。
AI 驱动下的阿里云基础设施:技术创新与产品演进
|
存储 人工智能 运维
阿里云首款单相浸没液冷解决方案正式对外发布!
阿里云首款单相浸没液冷解决方案正式对外发布!
阿里云首款单相浸没液冷解决方案正式对外发布!
|
5月前
|
人工智能 大数据 光互联
阿里云首次规模部署LPO光模块
2024年阿里云基础设施网络团队完成线性可插拔光模块(LPO, Linear Pluggable Optics)规模上线,成为全球首家实现LPO技术规模部署的云服务商。
|
6月前
|
机器学习/深度学习 人工智能 边缘计算
DistilQwen2.5蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen2.5 是阿里云人工智能平台 PAI 推出的全新蒸馏大语言模型系列。通过黑盒化和白盒化蒸馏结合的自研蒸馏链路,DistilQwen2.5各个尺寸的模型在多个基准测试数据集上比原始 Qwen2.5 模型有明显效果提升。这一系列模型在移动设备、边缘计算等资源受限的环境中具有更高的性能,在较小参数规模下,显著降低了所需的计算资源和推理时长。阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对 DistilQwen2.5 模型系列提供了全面的技术支持。本文详细介绍在 PAI 平台使用 DistilQwen2.5 蒸馏小模型的全链路最佳实践。
|
存储 芯片 异构计算
LocalBus总线介绍及FPGA总线编程
LocalBus总线介绍及FPGA总线编程
2650 0
LocalBus总线介绍及FPGA总线编程
|
运维 网络协议 数据中心
AliNOS起源及演进—从数据中心到广域网、泛边缘及DPU
AliNOS起源及演进—从数据中心到广域网、泛边缘及DPU
AliNOS起源及演进—从数据中心到广域网、泛边缘及DPU

热门文章

最新文章