【阅读原文】戳:阿里云首次规模部署LPO光模块
阿里云全球首次规模部署LPO光模块,
引领AI数据中心网络高效能时代
2024年阿里云基础设施网络团队完成线性可插拔光模块(LPO, Linear Pluggable Optics)规模上线,成为全球首家实现LPO技术规模部署的云服务商,本次规模部署的LPO光模块为基于单通道100Gbps的400G DR4光模块,目前已成功支撑多个AI用户长期平稳运行,数据显示LPO光模块和传统光模块在保持同等传输性能和稳定性前提下,能够降低光模块功耗超50%以上。这一突破性技术应用将显著提升AI智算网络的能效,为下一代高性能计算(HPC)和人工智能(AI)负载提供更高效、低碳的基础设施支持。
技术背景:AI智算网络带宽提升的挑战
回顾过去十年数据中心网络演进路线,随着网络带宽不断提升,光模块的功耗上升速度高于交换芯片的功耗上升速度,2019年12.8T交换芯片首次使用50Gbps PAM4调制格式的Serdes,彼时DSP芯片开始在光模块中使用,光模块的功耗开始赶上交换芯片的功耗,未来1.6T/3.2T网络,光的功耗将超过电的功耗2倍以上,功耗问题成为网络带宽提升最大的挑战之一。
技术突破:LPO破解带宽功耗墙
面对这一关键挑战,阿里云选择LPO技术作为突破方向。LPO技术通过ASIC直驱线性光模块,去除传统光模块中的DSP(数字信号处理)芯片,将光模块功耗降低50%以上,同时降低了光模块的成本,减少传输延迟,为AI数据中心提供更高带宽、更低时延的网络连接。
工程实践:协同攻坚技术难题
LPO技术因其具备CPO(Co-Packaged Optic)的低功耗、低时延、低成本等所有优点,并具有可插拔可维护的优势,然而这些技术优势的实现需克服重重的技术挑战,LPO技术面临光电信号完整性、不同厂家间互联互通以及模块生产测试等方面的技术挑战,使各大云厂商望而怯步。阿里云基础设施网络团队持续攻坚各项技术难题,通过交换机和光模块协同设计优化和端到端链路优化,并深入研究LPO和交换机的边界条件,制定了LPO光模块技术标准和生产指南,成功解决了各项技术难题。此次部署的LPO光模块是来自多个模块生产商的多芯片方案,并在AI智算网络中互联互通组网。
绿色效益:推动可持续发展
LPO技术的规模化应用是阿里云践行绿色计算理念的重要里程碑。相比传统方案,单个400G光模块模块功耗降低5W,LPO技术的规模部署可以显著降低数据中心碳排放,从而降低PUE,这与阿里云“绿色AI”战略高度契合,通过底层技术革新助力客户实现高效低碳的算力部署。
展望未来
本次LPO光模块规模部署在保证稳定性的前提下,证明了LPO技术在AI智算网络中可规模部署,并且能够带来显著的能效收益。此次基于400G DR4 LPO技术的应用为未来1.6T/3.2T时代光链路功耗降低提供可能的路径。
展望未来,阿里云将持续投入LPO、LRO、CPO等前沿光互联领域的技术创新,推动AI智算中心向更高效、更智能的方向发展。
我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。
获取关于我们的更多信息~