【阅读原文】戳:2024 OCP全球峰会:阿里云为代表的中国企业,引领全球AI网络合作和技术创新
OCP(Open Compute Project)全球峰会汇聚了全球的技术创新者,共同分享最新的技术趋势,展示前沿解决方案,并建立战略合作伙伴关系。今年的峰会于2024年10月14日至17日在美国加州圣何塞举行,创下了7,000名参会者的记录。来自世界各地的技术精英们齐聚一堂,探讨未来的技术发展方向。而在这场全球瞩目的盛会上,以阿里云为代表的中国企业,展示了他们在AI网络架构、液冷技术、SRv6和广域网等前沿领域的强大创新能力,持续引领全球合作与技术创新。
中国企业的持续引领
中国企业在2024年OCP峰会上表现尤为突出,尤其是阿里云、字节跳动、Wiwynn、Micas、Edgecore等公司在技术创新和展示中的表现引人注目。阿里云以4场网络架构专题演讲和一场SONiC项目演示为亮点,深入涵盖了AI网络架构、SRv6、性能优化等热门技术领域。而字节跳动贡献了3场网络相关的演讲,进一步推动了AI训练集群网络的技术发展。其他中国公司也在液冷技术、交换机软件、CPO交换机等方面展示了全球领先的技术成果。
AI高性能网络集群和架构专题
在高密度AI集群下,51.2Tbps交换机的液冷/风冷方案最佳实践
阿里云基础设施硬件架构师朱芳波&博通产品经理吴溪光联合分享的这一演讲,详细阐述了在高密度AI集群场景下,51.2Tbps以太网交换机的最佳散热解决方案。随着单机柜的功耗和热量密度在过去五年中增长了10倍,散热问题成为AI训练集群中的关键挑战。为了应对这一挑战,演讲提出了四种主要解决方案:采用更高带宽的交换芯片、使用更长的DAC线缆、部署低功耗的LPO光模块,以及采用CPO(光电共封装)交换芯片。
阿里云在自研51.2Tbps交换机过程中,探索了两个最佳风冷方案:一是在控制环境温度的基础上,优化散热设备的布局,以降低整体散热成本;二是在高功率密度场景中,通过精密模拟和调整,进一步优化芯片的散热性能。此外,阿里云还展示了其最新的液冷方案,通过单冷板设计实现更有效的散热,同时降低物料成本。液冷系统在不大幅增加成本的情况下,将系统功耗节省了800W以上,大大提升了设备的稳定性和性能。
阿里巴巴大规模计算集群的网络稳定性挑战与实践
阿里云基础设施资深技术专家施学美&博通杰出工程师Surendra Anubolu则重点介绍了如何提升大规模计算集群的网络稳定性。这一演讲针对阿里巴巴大规模计算集群中的网络稳定性问题进行了深度探讨。在AI/ML训练过程中,像allreduce、all2all这样的同步算子使得网络的稳定性需求极高。阿里云通过全局流量监控、高精度流量分析以及A.M.D(交替DSCP标记)方案,显著提升了AI集群中的网络可靠性。高精度流量监控技术可以在亚毫秒粒度内捕捉网络流量变化,识别网络中的细微拥塞点,并通过算法优化进一步减少数据包丢失。此外,A.M.D方案通过在秒级范围内检测数据包丢失,确保网络中的任何异常都能被快速定位和修复。
阿里巴巴HPN,面向大模型训练场景的数据中心网络
阿里云基础设施高级技术专家高佳琦分享阿里巴巴针对大模型训练场景所设计的第七代高性能网络架构(HPN 7.0)。传统的数据中心网络架构已经无法满足大模型训练对网络带宽、稳定性和延迟的极高要求。面对规模大、流量突发强、稳定性要求高的挑战,阿里巴巴通过创新的“双上联+多轨+双平面”设计,打造了一种新型的数据中心网络架构。
HPN 7.0架构结合最新一代51.2Tbps单芯片以太网交换机和400G高性能网卡,并自研了Solar-RDMA和ACCL通信库,实现了单层千卡、两层万卡的高性能互联架构,最大可支持十万卡规模。在此基础上,该架构提升了大模型训练的整体性能,使得阿里云大模型训练的性能在典型场景下提升了14.9%。
HPN 7.0自2023年9月起在阿里云数据中心中大规模部署,大幅提升了AI集群的训练效率和网络稳定性,为应对未来更大规模的大模型训练提供了坚实的基础支持。这一创新架构不仅优化了网络性能,还显著降低了网络的延迟和拥塞问题,进一步巩固了阿里云在AI基础设施领域的领先地位。
大型AI训练集群中的Scheduled Fabric以太网架构
字节跳动资深网络架构师霍朋飞和博通产品经理吴溪光共同分享了其在构建大规模AI训练集群网络中的创新成果,特别是在Scheduled Fabric以太网架构方面的研究。这一架构能够支持上千台服务器的大型集群,确保了数据传输的高效性和低延迟。Scheduled Fabric技术通过时间调度和带宽分配的优化,大大提高了网络的性能和扩展性。在演讲中,字节跳动提出了进一步标准化该技术的提案,旨在推动整个行业在这一领域的合作与发展。
多平面拓扑中的最佳选路方案
字节跳动网络研发工程师Wenda Ni和博通杰出工程师Jai Kumar共同分享了其在多平面拓扑结构中的最新研究成果。在多轨道拓扑下,网络流量会尽量在单一平面内流动,以最大化链路利用率。然而,当流量必须跨越多个轨道时,字节跳动通过精密的测量和远程链路质量的分析,优化了跨平面连接的效率,从而实现了弹性扩展和最大吞吐率的平衡。此外,字节跳动还展示了光电共封装交换芯片(CPO)技术的进展,进一步提高了大规模网络中的数据传输效率。
未来的广域网与路由技术
Phoenix Wing计划–将SONiC SRv6推向部署
在广域网和路由技术方面,阿里云基础设施网络资深技术专家阮弋星介绍阿里云通过Phoenix Wing计划展示了其在SRv6部署方面的突破性进展。通过这一计划,阿里云旨在推动SRv6技术的广泛应用,并号召社区参与开发。阮弋星详细介绍了该项目的里程碑、开源计划以及核心贡献厂商(如思科、微软、浪潮)之间的合作情况。此外,阿里云展示了基于vSONiC虚拟测试平台的创新,进一步推动了SRv6在广域网中的落地与应用。
展台:SONiC demo-Prefix Independent Convergence.
另外,在大会展厅的SONiC展台上,阿里云与智邦集团的工程师们对SONiC在网络故障快速恢复中的优化进行了精彩演示。通过代码优化,阿里云成功将网络故障恢复时的丢包窗口从近一分钟缩短至2毫秒。这一成果不仅显著提升了网络的稳定性,还赢得了参会者的广泛关注和好评。
总结
此次2024 OCP全球峰会,以阿里云、字节跳动等公司为代表的中国企业大放异彩,不仅展示了强大的技术实力,也通过创新与全球合作,推动了AI基础设施和网络架构的进步。在未来,中国企业有望在全球科技舞台上扮演越来越重要的角色,为技术进步贡献更多力量。
我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。
获取关于我们的更多信息~