2024 OCP全球峰会:阿里云为代表的中国企业,引领全球AI网络合作和技术创新

简介: 今年的OCP(Open Compute Project)峰会于2024年10月14日至17日在美国加州圣何塞举行,在这场全球瞩目的盛会上,以阿里云为代表的中国企业,展示了他们在AI网络架构、液冷技术、SRv6和广域网等前沿领域的强大创新能力,持续引领全球合作与技术创新。

【阅读原文】戳:2024 OCP全球峰会:阿里云为代表的中国企业,引领全球AI网络合作和技术创新

OCP(Open Compute Project)全球峰会汇聚了全球的技术创新者,共同分享最新的技术趋势,展示前沿解决方案,并建立战略合作伙伴关系。今年的峰会于2024年10月14日至17日在美国加州圣何塞举行,创下了7,000名参会者的记录。来自世界各地的技术精英们齐聚一堂,探讨未来的技术发展方向。而在这场全球瞩目的盛会上,以阿里云为代表的中国企业,展示了他们在AI网络架构、液冷技术、SRv6和广域网等前沿领域的强大创新能力,持续引领全球合作与技术创新。

 

 

 

 

中国企业的持续引领

 

 

中国企业在2024年OCP峰会上表现尤为突出,尤其是阿里云、字节跳动、Wiwynn、Micas、Edgecore等公司在技术创新和展示中的表现引人注目。阿里云以4场网络架构专题演讲和一场SONiC项目演示为亮点,深入涵盖了AI网络架构、SRv6、性能优化等热门技术领域。而字节跳动贡献了3场网络相关的演讲,进一步推动了AI训练集群网络的技术发展。其他中国公司也在液冷技术、交换机软件、CPO交换机等方面展示了全球领先的技术成果。

 

 

 

 

AI高性能网络集群和架构专题

 

 

 

在高密度AI集群下,51.2Tbps交换机的液冷/风冷方案最佳实践

 

阿里云基础设施硬件架构师朱芳波&博通产品经理吴溪光联合分享的这一演讲,详细阐述了在高密度AI集群场景下,51.2Tbps以太网交换机的最佳散热解决方案。随着单机柜的功耗和热量密度在过去五年中增长了10倍,散热问题成为AI训练集群中的关键挑战。为了应对这一挑战,演讲提出了四种主要解决方案:采用更高带宽的交换芯片、使用更长的DAC线缆、部署低功耗的LPO光模块,以及采用CPO(光电共封装)交换芯片。

 

 

阿里云在自研51.2Tbps交换机过程中,探索了两个最佳风冷方案:一是在控制环境温度的基础上,优化散热设备的布局,以降低整体散热成本;二是在高功率密度场景中,通过精密模拟和调整,进一步优化芯片的散热性能。此外,阿里云还展示了其最新的液冷方案,通过单冷板设计实现更有效的散热,同时降低物料成本。液冷系统在不大幅增加成本的情况下,将系统功耗节省了800W以上,大大提升了设备的稳定性和性能。

 

 

 

阿里巴巴大规模计算集群的网络稳定性挑战与实践

 

 

阿里云基础设施资深技术专家施学美&博通杰出工程师Surendra Anubolu则重点介绍了如何提升大规模计算集群的网络稳定性。这一演讲针对阿里巴巴大规模计算集群中的网络稳定性问题进行了深度探讨。在AI/ML训练过程中,像allreduce、all2all这样的同步算子使得网络的稳定性需求极高。阿里云通过全局流量监控、高精度流量分析以及A.M.D(交替DSCP标记)方案,显著提升了AI集群中的网络可靠性。高精度流量监控技术可以在亚毫秒粒度内捕捉网络流量变化,识别网络中的细微拥塞点,并通过算法优化进一步减少数据包丢失。此外,A.M.D方案通过在秒级范围内检测数据包丢失,确保网络中的任何异常都能被快速定位和修复。

 

 

 

阿里巴巴HPN,面向大模型训练场景的数据中心网络

 

 

阿里云基础设施高级技术专家高佳琦分享阿里巴巴针对大模型训练场景所设计的第七代高性能网络架构(HPN 7.0)。传统的数据中心网络架构已经无法满足大模型训练对网络带宽、稳定性和延迟的极高要求。面对规模大、流量突发强、稳定性要求高的挑战,阿里巴巴通过创新的“双上联+多轨+双平面”设计,打造了一种新型的数据中心网络架构。

 

HPN 7.0架构结合最新一代51.2Tbps单芯片以太网交换机和400G高性能网卡,并自研了Solar-RDMA和ACCL通信库,实现了单层千卡、两层万卡的高性能互联架构,最大可支持十万卡规模。在此基础上,该架构提升了大模型训练的整体性能,使得阿里云大模型训练的性能在典型场景下提升了14.9%。

 

HPN 7.0自2023年9月起在阿里云数据中心中大规模部署,大幅提升了AI集群的训练效率和网络稳定性,为应对未来更大规模的大模型训练提供了坚实的基础支持。这一创新架构不仅优化了网络性能,还显著降低了网络的延迟和拥塞问题,进一步巩固了阿里云在AI基础设施领域的领先地位。

 

 

 

大型AI训练集群中的Scheduled Fabric以太网架构

 

 

字节跳动资深网络架构师霍朋飞博通产品经理吴溪光共同分享了其在构建大规模AI训练集群网络中的创新成果,特别是在Scheduled Fabric以太网架构方面的研究。这一架构能够支持上千台服务器的大型集群,确保了数据传输的高效性和低延迟。Scheduled Fabric技术通过时间调度和带宽分配的优化,大大提高了网络的性能和扩展性。在演讲中,字节跳动提出了进一步标准化该技术的提案,旨在推动整个行业在这一领域的合作与发展。

 

 

 

多平面拓扑中的最佳选路方案

 

 

字节跳动网络研发工程师Wenda Ni博通杰出工程师Jai Kumar共同分享了其在多平面拓扑结构中的最新研究成果。在多轨道拓扑下,网络流量会尽量在单一平面内流动,以最大化链路利用率。然而,当流量必须跨越多个轨道时,字节跳动通过精密的测量和远程链路质量的分析,优化了跨平面连接的效率,从而实现了弹性扩展和最大吞吐率的平衡。此外,字节跳动还展示了光电共封装交换芯片(CPO)技术的进展,进一步提高了大规模网络中的数据传输效率。

 

 

 

未来的广域网与路由技术

 

 

Phoenix Wing计划–将SONiC SRv6推向部署

 

 

在广域网和路由技术方面,阿里云基础设施网络资深技术专家阮弋星介绍阿里云通过Phoenix Wing计划展示了其在SRv6部署方面的突破性进展。通过这一计划,阿里云旨在推动SRv6技术的广泛应用,并号召社区参与开发。阮弋星详细介绍了该项目的里程碑、开源计划以及核心贡献厂商(如思科、微软、浪潮)之间的合作情况。此外,阿里云展示了基于vSONiC虚拟测试平台的创新,进一步推动了SRv6在广域网中的落地与应用。

 

 

展台:SONiC demo-Prefix Independent Convergence.

 

 

另外,在大会展厅的SONiC展台上,阿里云与智邦集团的工程师们对SONiC在网络故障快速恢复中的优化进行了精彩演示。通过代码优化,阿里云成功将网络故障恢复时的丢包窗口从近一分钟缩短至2毫秒。这一成果不仅显著提升了网络的稳定性,还赢得了参会者的广泛关注和好评。

 

 

 

总结

 

 

此次2024 OCP全球峰会,以阿里云、字节跳动等公司为代表的中国企业大放异彩,不仅展示了强大的技术实力,也通过创新与全球合作,推动了AI基础设施和网络架构的进步。在未来,中国企业有望在全球科技舞台上扮演越来越重要的角色,为技术进步贡献更多力量。




我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
7天前
|
存储 监控 安全
单位网络监控软件:Java 技术驱动的高效网络监管体系构建
在数字化办公时代,构建基于Java技术的单位网络监控软件至关重要。该软件能精准监管单位网络活动,保障信息安全,提升工作效率。通过网络流量监测、访问控制及连接状态监控等模块,实现高效网络监管,确保网络稳定、安全、高效运行。
36 11
|
5天前
|
机器学习/深度学习 人工智能 安全
CCF-CV企业交流会:打造大模型时代的可信AI,探索AI安全治理新路径
近日,由中国计算机学会计算机视觉专委会主办的《打造大模型时代的可信AI》论坛顺利举行。论坛邀请了来自上海交通大学、中国科学技术大学等机构的专家,从立法、监管、前沿研究等多角度探讨AI安全治理。合合信息等企业展示了图像篡改检测等技术,助力AI向善发展。
38 11
CCF-CV企业交流会:打造大模型时代的可信AI,探索AI安全治理新路径
|
3天前
|
人工智能 Serverless API
尽享红利,Serverless构建企业AI应用方案与实践
本次课程由阿里云云原生架构师计缘分享,主题为“尽享红利,Serverless构建企业AI应用方案与实践”。课程分为四个部分:1) Serverless技术价值,介绍其发展趋势及优势;2) Serverless函数计算与AI的结合,探讨两者融合的应用场景;3) Serverless函数计算AIGC应用方案,展示具体的技术实现和客户案例;4) 业务初期如何降低使用门槛,提供新用户权益和免费资源。通过这些内容,帮助企业和开发者快速构建高效、低成本的AI应用。
36 12
|
7天前
|
人工智能 自然语言处理 数据挖掘
从行业痛点到AI前沿:揭秘AGI时代企业培训的终极之选
近几年接触到的各类培训合作方越来越多,从国际咨询巨头、互联网科技培训平台,到本土独角兽型的专业培训公司;从专攻新技术与创新场景的培训团队,到深谙传统行业痛点的咨询顾问。作为一名在央企、国企、上市公司人力资源培训条线深耕多年的HR负责人,深知在这片竞争激烈的培训服务蓝海中,寻找高质、高效的合作伙伴并不简单,因为企业培训的逻辑正在悄然改变。
|
14天前
|
人工智能 自然语言处理 算法
AI时代的企业内训全景图:从案例到实战
作为一名扎根在HR培训领域多年的“老兵”,我越来越清晰地感受到,企业内训的本质其实是为企业持续“造血”。无论是基础岗的新人培训、技能岗的操作规范培训,还是面向技术中坚力量的高阶技术研讨,抑或是管理层的战略思维提升课,内训的价值都是在帮助企业内部提升能力水平,进而提高组织生产力,减少对外部资源的依赖。更为重要的是,在当前AI、大模型、Embodied Intelligence等新兴技术快速迭代的背景下,企业必须不断为人才升级赋能,才能在市场竞争中保持领先。
|
14天前
|
云安全 人工智能 安全
|
17天前
|
监控 安全 网络安全
云计算与网络安全:技术挑战与解决方案
随着云计算技术的飞速发展,其在各行各业的应用越来越广泛。然而,随之而来的网络安全问题也日益凸显。本文将从云服务、网络安全和信息安全等技术领域出发,探讨云计算面临的安全挑战及相应的解决方案。通过实例分析和代码示例,旨在帮助读者更好地理解云计算与网络安全的关系,提高网络安全防护意识。
|
1天前
|
数据采集 机器学习/深度学习 人工智能
基于AI的网络流量分析:构建智能化运维体系
基于AI的网络流量分析:构建智能化运维体系
26 12
|
17天前
|
存储 安全 网络安全
云计算与网络安全:技术融合下的挑战与机遇
随着云计算技术的飞速发展,网络安全问题也日益凸显。本文将探讨云计算环境下的网络安全挑战,以及如何通过技术创新来应对这些挑战。我们将分析云服务的安全特性,讨论信息安全的最佳实践,并展望未来云计算与网络安全的发展趋势。
|
7天前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
45 17