2024 OCP全球峰会:阿里云为代表的中国企业,引领全球AI网络合作和技术创新

简介: 今年的OCP(Open Compute Project)峰会于2024年10月14日至17日在美国加州圣何塞举行,在这场全球瞩目的盛会上,以阿里云为代表的中国企业,展示了他们在AI网络架构、液冷技术、SRv6和广域网等前沿领域的强大创新能力,持续引领全球合作与技术创新。

【阅读原文】戳:2024 OCP全球峰会:阿里云为代表的中国企业,引领全球AI网络合作和技术创新

OCP(Open Compute Project)全球峰会汇聚了全球的技术创新者,共同分享最新的技术趋势,展示前沿解决方案,并建立战略合作伙伴关系。今年的峰会于2024年10月14日至17日在美国加州圣何塞举行,创下了7,000名参会者的记录。来自世界各地的技术精英们齐聚一堂,探讨未来的技术发展方向。而在这场全球瞩目的盛会上,以阿里云为代表的中国企业,展示了他们在AI网络架构、液冷技术、SRv6和广域网等前沿领域的强大创新能力,持续引领全球合作与技术创新。

 

 

 

 

中国企业的持续引领

 

 

中国企业在2024年OCP峰会上表现尤为突出,尤其是阿里云、字节跳动、Wiwynn、Micas、Edgecore等公司在技术创新和展示中的表现引人注目。阿里云以4场网络架构专题演讲和一场SONiC项目演示为亮点,深入涵盖了AI网络架构、SRv6、性能优化等热门技术领域。而字节跳动贡献了3场网络相关的演讲,进一步推动了AI训练集群网络的技术发展。其他中国公司也在液冷技术、交换机软件、CPO交换机等方面展示了全球领先的技术成果。

 

 

 

 

AI高性能网络集群和架构专题

 

 

 

在高密度AI集群下,51.2Tbps交换机的液冷/风冷方案最佳实践

 

阿里云基础设施硬件架构师朱芳波&博通产品经理吴溪光联合分享的这一演讲,详细阐述了在高密度AI集群场景下,51.2Tbps以太网交换机的最佳散热解决方案。随着单机柜的功耗和热量密度在过去五年中增长了10倍,散热问题成为AI训练集群中的关键挑战。为了应对这一挑战,演讲提出了四种主要解决方案:采用更高带宽的交换芯片、使用更长的DAC线缆、部署低功耗的LPO光模块,以及采用CPO(光电共封装)交换芯片。

 

 

阿里云在自研51.2Tbps交换机过程中,探索了两个最佳风冷方案:一是在控制环境温度的基础上,优化散热设备的布局,以降低整体散热成本;二是在高功率密度场景中,通过精密模拟和调整,进一步优化芯片的散热性能。此外,阿里云还展示了其最新的液冷方案,通过单冷板设计实现更有效的散热,同时降低物料成本。液冷系统在不大幅增加成本的情况下,将系统功耗节省了800W以上,大大提升了设备的稳定性和性能。

 

 

 

阿里巴巴大规模计算集群的网络稳定性挑战与实践

 

 

阿里云基础设施资深技术专家施学美&博通杰出工程师Surendra Anubolu则重点介绍了如何提升大规模计算集群的网络稳定性。这一演讲针对阿里巴巴大规模计算集群中的网络稳定性问题进行了深度探讨。在AI/ML训练过程中,像allreduce、all2all这样的同步算子使得网络的稳定性需求极高。阿里云通过全局流量监控、高精度流量分析以及A.M.D(交替DSCP标记)方案,显著提升了AI集群中的网络可靠性。高精度流量监控技术可以在亚毫秒粒度内捕捉网络流量变化,识别网络中的细微拥塞点,并通过算法优化进一步减少数据包丢失。此外,A.M.D方案通过在秒级范围内检测数据包丢失,确保网络中的任何异常都能被快速定位和修复。

 

 

 

阿里巴巴HPN,面向大模型训练场景的数据中心网络

 

 

阿里云基础设施高级技术专家高佳琦分享阿里巴巴针对大模型训练场景所设计的第七代高性能网络架构(HPN 7.0)。传统的数据中心网络架构已经无法满足大模型训练对网络带宽、稳定性和延迟的极高要求。面对规模大、流量突发强、稳定性要求高的挑战,阿里巴巴通过创新的“双上联+多轨+双平面”设计,打造了一种新型的数据中心网络架构。

 

HPN 7.0架构结合最新一代51.2Tbps单芯片以太网交换机和400G高性能网卡,并自研了Solar-RDMA和ACCL通信库,实现了单层千卡、两层万卡的高性能互联架构,最大可支持十万卡规模。在此基础上,该架构提升了大模型训练的整体性能,使得阿里云大模型训练的性能在典型场景下提升了14.9%。

 

HPN 7.0自2023年9月起在阿里云数据中心中大规模部署,大幅提升了AI集群的训练效率和网络稳定性,为应对未来更大规模的大模型训练提供了坚实的基础支持。这一创新架构不仅优化了网络性能,还显著降低了网络的延迟和拥塞问题,进一步巩固了阿里云在AI基础设施领域的领先地位。

 

 

 

大型AI训练集群中的Scheduled Fabric以太网架构

 

 

字节跳动资深网络架构师霍朋飞博通产品经理吴溪光共同分享了其在构建大规模AI训练集群网络中的创新成果,特别是在Scheduled Fabric以太网架构方面的研究。这一架构能够支持上千台服务器的大型集群,确保了数据传输的高效性和低延迟。Scheduled Fabric技术通过时间调度和带宽分配的优化,大大提高了网络的性能和扩展性。在演讲中,字节跳动提出了进一步标准化该技术的提案,旨在推动整个行业在这一领域的合作与发展。

 

 

 

多平面拓扑中的最佳选路方案

 

 

字节跳动网络研发工程师Wenda Ni博通杰出工程师Jai Kumar共同分享了其在多平面拓扑结构中的最新研究成果。在多轨道拓扑下,网络流量会尽量在单一平面内流动,以最大化链路利用率。然而,当流量必须跨越多个轨道时,字节跳动通过精密的测量和远程链路质量的分析,优化了跨平面连接的效率,从而实现了弹性扩展和最大吞吐率的平衡。此外,字节跳动还展示了光电共封装交换芯片(CPO)技术的进展,进一步提高了大规模网络中的数据传输效率。

 

 

 

未来的广域网与路由技术

 

 

Phoenix Wing计划–将SONiC SRv6推向部署

 

 

在广域网和路由技术方面,阿里云基础设施网络资深技术专家阮弋星介绍阿里云通过Phoenix Wing计划展示了其在SRv6部署方面的突破性进展。通过这一计划,阿里云旨在推动SRv6技术的广泛应用,并号召社区参与开发。阮弋星详细介绍了该项目的里程碑、开源计划以及核心贡献厂商(如思科、微软、浪潮)之间的合作情况。此外,阿里云展示了基于vSONiC虚拟测试平台的创新,进一步推动了SRv6在广域网中的落地与应用。

 

 

展台:SONiC demo-Prefix Independent Convergence.

 

 

另外,在大会展厅的SONiC展台上,阿里云与智邦集团的工程师们对SONiC在网络故障快速恢复中的优化进行了精彩演示。通过代码优化,阿里云成功将网络故障恢复时的丢包窗口从近一分钟缩短至2毫秒。这一成果不仅显著提升了网络的稳定性,还赢得了参会者的广泛关注和好评。

 

 

 

总结

 

 

此次2024 OCP全球峰会,以阿里云、字节跳动等公司为代表的中国企业大放异彩,不仅展示了强大的技术实力,也通过创新与全球合作,推动了AI基础设施和网络架构的进步。在未来,中国企业有望在全球科技舞台上扮演越来越重要的角色,为技术进步贡献更多力量。




我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
52 10
|
3天前
|
机器学习/深度学习 人工智能 安全
CCF-CV企业交流会:打造大模型时代的可信AI,探索AI安全治理新路径
近日,由中国计算机学会计算机视觉专委会主办的《打造大模型时代的可信AI》论坛顺利举行。论坛邀请了来自上海交通大学、中国科学技术大学等机构的专家,从立法、监管、前沿研究等多角度探讨AI安全治理。合合信息等企业展示了图像篡改检测等技术,助力AI向善发展。
34 11
CCF-CV企业交流会:打造大模型时代的可信AI,探索AI安全治理新路径
|
2天前
|
人工智能 安全 算法
深度剖析 打造大模型时代的可信AI:技术创新与安全治理并重
2024年12月11日,由中国计算机学会计算机视觉专委会主办的“打造大模型时代的可信AI”论坛在上海举行。论坛汇聚了来自多家知名学术机构和企业的顶尖专家,围绕AI的技术风险与治理挑战,探讨如何在大模型时代确保AI的安全性和可信度,推动技术创新与安全治理并行。论坛重点关注计算机视觉领域的最新进展,提出了多项技术手段和治理框架,为AI的健康发展提供了有力支持。
23 8
深度剖析 打造大模型时代的可信AI:技术创新与安全治理并重
|
2天前
|
机器学习/深度学习 人工智能 运维
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
阿里云技术公开课预告:Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
|
2天前
|
机器学习/深度学习 传感器 人工智能
AI视频监控系统在养老院中的技术实现
AI视频监控系统在养老院的应用,结合了计算机视觉、深度学习和传感器融合技术,实现了对老人体征、摔倒和异常行为的实时监控与分析。系统通过高清摄像头和算法模型,能够准确识别老人的动作和健康状况,并及时向护理人员发出警报,提高护理质量和安全性。
27 14
|
2天前
|
传感器 机器学习/深度学习 人工智能
AI视频监控卫士技术介绍:智能化河道管理解决方案
AI视频监控卫士系统,通过高清摄像头、智能传感器和深度学习技术,实现河道、水库、城市水务及生态保护区的全天候、全覆盖智能监控。系统能够自动识别非法行为、水质变化和异常情况,并实时生成警报,提升管理效率和精准度。
30 13
|
5天前
|
人工智能 自然语言处理 数据挖掘
从行业痛点到AI前沿:揭秘AGI时代企业培训的终极之选
近几年接触到的各类培训合作方越来越多,从国际咨询巨头、互联网科技培训平台,到本土独角兽型的专业培训公司;从专攻新技术与创新场景的培训团队,到深谙传统行业痛点的咨询顾问。作为一名在央企、国企、上市公司人力资源培训条线深耕多年的HR负责人,深知在这片竞争激烈的培训服务蓝海中,寻找高质、高效的合作伙伴并不简单,因为企业培训的逻辑正在悄然改变。
|
2天前
|
人工智能 计算机视觉
幻觉不一定有害,新框架用AI的幻觉优化图像分割技术
在图像分割领域,传统方法依赖大量手动标注数据,效率低下且难以适应复杂场景。为解决这一问题,研究人员提出了“任务通用可提示分割”方法,利用多模态大型语言模型(MLLM)生成实例特定提示。然而,MLLM常出现幻觉,影响分割精度。为此,研究团队开发了“Prompt-Mask Cycle”(ProMaC)框架,通过迭代生成和验证提示及掩码,有效利用幻觉信息,提高了分割精度和效率。实验结果表明,ProMaC在多个基准数据集上表现出色,为图像分割技术的发展提供了新思路。
14 6
|
1天前
|
人工智能 Serverless API
尽享红利,Serverless构建企业AI应用方案与实践
本次课程由阿里云云原生架构师计缘分享,主题为“尽享红利,Serverless构建企业AI应用方案与实践”。课程分为四个部分:1) Serverless技术价值,介绍其发展趋势及优势;2) Serverless函数计算与AI的结合,探讨两者融合的应用场景;3) Serverless函数计算AIGC应用方案,展示具体的技术实现和客户案例;4) 业务初期如何降低使用门槛,提供新用户权益和免费资源。通过这些内容,帮助企业和开发者快速构建高效、低成本的AI应用。
29 11
|
1天前
|
存储 人工智能 运维
AI-Native的路要怎么走?一群技术“老炮儿”指明了方向
上世纪70年代,沃兹尼亚克、乔布斯等人成立Homebrew Computer Club,推动个人电脑普及。如今,创原会承袭这一精神,由CNCF执行董事Priyanka Sharma等构建,聚焦云原生和AI技术,汇聚各行业技术骨干,探索前沿科技。2024年创原会年度峰会达成“全面拥抱AI-Native”共识,解决算力与存储瓶颈,推动AI原生应用开发,助力千行万业智能化转型,成为行业创新风向标。
下一篇
DataWorks