2024 OCP全球峰会:阿里云为代表的中国企业,引领全球AI网络合作和技术创新

简介: 今年的OCP(Open Compute Project)峰会于2024年10月14日至17日在美国加州圣何塞举行,在这场全球瞩目的盛会上,以阿里云为代表的中国企业,展示了他们在AI网络架构、液冷技术、SRv6和广域网等前沿领域的强大创新能力,持续引领全球合作与技术创新。

【阅读原文】戳:2024 OCP全球峰会:阿里云为代表的中国企业,引领全球AI网络合作和技术创新

OCP(Open Compute Project)全球峰会汇聚了全球的技术创新者,共同分享最新的技术趋势,展示前沿解决方案,并建立战略合作伙伴关系。今年的峰会于2024年10月14日至17日在美国加州圣何塞举行,创下了7,000名参会者的记录。来自世界各地的技术精英们齐聚一堂,探讨未来的技术发展方向。而在这场全球瞩目的盛会上,以阿里云为代表的中国企业,展示了他们在AI网络架构、液冷技术、SRv6和广域网等前沿领域的强大创新能力,持续引领全球合作与技术创新。

 

 

 

 

中国企业的持续引领

 

 

中国企业在2024年OCP峰会上表现尤为突出,尤其是阿里云、字节跳动、Wiwynn、Micas、Edgecore等公司在技术创新和展示中的表现引人注目。阿里云以4场网络架构专题演讲和一场SONiC项目演示为亮点,深入涵盖了AI网络架构、SRv6、性能优化等热门技术领域。而字节跳动贡献了3场网络相关的演讲,进一步推动了AI训练集群网络的技术发展。其他中国公司也在液冷技术、交换机软件、CPO交换机等方面展示了全球领先的技术成果。

 

 

 

 

AI高性能网络集群和架构专题

 

 

 

在高密度AI集群下,51.2Tbps交换机的液冷/风冷方案最佳实践

 

阿里云基础设施硬件架构师朱芳波&博通产品经理吴溪光联合分享的这一演讲,详细阐述了在高密度AI集群场景下,51.2Tbps以太网交换机的最佳散热解决方案。随着单机柜的功耗和热量密度在过去五年中增长了10倍,散热问题成为AI训练集群中的关键挑战。为了应对这一挑战,演讲提出了四种主要解决方案:采用更高带宽的交换芯片、使用更长的DAC线缆、部署低功耗的LPO光模块,以及采用CPO(光电共封装)交换芯片。

 

 

阿里云在自研51.2Tbps交换机过程中,探索了两个最佳风冷方案:一是在控制环境温度的基础上,优化散热设备的布局,以降低整体散热成本;二是在高功率密度场景中,通过精密模拟和调整,进一步优化芯片的散热性能。此外,阿里云还展示了其最新的液冷方案,通过单冷板设计实现更有效的散热,同时降低物料成本。液冷系统在不大幅增加成本的情况下,将系统功耗节省了800W以上,大大提升了设备的稳定性和性能。

 

 

 

阿里巴巴大规模计算集群的网络稳定性挑战与实践

 

 

阿里云基础设施资深技术专家施学美&博通杰出工程师Surendra Anubolu则重点介绍了如何提升大规模计算集群的网络稳定性。这一演讲针对阿里巴巴大规模计算集群中的网络稳定性问题进行了深度探讨。在AI/ML训练过程中,像allreduce、all2all这样的同步算子使得网络的稳定性需求极高。阿里云通过全局流量监控、高精度流量分析以及A.M.D(交替DSCP标记)方案,显著提升了AI集群中的网络可靠性。高精度流量监控技术可以在亚毫秒粒度内捕捉网络流量变化,识别网络中的细微拥塞点,并通过算法优化进一步减少数据包丢失。此外,A.M.D方案通过在秒级范围内检测数据包丢失,确保网络中的任何异常都能被快速定位和修复。

 

 

 

阿里巴巴HPN,面向大模型训练场景的数据中心网络

 

 

阿里云基础设施高级技术专家高佳琦分享阿里巴巴针对大模型训练场景所设计的第七代高性能网络架构(HPN 7.0)。传统的数据中心网络架构已经无法满足大模型训练对网络带宽、稳定性和延迟的极高要求。面对规模大、流量突发强、稳定性要求高的挑战,阿里巴巴通过创新的“双上联+多轨+双平面”设计,打造了一种新型的数据中心网络架构。

 

HPN 7.0架构结合最新一代51.2Tbps单芯片以太网交换机和400G高性能网卡,并自研了Solar-RDMA和ACCL通信库,实现了单层千卡、两层万卡的高性能互联架构,最大可支持十万卡规模。在此基础上,该架构提升了大模型训练的整体性能,使得阿里云大模型训练的性能在典型场景下提升了14.9%。

 

HPN 7.0自2023年9月起在阿里云数据中心中大规模部署,大幅提升了AI集群的训练效率和网络稳定性,为应对未来更大规模的大模型训练提供了坚实的基础支持。这一创新架构不仅优化了网络性能,还显著降低了网络的延迟和拥塞问题,进一步巩固了阿里云在AI基础设施领域的领先地位。

 

 

 

大型AI训练集群中的Scheduled Fabric以太网架构

 

 

字节跳动资深网络架构师霍朋飞博通产品经理吴溪光共同分享了其在构建大规模AI训练集群网络中的创新成果,特别是在Scheduled Fabric以太网架构方面的研究。这一架构能够支持上千台服务器的大型集群,确保了数据传输的高效性和低延迟。Scheduled Fabric技术通过时间调度和带宽分配的优化,大大提高了网络的性能和扩展性。在演讲中,字节跳动提出了进一步标准化该技术的提案,旨在推动整个行业在这一领域的合作与发展。

 

 

 

多平面拓扑中的最佳选路方案

 

 

字节跳动网络研发工程师Wenda Ni博通杰出工程师Jai Kumar共同分享了其在多平面拓扑结构中的最新研究成果。在多轨道拓扑下,网络流量会尽量在单一平面内流动,以最大化链路利用率。然而,当流量必须跨越多个轨道时,字节跳动通过精密的测量和远程链路质量的分析,优化了跨平面连接的效率,从而实现了弹性扩展和最大吞吐率的平衡。此外,字节跳动还展示了光电共封装交换芯片(CPO)技术的进展,进一步提高了大规模网络中的数据传输效率。

 

 

 

未来的广域网与路由技术

 

 

Phoenix Wing计划–将SONiC SRv6推向部署

 

 

在广域网和路由技术方面,阿里云基础设施网络资深技术专家阮弋星介绍阿里云通过Phoenix Wing计划展示了其在SRv6部署方面的突破性进展。通过这一计划,阿里云旨在推动SRv6技术的广泛应用,并号召社区参与开发。阮弋星详细介绍了该项目的里程碑、开源计划以及核心贡献厂商(如思科、微软、浪潮)之间的合作情况。此外,阿里云展示了基于vSONiC虚拟测试平台的创新,进一步推动了SRv6在广域网中的落地与应用。

 

 

展台:SONiC demo-Prefix Independent Convergence.

 

 

另外,在大会展厅的SONiC展台上,阿里云与智邦集团的工程师们对SONiC在网络故障快速恢复中的优化进行了精彩演示。通过代码优化,阿里云成功将网络故障恢复时的丢包窗口从近一分钟缩短至2毫秒。这一成果不仅显著提升了网络的稳定性,还赢得了参会者的广泛关注和好评。

 

 

 

总结

 

 

此次2024 OCP全球峰会,以阿里云、字节跳动等公司为代表的中国企业大放异彩,不仅展示了强大的技术实力,也通过创新与全球合作,推动了AI基础设施和网络架构的进步。在未来,中国企业有望在全球科技舞台上扮演越来越重要的角色,为技术进步贡献更多力量。




我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
5天前
|
安全 虚拟化
在数字化时代,网络项目的重要性日益凸显。本文从前期准备、方案内容和注意事项三个方面,详细解析了如何撰写一个优质高效的网络项目实施方案,帮助企业和用户实现更好的体验和竞争力
在数字化时代,网络项目的重要性日益凸显。本文从前期准备、方案内容和注意事项三个方面,详细解析了如何撰写一个优质高效的网络项目实施方案,帮助企业和用户实现更好的体验和竞争力。通过具体案例,展示了方案的制定和实施过程,强调了目标明确、技术先进、计划周密、风险可控和预算合理的重要性。
18 5
|
6天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
38 3
|
5天前
|
人工智能 文字识别 运维
AI多模态的5大核心关键技术,让高端制造实现智能化管理
结合大模型应用场景,通过AI技术解析高端制造业的复杂设备与文档数据,自动化地将大型零件、机械图纸、操作手册等文档结构化。核心技术包括版面识别、表格抽取、要素抽取和文档抽取,实现信息的系统化管理和高效查询,大幅提升设备维护和生产管理的效率。
|
5天前
|
机器学习/深度学习 人工智能 安全
AI与网络安全:防御黑客的新武器
在数字化时代,网络安全面临巨大挑战。本文探讨了人工智能(AI)在网络安全中的应用,包括威胁识别、自动化防御、漏洞发现和预测分析,展示了AI如何提升防御效率和准确性,成为对抗网络威胁的强大工具。
|
10天前
|
机器学习/深度学习 监控 数据可视化
企业上网监控:Kibana 在网络监控数据可视化
在网络监控中,Kibana 作为一款强大的数据可视化工具,与 Elasticsearch 配合使用,可处理大量日志数据,提供丰富的可视化组件,帮助企业高效管理网络活动,保障信息安全。通过索引模式和数据映射,Kibana 能够组织和分类原始数据,支持深入分析和异常检测,助力企业识别潜在安全威胁。
23 5
|
10天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
55 4
|
10天前
|
监控 安全 网络安全
企业网络安全:构建高效的信息安全管理体系
企业网络安全:构建高效的信息安全管理体系
37 5
|
9天前
|
机器学习/深度学习 人工智能 算法
基于AI的性能优化技术研究
基于AI的性能优化技术研究
|
10天前
|
人工智能 架构师
活动火热报名中|阿里云&Elastic:AI Search Tech Day
2024年11月22日,阿里云与Elastic联合举办“AI Search Tech Day”技术思享会活动。
153 2
|
10天前
|
存储 人工智能 大数据
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。