阿里云迎来AI网络领域两大重要突破

简介: 阿里云迎来AI网络领域两大重要突破


今日,阿里云成功入选超以太网联盟(UEC)技术咨询委员会,成为唯一的中国公司成员,将与微软、Meta、AMD、博通等其他12名成员,共同推进开放网络系统及核心技术的研发及标准制定,打造下一代AI网络基础设施。


此外,网络通信领域国际顶会SIGCOMM2024近期确定收录论文名单,阿里云6篇论文入选。其中,介绍阿里云最新一代的智算集群网络架构HPN 7.0的成果论文成为SIGCOMM历史上在AI智算集群网络架构领域的首篇论文,专家认为是继谷歌Jupiter经典网络之后的AI网络架构新范式



新晋入选UEC技术委员会,

牵头制定下一代AI网络架构标准



超以太网联盟UEC (Ultra Ethernet Consortium)是Linux基金会于2023年7月发起发起成立开源组织,致力于打造面向AI时代的超大规模新型网络技术及系统。成立不到一年,UEC已成为当下全球AI基础设施领域最受人关注、发展最迅速的技术联盟。



当前,UEC联盟建立了物理层、链路层、传输层、软件层等8个工作组,推进新兴网络技术研究;同时,UEC联盟特设技术咨询委员会,负责制定技术路线图,把控核心技术及方向,协同推进各小组工作,并统筹所有技术提案及标准制定。


UEC技术委员会是联盟中最核心的技术决策中心,只有技术实力过硬、对开源社区贡献大的会员机构才能入选。微软、Meta、AMD、Intel、博通、思科等10名UEC发起成员,与最新投票选出的阿里云、Enfabrica、Marvell等3名成员,共同组成了新一届UEC技术委员会。


UEC联盟主席梅茨欢迎阿里云等3位技术委员会新成员,他在邮件中表示,在技术委员会的推动和全体成员的努力下,UEC联盟将很快迎来第一个里程碑。


在UEC联盟中,阿里云正牵头推进面向AI需求的网络性能提升项目等技术草案,并持续向成员分享阿里云最新的技术积累和实践。



HPN7.0入选顶会SIGCOMM

AI高性能网络迎来架构新范式



为AI智算集群重新设计的网络架构HPN7.0,即是阿里云在AI高性能网络领域的创新和实践。相关成果论文已被SIGCOMM2024接收录用,成为该国际网络通信顶会历史上首篇关于AI网络架构的论文。


0e1756609178f6af04002a3ab6a736e9.png


HPN 7.0针对大模型训练场景下规模大、大流多、突发强烈、稳定性需求高的特点,创新性地设计了“双上联+多轨+双平面”的网络架构,并配合最新一代的51.2Tbps单芯片以太网交换机和400G 高性能网卡,自研Solar-RDMA和ACCL通信库,实现了单层千卡、两层万卡的高性能和高稳定互联。


从2023年9 月开始,HPN7.0在阿里云展开大规模部署,大模型训练性能较上一代架构在典型场景下提升14.9%,且大幅提高了智算网络整体稳定性。前不久阿里云发布通义千问2.5版本大模型,中文性能全面赶超GPT-4Turbo,就是基于HPN7.0高性能网络集群训练而成。


阿里云基础设施网络负责人蔡德忠介绍称:“阿里云从2017年开始探索端网融合的可预期网络,HPN7.0更进一步,把端网融合的体系结构从网络协议栈拓展到网络架构和通信库,实现了面向AI智算时代的全新网络集群架构创新。”



阿里云在高性能网络领域已深耕多年,提出了端网融合的可预期网络技术体系,并在业界率先完成RDMA低延时网络、智算集群网络架构HPN 7.0等先进技术的大规模实践。除UEC技术委员会成员身份外,阿里云也是开放网络SONiC社区7个发起成员之一和技术委员会副主席单位。同时阿里巴巴还曾获评AMiner全球十大网络研究机构,是榜单中唯一的中国科技企业。


/ END /

目录
相关文章
|
15天前
|
人工智能 云计算 网络架构
阿里云引领智算集群网络架构的新一轮变革
11月8日~10日在江苏张家港召开的CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。
阿里云引领智算集群网络架构的新一轮变革
|
8天前
|
云安全 人工智能 安全
阿里云稳居公共云网络安全即服务市占率第一
日前,全球领先的IT市场研究和咨询公司IDC发布了《中国公有云网络安全即服务市场份额,2023:规模稳步增长,技术创新引领市场格局》报告。报告显示,阿里云以27.0%的市场份额蝉联榜首。
|
9天前
|
机器学习/深度学习 人工智能 安全
AI与网络安全:防御黑客的新武器
在数字化时代,网络安全面临巨大挑战。本文探讨了人工智能(AI)在网络安全中的应用,包括威胁识别、自动化防御、漏洞发现和预测分析,展示了AI如何提升防御效率和准确性,成为对抗网络威胁的强大工具。
|
14天前
|
人工智能 运维 网络架构
阿里云引领智算集群网络架构的新一轮变革
11月8日至10日,CCF ChinaNet(中国网络大会)在江苏张家港召开,众多院士、教授和技术领袖共聚一堂,探讨网络未来发展方向。阿里云研发副总裁蔡德忠发表主题演讲,展望智算技术发展趋势,提出智算网络架构变革的新思路,发布高通量以太网协议和ENode+超节点系统规划,引起广泛关注。阿里云HPN7.0引领智算以太网生态蓬勃发展,成为业界标杆。未来,X10规模的智算集群将面临新的挑战,Ethernet将成为主流方案,推动Scale up与Scale out的融合架构,提升整体系统性能。
|
13天前
|
人工智能 安全 Cloud Native
|
14天前
|
人工智能 架构师
活动火热报名中|阿里云&Elastic:AI Search Tech Day
2024年11月22日,阿里云与Elastic联合举办“AI Search Tech Day”技术思享会活动。
162 2
|
14天前
|
存储 人工智能 大数据
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
18天前
|
人工智能 Kubernetes 云计算
第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!
2024年10月19日,第五届中国云计算基础架构开发者大会(CID)在北京朗丽兹西山花园酒店成功举办。本次大会汇聚了来自云计算领域的众多精英,不同背景的与会者齐聚一堂,共同探讨云计算技术的最新发展与未来趋势。
|
18天前
|
人工智能 Kubernetes 云计算
第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!
第五届中国云计算基础架构开发者大会(CID)于2024年10月19日在北京成功举办。大会汇聚了300多位现场参会者和超过3万名在线观众,30余位技术专家进行了精彩分享,涵盖高效部署大模型推理、Knative加速AI应用Serverless化、AMD平台PMU虚拟化技术实践、Kubernetes中全链路GPU高效管理等前沿话题。阿里云的讲师团队通过专业解读,为与会者带来了全新的视野和启发,推动了云计算技术的创新发展。
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。