ALink System亮相CCF中国存储大会 凝聚Scale Up互连共识

简介: 在首届CCF中国存储大会上,阿里云服务器研发团队带来最新的UALink联盟进展,以及ALink System产业生态在国内的落地现状。

【阅读原文】戳:ALink System亮相CCF中国存储大会 凝聚Scale Up互连共识

11月29日-12月1日, CCF中国存储大会在广州长隆国际会展中心召开,阿里云服务器研团队受邀参加,在超算互联网和智能化时代存储应用创新两个专题论坛发表演讲,同步UALink联盟发布后ALS(ALink System)产业生态发展现状,以及面向AI场景下存储软硬件结合创新和实践经验。

 

背景信息:中国计算机学会中国存储大会(CCF China Storage Conference,简称CCF ChinaStorage)是国内一年一度信息计算与存储领域学术界和产业界联合举办的大型年度盛会。CCF ChinaStorage 2024以“存力、算力、智力”为主题,围绕存储与计算技术前沿发展方向,针对存力算力网、新型存储器件及体系结构、存储互联与分布式计算、数据库与文件系统、存算一体、存储网络和信息存储标准及评测等20多个技术领域展开研讨,并开展产品与新技术原型展示,探索高性能计算、人工智能和云计算等应用场景下存储与计算系统的新型解决方案,为国内存储技术相关专业研究与应用的专家、学者、技术人员、学生以及产业界提供了一场存储学术产业盛会。

 

UALink联盟10月29日正式成立,除了9家创始成员外,短短1个月内新增贡献会员和应用会员已近40家。特别是全球主流CSP厂商齐聚,直接说明超大规模AI算力基础设施建设中,Scale Up技术路线之争基本尘埃落定,AI智算超节点内Scale Up互连更多是关注高性能和低延时。正是基于对未来Scale Up技术路线发展的判断,阿里云联合信通院和AMD等单位在今年9月发布了ALink Sytem产业生态,并在2024云栖大会现场展示了AI Infra 2.0服务器系统,其中底层互连协议部分兼容UALink协议。

 

“当前业界已经形成共识,在开放协议领域,以UALink为代表的Scale Up协议和UEC为代表的Scale Out协议,共同支持AI集群互连基础协议向前演进。Scale Up互连用于GPU之间GPU 互连,Scale Out互连用于服务器之间是基于网卡+交换机的集群互连,两者在互连范围、流量特点和编程模式上有显著区别。而这种应用场景需求上的区别也体现在协议设计和底层硬件实现上。”阿里云超高速互连负责人孔阳在现场演讲中提到。

 

 

图丨孔阳在超算互联网分论坛发表演讲

 

 

ALS(ALink System,加速器互连系统)作为阿里云主导的开放生态,目标是解决Scale Up互连系统的行业发展规范问题。ALS包括ALS-D数据面和ALS-M管控面两个主要组成部分。ALS-D数据面互连采用UALink协议,除了原生支持高性能内存语义访问、显存共享,支持Switch组网模式,性能上具备超高带宽、超低时延能力外,还增加定义了在网计算等特性。ALS-M可为不同芯片提供标准化接入方案,符合规范的设备均可灵活接入应用方系统,无论是对开放生态还是厂商专有互连协议,ALS使用统一的软件接口。同时,ALS-M为云计算等集群管理场景,提供单租、多租等灵活和弹性的配置能力。整体来看,ALS聚焦GPU算力互连需求,旨在解决AI智算超节点快速发展中面临的超高速、超大带宽的Scale Up技术难题,促进国内AI智算互连领域的技术创新和标准化,驱动构建端到端的、开放的、标准化的开放生态。

 

AI应用的兴起不仅对算力提出更高要求,也对存储基础设施提出了更高的挑战。在智能化时代存储应用创新专题论坛,来自于阿里云服务器研发团队的资深技术专家陶凯,分享AI场景下阿里云存储从部件到服务器,再到硬件解决方案的多层次创新实践。阿里云自研服务器和存储部件通过软硬结合创新,为上层AI训推任务提供具有核心竞争力的存储硬件底座,包括面向大模型存储分层,数据集智能流动的平台解决方案,提升训推场景网络带宽和硬件利用率的存储服务器,以及大容量/低成本的QLC SSD和高带宽/低延迟CXL 持久化内存等技术创新。

 

图丨陶凯在智能化时代存储应用创新论坛发表演讲

 

 

在自研部件Aliflash和AliSCM的发展过程中,阿里云在确保关键技术领先的同时还不断优化成本和运维效率,并结合业务部门需求进行深度软硬件整合,针对性地解决业务的痛点问题并满足定制化需求,进一步提升相关业务的竞争力。未来,阿里云也将持续在Aliflash和AliSCM等自研存储部件上探索CXL、PIM等技术创新,深化其在AI领域的技术探索与应用实践。

 

在服务器层面,阿里云以磐久存储服务器平台为基础,持续推动软硬结合实践和创新,为AI时代数据存储提供核心竞争力。高性能存储服务器平台,通过自研网卡实现高性能、低延迟400G网络,支持大规模训练集群高速数据传输;大容量存储服务器平台,规模落地大容量SMR HDD,提供极致成本的AI数据集存储服务;AI存储服务器平台,与业务紧密合作,基于自研硬件平台完成数据集智能流动和加速,以及CheckPoint流程优化提效等关键功能开发上线。

 

阿里云服务器研发始终坚持以技术创新为核心驱动力,引领行业发展趋势,结合业务需求深入软硬融合创新,为阿里云基础设施的持续发展创造独特价值。


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
人工智能 固态存储 安全
一文告诉你CXL是什么,有什么新的机会 (上)
> 1. 大数据AI/ML应用爆发驱动大内存需求,但内存增长受限,CXL互联方案应运而生 > 2. CXL分为1.0/2.0/3.0版本,分别提供直连、池化、Fabric能力,预计在2022年/203年/2025年之后市场可用,目前看来池化对于软件的影响最大 > 3. CXL更多是对于已有架构的性能优化,全新的机会不多,较大的机会在于系统软件、内存即服务,以及内存数据库和内存云结构 > 4. CXL大概率将成为跨计算引擎的内存结构标准,短期利好云厂商,长期会数据中心架构产生结构性的变革
4038 0
|
7月前
|
关系型数据库 分布式数据库 数据库
|
人工智能 数据中心 云计算
AI网络新生态ALS发起成立,信通院、阿里云、AMD等携手制定互连新标准
9月3日,在2024 ODCC开放数据中心大会上,阿里云联合信通院、AMD等国内外十余家业界伙伴发起AI芯片互连开放生态ALS(ALink System)。
AI网络新生态ALS发起成立,信通院、阿里云、AMD等携手制定互连新标准
|
5月前
|
人工智能 安全 架构师
开放、协同,2025 云栖大会“操作系统开源与 AI 进化分论坛”精彩回顾
唯有通过生态开放与技术共享,才能加速 AI 技术的普惠与产业化落地。
|
7月前
|
机器学习/深度学习 人工智能 分布式计算
AI 大模型时代的网络架构演进
​2025 年 7 月 26 日,第二届中国计算机学会(CCF)分布式计算大会暨中国算力网大会(CCF Computility 2025)在甘肃兰州隆重召开。大会以“算力网:新质生产力背景下的分布式系统”为主题,吸引了来自学术界与产业界的 1200 余位专家学者、行业代表齐聚一堂,共探分布式计算与算力网络的前沿技术与未来趋势。
|
12月前
|
人工智能 云计算 数据中心
阿里云当选UALink联盟董事会成员,推进新一代GPU互连技术!
阿里云当选UALink联盟董事会成员,推进新一代GPU互连技术!
542 2
|
存储 人工智能 芯片
面向AI的服务器计算互连的创新探索
面向AI的服务器计算互连创新探索主要涵盖三个方向:Scale UP互连、AI高性能网卡及CIPU技术。Scale UP互连通过ALink系统实现极致性能,支持大规模模型训练,满足智算集群需求。AI高性能网卡针对大规模GPU通信和存储挑战,自研EIC网卡提供400G带宽和RDMA卸载加速,优化网络传输。CIPU作为云基础设施核心,支持虚拟化、存储与网络资源池化,提升资源利用率和稳定性,未来将扩展至2*800G带宽,全面覆盖阿里云业务需求。这些技术共同推动了AI计算的高效互联与性能突破。
|
人工智能 并行计算 云计算
从UALink近期发展再看GPU Scale Up的互连方向
ALink System的目标是聚焦GPU算力需求、驱动云计算定义的开放生态,形成智算超节点的竞争力。

热门文章

最新文章