【阅读原文】戳:ALink System亮相CCF中国存储大会 凝聚Scale Up互连共识
11月29日-12月1日, CCF中国存储大会在广州长隆国际会展中心召开,阿里云服务器研团队受邀参加,在超算互联网和智能化时代存储应用创新两个专题论坛发表演讲,同步UALink联盟发布后ALS(ALink System)产业生态发展现状,以及面向AI场景下存储软硬件结合创新和实践经验。
背景信息:中国计算机学会中国存储大会(CCF China Storage Conference,简称CCF ChinaStorage)是国内一年一度信息计算与存储领域学术界和产业界联合举办的大型年度盛会。CCF ChinaStorage 2024以“存力、算力、智力”为主题,围绕存储与计算技术前沿发展方向,针对存力算力网、新型存储器件及体系结构、存储互联与分布式计算、数据库与文件系统、存算一体、存储网络和信息存储标准及评测等20多个技术领域展开研讨,并开展产品与新技术原型展示,探索高性能计算、人工智能和云计算等应用场景下存储与计算系统的新型解决方案,为国内存储技术相关专业研究与应用的专家、学者、技术人员、学生以及产业界提供了一场存储学术产业盛会。
UALink联盟10月29日正式成立,除了9家创始成员外,短短1个月内新增贡献会员和应用会员已近40家。特别是全球主流CSP厂商齐聚,直接说明超大规模AI算力基础设施建设中,Scale Up技术路线之争基本尘埃落定,AI智算超节点内Scale Up互连更多是关注高性能和低延时。正是基于对未来Scale Up技术路线发展的判断,阿里云联合信通院和AMD等单位在今年9月发布了ALink Sytem产业生态,并在2024云栖大会现场展示了AI Infra 2.0服务器系统,其中底层互连协议部分兼容UALink协议。
“当前业界已经形成共识,在开放协议领域,以UALink为代表的Scale Up协议和UEC为代表的Scale Out协议,共同支持AI集群互连基础协议向前演进。Scale Up互连用于GPU之间GPU 互连,Scale Out互连用于服务器之间是基于网卡+交换机的集群互连,两者在互连范围、流量特点和编程模式上有显著区别。而这种应用场景需求上的区别也体现在协议设计和底层硬件实现上。”阿里云超高速互连负责人孔阳在现场演讲中提到。
图丨孔阳在超算互联网分论坛发表演讲
ALS(ALink System,加速器互连系统)作为阿里云主导的开放生态,目标是解决Scale Up互连系统的行业发展规范问题。ALS包括ALS-D数据面和ALS-M管控面两个主要组成部分。ALS-D数据面互连采用UALink协议,除了原生支持高性能内存语义访问、显存共享,支持Switch组网模式,性能上具备超高带宽、超低时延能力外,还增加定义了在网计算等特性。ALS-M可为不同芯片提供标准化接入方案,符合规范的设备均可灵活接入应用方系统,无论是对开放生态还是厂商专有互连协议,ALS使用统一的软件接口。同时,ALS-M为云计算等集群管理场景,提供单租、多租等灵活和弹性的配置能力。整体来看,ALS聚焦GPU算力互连需求,旨在解决AI智算超节点快速发展中面临的超高速、超大带宽的Scale Up技术难题,促进国内AI智算互连领域的技术创新和标准化,驱动构建端到端的、开放的、标准化的开放生态。
AI应用的兴起不仅对算力提出更高要求,也对存储基础设施提出了更高的挑战。在智能化时代存储应用创新专题论坛,来自于阿里云服务器研发团队的资深技术专家陶凯,分享AI场景下阿里云存储从部件到服务器,再到硬件解决方案的多层次创新实践。阿里云自研服务器和存储部件通过软硬结合创新,为上层AI训推任务提供具有核心竞争力的存储硬件底座,包括面向大模型存储分层,数据集智能流动的平台解决方案,提升训推场景网络带宽和硬件利用率的存储服务器,以及大容量/低成本的QLC SSD和高带宽/低延迟CXL 持久化内存等技术创新。
图丨陶凯在智能化时代存储应用创新论坛发表演讲
在自研部件Aliflash和AliSCM的发展过程中,阿里云在确保关键技术领先的同时还不断优化成本和运维效率,并结合业务部门需求进行深度软硬件整合,针对性地解决业务的痛点问题并满足定制化需求,进一步提升相关业务的竞争力。未来,阿里云也将持续在Aliflash和AliSCM等自研存储部件上探索CXL、PIM等技术创新,深化其在AI领域的技术探索与应用实践。
在服务器层面,阿里云以磐久存储服务器平台为基础,持续推动软硬结合实践和创新,为AI时代数据存储提供核心竞争力。高性能存储服务器平台,通过自研网卡实现高性能、低延迟400G网络,支持大规模训练集群高速数据传输;大容量存储服务器平台,规模落地大容量SMR HDD,提供极致成本的AI数据集存储服务;AI存储服务器平台,与业务紧密合作,基于自研硬件平台完成数据集智能流动和加速,以及CheckPoint流程优化提效等关键功能开发上线。
阿里云服务器研发始终坚持以技术创新为核心驱动力,引领行业发展趋势,结合业务需求深入软硬融合创新,为阿里云基础设施的持续发展创造独特价值。
我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。
获取关于我们的更多信息~