ALink System亮相CCF中国存储大会 凝聚Scale Up互连共识

简介: 在首届CCF中国存储大会上,阿里云服务器研发团队带来最新的UALink联盟进展,以及ALink System产业生态在国内的落地现状。

【阅读原文】戳:ALink System亮相CCF中国存储大会 凝聚Scale Up互连共识

11月29日-12月1日, CCF中国存储大会在广州长隆国际会展中心召开,阿里云服务器研团队受邀参加,在超算互联网和智能化时代存储应用创新两个专题论坛发表演讲,同步UALink联盟发布后ALS(ALink System)产业生态发展现状,以及面向AI场景下存储软硬件结合创新和实践经验。

 

背景信息:中国计算机学会中国存储大会(CCF China Storage Conference,简称CCF ChinaStorage)是国内一年一度信息计算与存储领域学术界和产业界联合举办的大型年度盛会。CCF ChinaStorage 2024以“存力、算力、智力”为主题,围绕存储与计算技术前沿发展方向,针对存力算力网、新型存储器件及体系结构、存储互联与分布式计算、数据库与文件系统、存算一体、存储网络和信息存储标准及评测等20多个技术领域展开研讨,并开展产品与新技术原型展示,探索高性能计算、人工智能和云计算等应用场景下存储与计算系统的新型解决方案,为国内存储技术相关专业研究与应用的专家、学者、技术人员、学生以及产业界提供了一场存储学术产业盛会。

 

UALink联盟10月29日正式成立,除了9家创始成员外,短短1个月内新增贡献会员和应用会员已近40家。特别是全球主流CSP厂商齐聚,直接说明超大规模AI算力基础设施建设中,Scale Up技术路线之争基本尘埃落定,AI智算超节点内Scale Up互连更多是关注高性能和低延时。正是基于对未来Scale Up技术路线发展的判断,阿里云联合信通院和AMD等单位在今年9月发布了ALink Sytem产业生态,并在2024云栖大会现场展示了AI Infra 2.0服务器系统,其中底层互连协议部分兼容UALink协议。

 

“当前业界已经形成共识,在开放协议领域,以UALink为代表的Scale Up协议和UEC为代表的Scale Out协议,共同支持AI集群互连基础协议向前演进。Scale Up互连用于GPU之间GPU 互连,Scale Out互连用于服务器之间是基于网卡+交换机的集群互连,两者在互连范围、流量特点和编程模式上有显著区别。而这种应用场景需求上的区别也体现在协议设计和底层硬件实现上。”阿里云超高速互连负责人孔阳在现场演讲中提到。

 

 

图丨孔阳在超算互联网分论坛发表演讲

 

 

ALS(ALink System,加速器互连系统)作为阿里云主导的开放生态,目标是解决Scale Up互连系统的行业发展规范问题。ALS包括ALS-D数据面和ALS-M管控面两个主要组成部分。ALS-D数据面互连采用UALink协议,除了原生支持高性能内存语义访问、显存共享,支持Switch组网模式,性能上具备超高带宽、超低时延能力外,还增加定义了在网计算等特性。ALS-M可为不同芯片提供标准化接入方案,符合规范的设备均可灵活接入应用方系统,无论是对开放生态还是厂商专有互连协议,ALS使用统一的软件接口。同时,ALS-M为云计算等集群管理场景,提供单租、多租等灵活和弹性的配置能力。整体来看,ALS聚焦GPU算力互连需求,旨在解决AI智算超节点快速发展中面临的超高速、超大带宽的Scale Up技术难题,促进国内AI智算互连领域的技术创新和标准化,驱动构建端到端的、开放的、标准化的开放生态。

 

AI应用的兴起不仅对算力提出更高要求,也对存储基础设施提出了更高的挑战。在智能化时代存储应用创新专题论坛,来自于阿里云服务器研发团队的资深技术专家陶凯,分享AI场景下阿里云存储从部件到服务器,再到硬件解决方案的多层次创新实践。阿里云自研服务器和存储部件通过软硬结合创新,为上层AI训推任务提供具有核心竞争力的存储硬件底座,包括面向大模型存储分层,数据集智能流动的平台解决方案,提升训推场景网络带宽和硬件利用率的存储服务器,以及大容量/低成本的QLC SSD和高带宽/低延迟CXL 持久化内存等技术创新。

 

图丨陶凯在智能化时代存储应用创新论坛发表演讲

 

 

在自研部件Aliflash和AliSCM的发展过程中,阿里云在确保关键技术领先的同时还不断优化成本和运维效率,并结合业务部门需求进行深度软硬件整合,针对性地解决业务的痛点问题并满足定制化需求,进一步提升相关业务的竞争力。未来,阿里云也将持续在Aliflash和AliSCM等自研存储部件上探索CXL、PIM等技术创新,深化其在AI领域的技术探索与应用实践。

 

在服务器层面,阿里云以磐久存储服务器平台为基础,持续推动软硬结合实践和创新,为AI时代数据存储提供核心竞争力。高性能存储服务器平台,通过自研网卡实现高性能、低延迟400G网络,支持大规模训练集群高速数据传输;大容量存储服务器平台,规模落地大容量SMR HDD,提供极致成本的AI数据集存储服务;AI存储服务器平台,与业务紧密合作,基于自研硬件平台完成数据集智能流动和加速,以及CheckPoint流程优化提效等关键功能开发上线。

 

阿里云服务器研发始终坚持以技术创新为核心驱动力,引领行业发展趋势,结合业务需求深入软硬融合创新,为阿里云基础设施的持续发展创造独特价值。


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
4月前
|
人工智能 数据中心 云计算
AI网络新生态ALS发起成立,信通院、阿里云、AMD等携手制定互连新标准
9月3日,在2024 ODCC开放数据中心大会上,阿里云联合信通院、AMD等国内外十余家业界伙伴发起AI芯片互连开放生态ALS(ALink System)。
AI网络新生态ALS发起成立,信通院、阿里云、AMD等携手制定互连新标准
|
4月前
|
SQL 人工智能 大数据
首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
|
人工智能 数据安全/隐私保护 安全
蚂蚁金服共享智能平台打破数据孤岛,荣获“2019CCF 科技进步优秀奖”
在2019中国计算机大会上,“蚂蚁金服隐私保护共享智能平台”荣获“CCF科技进步优秀奖”。
1150 0
蚂蚁金服共享智能平台打破数据孤岛,荣获“2019CCF 科技进步优秀奖”
|
安全 大数据 开发者
【阿里云 MVP 全球招募令】Dream Big,全球顶尖技术人集合中 …
从技术圈 KOL 到公司 CTO, 从一线的安全从业者到多年的行业研究者, 从长三角到珠三角, 从产品体验改进,到云产品开源方向的支持, 这33位全球顶尖的开发者,为广大开发者使用到更好的云服务做出了极大的贡献! 他们就是阿里云全球MVP 这是开发者的时代! 云计算、大数据、AI、Serverless等关键词早就渗入到了我们的生活里 如今,从路边摆摊的商人到穿戴正式的白领,几乎人人都在谈论。
2537 0
|
大数据 人工智能 算法
2018 CCF BDCI大赛全球启动:数据驱动,智见未来
近几年,大数据赛事异常火热,且创造了多项记录。历时五届,汇聚了上千所国内外高校、1200家企事业单位、80余所科研机构派团队参与,30000名参赛队员组成近20000支队伍。2018年第六届CCF BDCI大赛预计有1000多家海内外高校及企事业单位,近20000人参赛。
1515 0
|
安全 物联网 云计算
阿里云联合中国电子技术标准化研究院发布《边缘云计算技术及标准化白皮书》
12月12日,第八届中国云计算标准和应用大会在北京隆重召开,在会上发布了阿里云与中国电子技术标准化研究院等多家单位共同合作编写的《边缘云计算技术及标准化白皮书》,在业界首次从标准的角度明确定义了”边缘云计算“的概念、技术特点、应用场景及标准化建议。
11734 0
|
区块链 数据库
IEEE:全球超一半大公司正在研究区块链,但是你需要区块链吗?
公共区块链还是私有区块链?这是个问题
972 0

热门文章

最新文章