携手UALink,阿里云磐久AI Infra 2.0服务器亮相2024 OCP全球峰会

简介: 阿里云服务器研发受邀和UALink联盟一起,在OCP全球峰会上重点阐述AI服务器Scale UP互连技术领域发展趋势

【阅读原文】戳:携手UALink,阿里云磐久AI Infra 2.0服务器亮相2024 OCP全球峰会

10月15日-17日,一年一度的开放计算全球峰会(OCP Global Summit)在美国加州圣何塞(San Jose)召开,本次峰会以“从创新到影响力(From Ideas to Impact)”为主题盛大开幕,吸引全球7000多位基础设施软硬件技术和应用领域的专业人士参会。作为全球最具影响力的的基础设施和开放计算领域标志性盛会,特别是在今年OCP基金会重磅宣布其人工智能开放系统战略计划后,2024 OCP全球峰会上专门设置人工智能特别关注议程(Special Focus Tracks),重点推动AI基础设施领域的技术生态建设。

阿里云服务器研发资深总监文芳志受邀和UALink联盟主席Kurtis Bowman联合发表了题为《UALink: Pioneering the AI Accelerator Revolution》的演讲,重点阐述了AI服务器Scale UP互连技术领域的发展趋势,UALink标准的路线图,UALink联盟和ALink System产业生态未来的合作潜力,以及阿里云磐久AI Infra 2.0服务器的落地实践思路。

行业领先的AI芯片、服务器和CSP厂商联合发起的UALink协议,将是一项彻底改变AI服务器Scale UP互连技术生态系统的行业新标准。相比较超级以太网联盟 (UEC) 的协议标准专注于Scale out扩展能力,UALink协议凭借高性能内存语义访问的原生支持、显存共享,支持Switch组网模式,以及超高带宽、超低时延能力等性能优势,正在迅速构建起一个AI服务器Scale UP互连技术的超级开放生态。按照计划,UALink联盟将于10月底正式成立并开始吸纳成员加入,并在年底对外发布第一版UALink spec。

 

 

UALink标准作为目前最具潜力的AI服务器Scale UP互连开放标准,如何在业界特别是在中国市场落地实践是一个巨大挑战,ALink System(ALS)产业生态应运而生。ALS提供具备性能竞争力和统一标准的互连系统,包括ALS-D数据面和ALS-M管控面两个主要组成部分,为AI训推场景提供丰富的能力和特性支持。

ALS-D将支持UALink国际标准,形成极具性能竞争力的数据面方案。当前以推理和训练场景为主的AI应用,在Scale Up网络上具有并行切分算法、大显存共享、GPU超多核内存语义编程等多种显著特点。ALS-D数据面互连采用UALink协议,除了原生支持高性能内存语义访问、显存共享,支持Switch组网模式,性能上具备超高带宽、超低时延能力外,还增加定义了在网计算等特性。

ALS-M可以为不同芯片方案提供标准化的接入方案,符合规范的设备均可灵活接入应用方系统。无论是对开放生态还是厂商专有互连协议,ALS使用统一的软件接口。同时,ALS-M为云计算等集群管理场景,提供单租、多租等灵活和弹性的配置能力。

 

 

正是遵循ALink System的规范,阿里云自主设计了面向下一代超大规模AI集群的磐久AI Infra 2.0服务器,贯穿了开放生态、高能效、高性能和高可用的设计理念。AI Infra 2.0服务器开放性地定义了AI计算节点和Scale Up/Scale Out互连系统,可以在统一的硬件架构下支持业界主流AI方案,引领AI领域的“一云多芯”。

互连系统ALink System全面兼容国际标准UALink生态,可以与行业伙伴开放共建超高性能、超大规模的Scale UP集群互连能力,一级互连64-80个节点,二级互连可达2000以上节点,提供了PB级共享显存和TB级互连带宽。

AI计算节点内集成阿里自研CIPU 3.0芯片,既能支持高带宽大规模AI服务器实现Scale Out网络扩展,又能兼顾云网络弹性、安全的要求。

硬件工程方面,AI Infra 2.0服务器单机柜可以支持最大80个AI计算节点,业界密度最高;在业界率先采用400V PSU,单体供电效率可达98%,整体供电效率提高2%。在散热设计上,机柜级液冷方案可以根据实际负载动态调整CDU冷却能力来降低能耗,单柜冷却系统节能30%。最后,在运维管理上,全新的CableCartridge后维护设计,支持全盲插,零理线易运维、零误操作,维护效率提升50%。

可靠性方面,AI Infra 2.0服务器支持弹性节点、智能路由、高可靠供电、分布式CDU等技术,可以实时监控、探测各种硬件故障并自愈,硬件的故障域也缩减到节点级。

在ALink System产业生态建设上,阿里云一贯秉持开放合作的策略,推动互连技术领域的发展和繁荣。自今年9月ALink System产业生态在开放数据中心大会上正式发布以来,目前已有20多家AI芯片、互连芯片、服务器整机硬件和IP设计厂商加入,成员单位已就相关协议标准制定和实行路径选择展开交流。

除了积极拥抱UALink和牵头成立ALink System产业生态,阿里云还是OCP、CXL、UCIe和UEC等多个互连技术行业组织的创始成员或技术委员会成员,并用实际行动支持相关开放互连技术标准的制定和落地。




我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
5天前
|
机器学习/深度学习 人工智能 弹性计算
什么是阿里云GPU云服务器?GPU服务器优势、使用和租赁费用整理
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等多种场景。作为亚太领先的云服务提供商,阿里云的GPU云服务器具备灵活的资源配置、高安全性和易用性,支持多种计费模式,帮助企业高效应对计算密集型任务。
|
7天前
|
存储 分布式计算 固态存储
阿里云2核16G、4核32G、8核64G配置云服务器租用收费标准与活动价格参考
2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8,这种配比的云服务器一般适用于数据分析与挖掘,Hadoop、Spark集群和数据库,缓存等内存密集型场景,因此,多为企业级用户选择。目前2核16G配置按量收费最低收费标准为0.54元/小时,按月租用标准收费标准为260.44元/1个月。4核32G配置的阿里云服务器按量收费标准最低为1.08元/小时,按月租用标准收费标准为520.88元/1个月。8核64G配置的阿里云服务器按量收费标准最低为2.17元/小时,按月租用标准收费标准为1041.77元/1个月。本文介绍这些配置的最新租用收费标准与活动价格情况,以供参考。
|
5天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器全解析_GPU价格收费标准_GPU优势和使用说明
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等场景。作为亚太领先的云服务商,阿里云GPU云服务器具备高灵活性、易用性、容灾备份、安全性和成本效益,支持多种实例规格,满足不同业务需求。
|
9天前
|
人工智能 架构师
活动火热报名中|阿里云&Elastic:AI Search Tech Day
2024年11月22日,阿里云与Elastic联合举办“AI Search Tech Day”技术思享会活动。
119 2
|
10天前
|
监控 Ubuntu Linux
使用VSCode通过SSH远程登录阿里云Linux服务器异常崩溃
通过 VSCode 的 Remote - SSH 插件远程连接阿里云 Ubuntu 22 服务器时,会因高 CPU 使用率导致连接断开。经排查发现,VSCode 连接根目录 ".." 时会频繁调用"rg"(ripgrep)进行文件搜索,导致 CPU 负载过高。解决方法是将连接目录改为"root"(或其他具体的路径),避免不必要的文件检索,从而恢复正常连接。
|
9天前
|
存储 人工智能 大数据
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
10天前
|
弹性计算
阿里云2核16G云服务器多少钱?亲测ECS内存型r8i租赁价格
阿里云2核16G云服务器,内存型r8i实例1年6折优惠后价格为1901元,月付334.19元,按小时计费0.696221元。更多配置及优惠详情,请访问阿里云ECS页面。
|
13天前
|
人工智能 Kubernetes 云计算
第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!
2024年10月19日,第五届中国云计算基础架构开发者大会(CID)在北京朗丽兹西山花园酒店成功举办。本次大会汇聚了来自云计算领域的众多精英,不同背景的与会者齐聚一堂,共同探讨云计算技术的最新发展与未来趋势。
|
13天前
|
人工智能 Kubernetes 云计算
第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!
第五届中国云计算基础架构开发者大会(CID)于2024年10月19日在北京成功举办。大会汇聚了300多位现场参会者和超过3万名在线观众,30余位技术专家进行了精彩分享,涵盖高效部署大模型推理、Knative加速AI应用Serverless化、AMD平台PMU虚拟化技术实践、Kubernetes中全链路GPU高效管理等前沿话题。阿里云的讲师团队通过专业解读,为与会者带来了全新的视野和启发,推动了云计算技术的创新发展。
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。

热门文章

最新文章