MLPerf™最新推理榜单阿里云斩获多项第一 震旦vODLA算力池技术崭露头角

简介: 首次以虚拟算力,大幅提升榜单算力性能

首图-图标.png

【阅读原文】戳:MLPerf™最新推理榜单阿里云斩获多项第一  震旦vODLA算力池技术崭露头角


近日,全球权威AI基准评测组织MLCommons公布了最新一期MLPerf™ v2.1推理性能榜单。阿里云震旦异构计算加速平台以其独特的异构算力池化能力和稳定强大的软硬协同,携手智能计算灵骏,在数据中心、边缘计算和网络Inference-over-Network等多场景下的不同基准测试中再次斩获多项第一



MLPerf榜单成绩解读:首次以虚拟算力,大幅提升榜单算力性能


在MLPerf Inference v2.1全新的网络模式Inference-over-Network)榜单中,阿里云震旦异构计算平台联手灵骏智能计算,完成了MLPerf™首次、也是唯一的网络类提交,开创了MLPerf™一个新型基准测试的先河。震旦vODLA技术第一次以虚拟算力的方式,将MLPerf™榜单上的整体提交性能由当前最好的24卡GPU算力提升至32卡GPU算力,突破了系统级PCIe插槽和Pod网络链接数量的物理限制。本次提交的NLP模型BERT-99性能达到107060 QPS,创造了该类别基准测试的历史记录,充分体现了阿里云池化算力的可扩展性。震旦vODLA算力池用户的编程模型仍然保持和单机一致,无需感知多个计算节点及相应的分布式网络配置。


同时,在MLPerf Inference v2.1开放式数据中心/边缘场景榜单中,震旦异构计算平台继续其在架构感知模型优化(SinianML)的技术优势,实现从神经网络模型到加速器架构的全栈自动优化。SinianML 大幅压缩了机器学习模型计算量(FLOPS),并生成在运行时对计算更加友好的模型架构。此外,SinianML采用量化感知训练技术(quantization-aware training),将模型量化为‘int8’且模型准确度近乎无损,在推理过程中高效使能倚天710芯片的‘int8’指令,大幅加速模型推理性能。在基于倚天710的磐久服务器M系列上,震旦在数据中心和边缘侧都取得了令人满意的成果。在相同的模型准确度要求下,同一个模型采用震旦异构优化前后获得了约55倍的性能提升。



模型优化+算力池化  震旦不断深耕异构加速


震旦异构计算加速平台为阿里云数据中心、边缘计算和AIoT场景下各种机器学习算法、应用、和高性能计算提供统一的编译及软硬件协同优化;通过异构感知编译优化技术HALO(Heterogeneity Aware Lowering & Optimization),深度挖掘和释放异构设备加速性能;震旦异构计算统一接口规范ODLA(Open Deep Learning API),实现与各种加速硬件的高效集成和平滑迁移。此次榜单上的优异成绩和震旦vODLA池化技术及其架构感知模型优化技术的不断演进密不可分。


首先是不断演进的震旦模型优化器SinianML。震旦异构计算加速平台在异构、推理加速、模型优化和模型性能领域深耕多年,积累了业界领先的模型软硬结合优化的能力和丰富的业务落地经验。这也体现在本次v2.1震旦提交的ResNet50结果,在上一期v2.0的性能数据已领跑榜单的基础上,又更进一步,取得了额外1.6倍的性能提升。同时,震旦模型优化的能力已经工具化产品化沉淀为震旦模型优化工具SinianML,赋能更多的团队和业务场景。SinianML不仅在不同的开源模型数据集上取得了SOTA的模型优化结果,同时也在阿里巴巴内外部数十个业务场景中得到落地验证,优化成果显著。


1.png

图 | MLPerf Datacenter CPU推理性能数据


第二就是业界领先的震旦vODLA异构算力池化技术。震旦vODLA可将GPU、NPU等硬件资源统一池化,通过物理设备抽象化和虚拟化形成可扩展的硬件资源池,并依托虚拟算力的智能切分和调度,可为用户提供任意大小算力的单一抽象设备。震旦vODLA灵活的架构,不仅可以实现跨物理距离的池化运行,还可跨不同加速器架构和代次运行,打破单机PCIe插槽配比和网络交换机的物理限制,可以让CPU、GPU和NPU等硬件资源任意比例组合,解决了以往单机固定配比造成的资源碎片问题。


2.png

图 | MLPerf v2.1基准测试环境下的震旦 vODLA 软硬件系统架构


以本次MLPerf v2.1中32卡vODLA灵骏算力池的结果提交为例。在用户使用体验方面,震旦vODLA在ODLA统一API的基础上,增加算力虚拟功能,vODLA将物理设备虚拟化成vXPU,可以在灵骏算力池的任意位置访问,在单机看到32卡GPU算力虚拟设备vXPU,用户面向vXPU编程,编程体验与本地GPU一致,无需感知复杂的网络通信,从而大大的简化用户使用多机扩展的能力。


另外,MLPerf测试框架中的SUT和LoadGen完全复用GPU厂家的单机代码,面向vXPU编程后,无需修改代码既可完成1-N的GPU卡扩展。正是因为借助震旦vODLA技术,用户无需面向多机进行网路编程和配置复杂网络参数,同时代码还可以在不同的GPU代次之间平滑迁移等等。震旦 vODLA让多机多卡的扩展更简单,以算力为对象任意弹性扩缩。


随着超大ML模型的兴起,单模型推理通常在单卡加速器以及单机无法处理,必须要考虑扩展性。算力扩展通常只有两种方式:


单机扩展卡Scalup:即通过增加单机的卡数。但是由于单机硬件和功耗限制,无法实现无限的扩展。目前业界单机实现了最多 24卡加速器。


多机Scaleout:通过分布式的方式扩展卡数,但是涉及分布式通信以及网络编程和多层软件栈协同等复杂的技术,会大大增加应用编程、优化和维护的难度。


震旦vODLA算力池化技术,首次提出算力虚拟的概念,通过vXPU虚拟化、智能算力切分和调度,让用户享受单机Scaleup的体验,却无需感知复杂的网络配置和运维。相比传统的Scaleup方式,单机通过PCIe互联扩展卡数,会导致单机能耗、散热和运维监控等复杂度增加,可靠性降低,从而导致整机成本高昂。所以目前市面上单机主流为8卡的GPU机型,vODLA灵骏算力池基于标准的磐久服务器,和灵骏高性能网络可实现8卡或更灵活的多加速卡互联。


3-修改.png

图 | SINIAN vODLA扩展能力对比


在本次MLPerf提交结果中,震旦vODLA的Scalup效率与其它厂商单机24卡相比,无论是绝对性能和扩展性能,震旦vODLA算力池的扩展性相比PCIe模式的效果更好。而且从性价比和灵活性上,震旦vODLA算力池可动态的按需扩展,这是单机PCIe插槽方式无法比拟的。


随着GPU架构按几乎每年一代的速度不断更新迭代,数据中心集群中通常会存在多种代次和型号的GPU。相比CPU而言,GPU的不同代次一般难以复用,所以AI模型难以像CPU一样,一套代码或者二进制程序跨不同代次的GPU运行,导致数据中心中老的GPU卡闲置,从而导致整体集群的利用率低。震旦vODLA算力池技术,可以支持统一模型跨不同代次的GPU运行。本次提交的结果显示,vODLA以vXPU 算力的方式支持不同GPU型号的混合推理,算力由2.6Pflops – 9.8Pflops弹性扩展。而且无论算力如何变化,用户看到的始终是vXPU虚拟设备,无需多机多卡的编程。



震旦vODLA应用场景


震旦vODLA算力池化技术,不仅打破了物理机型的容量限制,也打破单一芯片的能力限制,能够极大的提升AI集群的利用率,适用于计算需求日益增长的多种AI计算场景:


训推一体化混部当前大规模训练通常需要单机8卡的GPU服务器,但是推理上则基本使用单机单卡或者2卡。vODLA通过池化,基于训练服务器虚拟多种规格的推理服务器,无需重复构建推理集群,如:自动驾驶等


稀疏和密集计算混部:  稀疏计算(如搜索推荐类)通常为单机单卡的GPU,密集计算(如CV类/NLP 类)单机8卡,两种计算难以统一。vODLA算力池化可以统一算力硬件,满足多种计算类型。如:互联网搜索。


多芯混部:随着GPU的迭代升级和AI专用芯片的蓬勃发展,集群中AI芯片型号多样化趋势不可避免。通过vODLA算力虚拟, 实现面向vXPU编程,从而快速使能AI应用跨异构硬件平滑的运行。


震旦异构计算加速平台的进化和未来


随着企业智能化转型深入,AI算力需求越来越多,AI算力的高成本已成为制约算力发展的主要因素,阿里云秉承助力企业智能化转型,通过技术创新为客户带来更普惠的AI算力,让AI算力真正像水电一样可获得,震旦异构计算加速平台以此为目标,不断通过技术创新推动AI简单和普惠化。


震旦异构计算加速平台通过三个方向朝着AI算力普惠的目标迈进:首先是从编译层面通过软硬协同性能优化,做到同等芯片算力的QPS最高;然后是往下深挖硬件性能,通过软硬件协同设计自研芯片,直接降低单位QPS成本;最后是向上的规模化Scaleup能力,通过软硬件融合的算力池,在做到同等集群QPS最高的同时,让AI算力在任意地方和任意硬件上保持一致的编程体验。最终形成从芯片,虚拟化到AI加速等各层面的紧密协同,深度融合的AI算力平台。


此外,随着超大算力对于芯片性能(包括计算、互联和存储)的需求持续上升,通过Chiplet技术和先进封装技术来提升芯片和系统性能的做法已成为业内共识。震旦异构计算加速平台因其可裁剪可扩展的轻量级接口、极简的内存足迹和内禀的异构并行支持,非常适宜作为Chiplet小芯片异构加速系统的软硬协同计算平台,阿里巴巴最近以创始成员身份加入UCIe联盟就是最好的印证。未来,震旦异构计算加速平台将携手灵骏智能计算产品一起,让AI算力变得更简单、更易用、更普惠。


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
2月前
|
关系型数据库 分布式数据库 数据库
阿里云PolarDB登顶2024中国数据库流行榜:技术实力与开发者影响力
近日,阿里云旗下的自研云原生数据库PolarDB在2024年中国数据库流行度排行榜中夺冠,并刷新了榜单总分纪录,这一成就引起了技术圈的广泛关注。这一成就源于PolarDB在数据库技术上的突破与创新,以及对开发者和用户的实际需求的深入了解体会。那么本文就来分享一下关于数据库流行度排行榜的影响力以及对数据库选型的影响,讨论PolarDB登顶的关键因素,以及PolarDB“三层分离”新版本对开发者使用数据库的影响。
74 3
阿里云PolarDB登顶2024中国数据库流行榜:技术实力与开发者影响力
|
2月前
|
人工智能 监控 Cloud Native
阿里云参编业内首个代码大模型标准丨云原生 2024 年 1 月产品技术动态
阿里云参编业内首个代码大模型标准丨云原生 2024 年 1 月产品技术动态
|
27天前
|
弹性计算 网络协议 关系型数据库
网络技术基础阿里云实验——企业级云上网络构建实践
实验地址:<https://developer.aliyun.com/adc/scenario/65e54c7876324bbe9e1fb18665719179> 本文档指导在阿里云上构建跨地域的网络环境,涉及杭州和北京两个地域。任务包括创建VPC、交换机、ECS实例,配置VPC对等连接,以及设置安全组和网络ACL规则以实现特定服务间的互访。例如,允许北京的研发服务器ECS-DEV访问杭州的文件服务器ECS-FS的SSH服务,ECS-FS访问ECS-WEB01的SSH服务,ECS-WEB01访问ECS-DB01的MySQL服务,并确保ECS-WEB03对外提供HTTP服务。
|
27天前
|
供应链 安全 专有云
阿里云通过信通院面向一云多芯的专有云技术能力评测
近日,阿里云飞天企业版通过中国信息通信研究院2023年度《面向一云多芯的专有云技术能力要求》,在异构兼容能力、专有云基础能力、迁移适配能力三个方面,再一次验证了阿里云专有云一云多芯领先的技术能力。
|
1月前
|
数据采集 SQL 自然语言处理
阿里云OpenSearch RAG混合检索Embedding模型荣获C-MTEB榜单第一
阿里云OpenSearch引擎通过Dense和Sparse混合检索技术,在中文Embedding模型C-MTEB榜单上拿到第一名,超越Baichuan和众多开源模型,尤其在Retrieval任务上大幅提升。
371 3
|
1月前
|
弹性计算 缓存 数据库
2核4G服务器优惠价格,阿里云降价了,释放技术红利
2核4G服务器优惠价格,阿里云降价了,释放技术红利,2核4G配置1个月多少钱?2核4G服务器30元3个月、轻量应用服务器2核4G4M带宽165元一年、企业用户2核4G5M带宽199元一年
|
1月前
|
弹性计算 NoSQL 关系型数据库
还得是阿里云,在2024如此艰难的一年,百款产品直降,技术更优,规模更大,节省更多
还得是阿里云,在2024如此艰难的一年,百款产品直降,技术更优,规模更大,节省更多
|
1月前
|
弹性计算 NoSQL 关系型数据库
2024年将是最艰难的一年?不怕,阿里云带头降价,与百万客户共享技术红利!
2024年将是最艰难的一年?不怕,阿里云带头降价,与百万客户共享技术红利!
|
1月前
|
弹性计算 NoSQL 关系型数据库
阿里云降价:与百万全球客户共享阿里云15年技术突破与规模积累
阿里云降价:与百万全球客户共享阿里云15年技术突破与规模积累
|
1月前
|
弹性计算 NoSQL 关系型数据库
良心企业阿里云,释放技术红利,与百万全球客户共享阿里云15年技术突破与规模积累
良心企业阿里云,释放技术红利,与百万全球客户共享阿里云15年技术突破与规模积累,百款产品直降,平均降幅20%,阿里云希望通过此次大规模降价,让更多企业和开发者用上先进的公共云服务,加速云计算在中国各行各业的普及和发展。这次降价包括云服务器ECS、对象存储OSS、云数据库都降价了,真降价,直降价:百款产品直降,平均降幅20%,阿里云百科分享阿里云2024年降价信息汇总表