MLPerf™最新推理榜单阿里云斩获多项第一 震旦vODLA算力池技术崭露头角

简介: 首次以虚拟算力,大幅提升榜单算力性能

首图-图标.png

【阅读原文】戳:MLPerf™最新推理榜单阿里云斩获多项第一  震旦vODLA算力池技术崭露头角


近日,全球权威AI基准评测组织MLCommons公布了最新一期MLPerf™ v2.1推理性能榜单。阿里云震旦异构计算加速平台以其独特的异构算力池化能力和稳定强大的软硬协同,携手智能计算灵骏,在数据中心、边缘计算和网络Inference-over-Network等多场景下的不同基准测试中再次斩获多项第一



MLPerf榜单成绩解读:首次以虚拟算力,大幅提升榜单算力性能


在MLPerf Inference v2.1全新的网络模式Inference-over-Network)榜单中,阿里云震旦异构计算平台联手灵骏智能计算,完成了MLPerf™首次、也是唯一的网络类提交,开创了MLPerf™一个新型基准测试的先河。震旦vODLA技术第一次以虚拟算力的方式,将MLPerf™榜单上的整体提交性能由当前最好的24卡GPU算力提升至32卡GPU算力,突破了系统级PCIe插槽和Pod网络链接数量的物理限制。本次提交的NLP模型BERT-99性能达到107060 QPS,创造了该类别基准测试的历史记录,充分体现了阿里云池化算力的可扩展性。震旦vODLA算力池用户的编程模型仍然保持和单机一致,无需感知多个计算节点及相应的分布式网络配置。


同时,在MLPerf Inference v2.1开放式数据中心/边缘场景榜单中,震旦异构计算平台继续其在架构感知模型优化(SinianML)的技术优势,实现从神经网络模型到加速器架构的全栈自动优化。SinianML 大幅压缩了机器学习模型计算量(FLOPS),并生成在运行时对计算更加友好的模型架构。此外,SinianML采用量化感知训练技术(quantization-aware training),将模型量化为‘int8’且模型准确度近乎无损,在推理过程中高效使能倚天710芯片的‘int8’指令,大幅加速模型推理性能。在基于倚天710的磐久服务器M系列上,震旦在数据中心和边缘侧都取得了令人满意的成果。在相同的模型准确度要求下,同一个模型采用震旦异构优化前后获得了约55倍的性能提升。



模型优化+算力池化  震旦不断深耕异构加速


震旦异构计算加速平台为阿里云数据中心、边缘计算和AIoT场景下各种机器学习算法、应用、和高性能计算提供统一的编译及软硬件协同优化;通过异构感知编译优化技术HALO(Heterogeneity Aware Lowering & Optimization),深度挖掘和释放异构设备加速性能;震旦异构计算统一接口规范ODLA(Open Deep Learning API),实现与各种加速硬件的高效集成和平滑迁移。此次榜单上的优异成绩和震旦vODLA池化技术及其架构感知模型优化技术的不断演进密不可分。


首先是不断演进的震旦模型优化器SinianML。震旦异构计算加速平台在异构、推理加速、模型优化和模型性能领域深耕多年,积累了业界领先的模型软硬结合优化的能力和丰富的业务落地经验。这也体现在本次v2.1震旦提交的ResNet50结果,在上一期v2.0的性能数据已领跑榜单的基础上,又更进一步,取得了额外1.6倍的性能提升。同时,震旦模型优化的能力已经工具化产品化沉淀为震旦模型优化工具SinianML,赋能更多的团队和业务场景。SinianML不仅在不同的开源模型数据集上取得了SOTA的模型优化结果,同时也在阿里巴巴内外部数十个业务场景中得到落地验证,优化成果显著。


1.png

图 | MLPerf Datacenter CPU推理性能数据


第二就是业界领先的震旦vODLA异构算力池化技术。震旦vODLA可将GPU、NPU等硬件资源统一池化,通过物理设备抽象化和虚拟化形成可扩展的硬件资源池,并依托虚拟算力的智能切分和调度,可为用户提供任意大小算力的单一抽象设备。震旦vODLA灵活的架构,不仅可以实现跨物理距离的池化运行,还可跨不同加速器架构和代次运行,打破单机PCIe插槽配比和网络交换机的物理限制,可以让CPU、GPU和NPU等硬件资源任意比例组合,解决了以往单机固定配比造成的资源碎片问题。


2.png

图 | MLPerf v2.1基准测试环境下的震旦 vODLA 软硬件系统架构


以本次MLPerf v2.1中32卡vODLA灵骏算力池的结果提交为例。在用户使用体验方面,震旦vODLA在ODLA统一API的基础上,增加算力虚拟功能,vODLA将物理设备虚拟化成vXPU,可以在灵骏算力池的任意位置访问,在单机看到32卡GPU算力虚拟设备vXPU,用户面向vXPU编程,编程体验与本地GPU一致,无需感知复杂的网络通信,从而大大的简化用户使用多机扩展的能力。


另外,MLPerf测试框架中的SUT和LoadGen完全复用GPU厂家的单机代码,面向vXPU编程后,无需修改代码既可完成1-N的GPU卡扩展。正是因为借助震旦vODLA技术,用户无需面向多机进行网路编程和配置复杂网络参数,同时代码还可以在不同的GPU代次之间平滑迁移等等。震旦 vODLA让多机多卡的扩展更简单,以算力为对象任意弹性扩缩。


随着超大ML模型的兴起,单模型推理通常在单卡加速器以及单机无法处理,必须要考虑扩展性。算力扩展通常只有两种方式:


单机扩展卡Scalup:即通过增加单机的卡数。但是由于单机硬件和功耗限制,无法实现无限的扩展。目前业界单机实现了最多 24卡加速器。


多机Scaleout:通过分布式的方式扩展卡数,但是涉及分布式通信以及网络编程和多层软件栈协同等复杂的技术,会大大增加应用编程、优化和维护的难度。


震旦vODLA算力池化技术,首次提出算力虚拟的概念,通过vXPU虚拟化、智能算力切分和调度,让用户享受单机Scaleup的体验,却无需感知复杂的网络配置和运维。相比传统的Scaleup方式,单机通过PCIe互联扩展卡数,会导致单机能耗、散热和运维监控等复杂度增加,可靠性降低,从而导致整机成本高昂。所以目前市面上单机主流为8卡的GPU机型,vODLA灵骏算力池基于标准的磐久服务器,和灵骏高性能网络可实现8卡或更灵活的多加速卡互联。


3-修改.png

图 | SINIAN vODLA扩展能力对比


在本次MLPerf提交结果中,震旦vODLA的Scalup效率与其它厂商单机24卡相比,无论是绝对性能和扩展性能,震旦vODLA算力池的扩展性相比PCIe模式的效果更好。而且从性价比和灵活性上,震旦vODLA算力池可动态的按需扩展,这是单机PCIe插槽方式无法比拟的。


随着GPU架构按几乎每年一代的速度不断更新迭代,数据中心集群中通常会存在多种代次和型号的GPU。相比CPU而言,GPU的不同代次一般难以复用,所以AI模型难以像CPU一样,一套代码或者二进制程序跨不同代次的GPU运行,导致数据中心中老的GPU卡闲置,从而导致整体集群的利用率低。震旦vODLA算力池技术,可以支持统一模型跨不同代次的GPU运行。本次提交的结果显示,vODLA以vXPU 算力的方式支持不同GPU型号的混合推理,算力由2.6Pflops – 9.8Pflops弹性扩展。而且无论算力如何变化,用户看到的始终是vXPU虚拟设备,无需多机多卡的编程。



震旦vODLA应用场景


震旦vODLA算力池化技术,不仅打破了物理机型的容量限制,也打破单一芯片的能力限制,能够极大的提升AI集群的利用率,适用于计算需求日益增长的多种AI计算场景:


训推一体化混部当前大规模训练通常需要单机8卡的GPU服务器,但是推理上则基本使用单机单卡或者2卡。vODLA通过池化,基于训练服务器虚拟多种规格的推理服务器,无需重复构建推理集群,如:自动驾驶等


稀疏和密集计算混部:  稀疏计算(如搜索推荐类)通常为单机单卡的GPU,密集计算(如CV类/NLP 类)单机8卡,两种计算难以统一。vODLA算力池化可以统一算力硬件,满足多种计算类型。如:互联网搜索。


多芯混部:随着GPU的迭代升级和AI专用芯片的蓬勃发展,集群中AI芯片型号多样化趋势不可避免。通过vODLA算力虚拟, 实现面向vXPU编程,从而快速使能AI应用跨异构硬件平滑的运行。


震旦异构计算加速平台的进化和未来


随着企业智能化转型深入,AI算力需求越来越多,AI算力的高成本已成为制约算力发展的主要因素,阿里云秉承助力企业智能化转型,通过技术创新为客户带来更普惠的AI算力,让AI算力真正像水电一样可获得,震旦异构计算加速平台以此为目标,不断通过技术创新推动AI简单和普惠化。


震旦异构计算加速平台通过三个方向朝着AI算力普惠的目标迈进:首先是从编译层面通过软硬协同性能优化,做到同等芯片算力的QPS最高;然后是往下深挖硬件性能,通过软硬件协同设计自研芯片,直接降低单位QPS成本;最后是向上的规模化Scaleup能力,通过软硬件融合的算力池,在做到同等集群QPS最高的同时,让AI算力在任意地方和任意硬件上保持一致的编程体验。最终形成从芯片,虚拟化到AI加速等各层面的紧密协同,深度融合的AI算力平台。


此外,随着超大算力对于芯片性能(包括计算、互联和存储)的需求持续上升,通过Chiplet技术和先进封装技术来提升芯片和系统性能的做法已成为业内共识。震旦异构计算加速平台因其可裁剪可扩展的轻量级接口、极简的内存足迹和内禀的异构并行支持,非常适宜作为Chiplet小芯片异构加速系统的软硬协同计算平台,阿里巴巴最近以创始成员身份加入UCIe联盟就是最好的印证。未来,震旦异构计算加速平台将携手灵骏智能计算产品一起,让AI算力变得更简单、更易用、更普惠。


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
5月前
|
人工智能 文字识别 测试技术
AI创企深度求索推出DeepSeek-VL系列大模型
【2月更文挑战第24天】AI创企深度求索推出DeepSeek-VL系列大模型
238 1
AI创企深度求索推出DeepSeek-VL系列大模型
|
5月前
|
人工智能 数据中心 芯片
液冷是大模型对算力需求的必然选择?|英伟达 GTC 2024六大亮点
在这个以高性能计算和大模型推动未来通用人工智能时代,算力已成为科技发展的隐形支柱。本文将重点探讨算力的演进,深入分析在不同领域中算力如何成为推动进步的基石;着眼于液冷如何突破算力瓶颈成为引领未来的先锋,对液冷散热的三种方式(冷板式、浸没式和喷淋式)做了详细的对比分析、成本测算和市场空间预测。并为您提供一份“实用教程”,指导如何将普通服务器改装为液冷服务器,以应对越来越复杂的计算需求。
|
5月前
|
人工智能 自然语言处理 开发者
Stability AI & VAST 强强联手推出开源单图生成3D模型TripoSR
【2月更文挑战第15天】Stability AI & VAST 强强联手推出开源单图生成3D模型TripoSR
105 1
Stability AI & VAST 强强联手推出开源单图生成3D模型TripoSR
|
机器学习/深度学习 人工智能 自然语言处理
登顶全球最权威AI性能基准评测,百度飞桨给分布式训练创造了标杆
登顶全球最权威AI性能基准评测,百度飞桨给分布式训练创造了标杆
221 0
登顶全球最权威AI性能基准评测,百度飞桨给分布式训练创造了标杆
|
机器学习/深度学习 人工智能 自然语言处理
阿里云语言AI连续四年市占率保持第一,大模型利好AI公有云服务
近日,国际数据公司(IDC)发布2022年中国AI公有云服务市场份额报告,阿里云语言AI市场份额连续四年排名第一,领跑中国市场。语言AI服务由对话式AI、智能语音、自然语言处理(NLP)三大细分市场构成。
|
人工智能 边缘计算 算法
MLPerf最新榜单:阿里AI算力获多项第一
MLPerf最新榜单:阿里AI算力获多项第一
300 0
|
人工智能 自然语言处理 算法
因果推理效果比肩ChatGPT,封神榜推出燃灯模型
因果推理效果比肩ChatGPT,封神榜推出燃灯模型
227 0
|
机器学习/深度学习 人工智能
提速1200倍!MIT开发新一代药物研发AI,吊打老模型
提速1200倍!MIT开发新一代药物研发AI,吊打老模型
212 0
|
人工智能 Rust 自然语言处理
7月最受欢迎AI研究榜单出炉,马毅最新「标准模型」排名第9
7月最受欢迎AI研究榜单出炉,马毅最新「标准模型」排名第9
310 0
|
人工智能 边缘计算 达摩院
权威 AI 测试 MLPerf 公布最新榜单:阿里巴巴拿下多项算力第一
4 月 7 日,权威 AI 基准评测组织 MLPerf 公布了最新一期推理性能榜单。MLPerf 由图灵奖得主 David Patterson 于 2018 年发起,每年组织全球 AI 训练和 AI 推理性能测试并发榜,已成为业界最主流标准之一。
383 0
权威 AI 测试 MLPerf 公布最新榜单:阿里巴巴拿下多项算力第一