CPU推理性能优化再上新台阶 阿里云斩获MLPerf最新榜单多项第一

简介: CPU推理性能优化再上新台阶,阿里云斩获MLPerf2022榜单多项第一

首图-图标.png

【阅读原文】戳:CPU推理性能优化再上新台阶 阿里云斩获MLPerf最新榜单多项第一


近日,全球权威AI基准评测组织MLCommons公布了最新一期推理性能榜单,阿里云震旦异构计算加速平台以其稳定、强大的软硬协同优化能力,结合磐久服务器M系列自研芯片和整体系统的领先性、RISC-V玄铁C906处理器功耗和指令集上的优势,分别在数据中心边缘计算和IoT领域的多项测试场景中获得最高分,其中阿里云磐久服务器M系列获得CPU领域提交数据性能第一,再次证明了在AI算力需求爆发增长时代下,软硬协同优化带来的业务价值,以及震旦平台优异的算力优化能力。

新-内页说明介绍组织.png


MLPerf是目前全球最具影响力的国际AI性能基准测试,用于测试机器学习模型和相应的软硬件系统协同工作性能,为行业从业人员衡量系统性能提供详细的数据参考。

●  2018年首次发布测试性能榜单之后,迅速得到了各大厂商、科研机构和高校的支持和参与。

●  2020年12月,开发MLPerf的各大厂商宣布成立非盈利组织MLCommons,每年交叉发布2次MLPerf™训练性能和2次MLPerf™推理性能榜单。

作为一个开源且基于同行相互审核的基准测试平台,MLPerf™为业界提供了一个公平公正的竞争平台。


2021年9月,阿里云震旦异构平台荣获MLPerf™推理V1.1边缘计算场景冠军,相比六个月前发布的推理性能V1.1榜单,此次V2.0榜单提交数据量呈现了40%以上的增长,其中部分系统依靠模型优化技术甚至达到了近倍性能提升,证明了软件栈优化在AI算力优化领域的巨大潜力


开放式全栈优化  数据中心边缘计算领域再续辉煌


近年来,各大厂商和机构性能数据提交竞争最激烈的是数据中心和边缘计算场景,其中封闭组对优化手段有明确限制,只能基于少数硬件平台提交数据,因此各家成绩差距不大,这就导致在开放规则组里的竞争异常激烈,包括阿里云在内的多家公司在模型优化方面展开竞争。

1.png

基于搭载自研ARM架构处理器的磐久服务器M系列,阿里云震旦异构计算加速平台利用模型优化工具SinianML进行了针对图像分类的神经网络架构搜索(Neural Architecture Search)和模型压缩,并通过震旦算子Autotune能力得到适配ARM架构处理器的最佳算子实现,在保证达到基准测试精度目标同时,能得到远高于标准ResNet50 v1.5的计算效率。

此外,震旦平台进行了多层次算子融合并对ARM架构处理器优化,从而大大提高了CPU算力利用率。依靠软硬协同优化,阿里云磐久服务器M系列成为MLPerf有史以来首个获得CPU Only推理性能第一的服务器,且单颗芯片的总体性能在数据中心和边缘侧均是第一。


端到端联合优化 IoT领域RISC-V处理器崭露头角


Tiny场景是MLPerf近年新增的性能测试分类,有别于Datacenter等大规模、高算力的情景,Tiny聚焦于低功耗、高性价比的IoT场景,用于展示各厂商在日益广泛的IoT智能应用场景下的软硬件性能和优化能力。在此次公布的MLPerf Tiny 0.7性能数据榜单中,震旦异构计算加速平台结合平头哥自研RISC-V玄铁C906处理器在MLPerf Tiny所有4项Benchmark上的CPU性能数据均是第一并大幅领先第二名

2.png

在MLPerf Tiny 0.7榜单上提交的性能数据是阿里巴巴不同业务软硬件综合优化的结果。硬件方面,平头哥自研RISC-V玄铁C906处理器和工具链提供了强大的硬实力;软件层面,阿里云震旦异构计算加速平台SinianML对各个benchmark的神经网络进行了压缩、蒸馏、伸缩、网络结构搜索等多方位的优化,在满足模型精度要求的同时,得到了远高于标准模型的计算效率,同时集成阿里IoT、蚂蚁IoT、达摩院语音实验室在各自领域的优化经验和能力,在细分领域进一步拓展优化。

今天,MLPerf™ 测试标准俨然已成为业界最权威的机器学习测试标准。在数据中心和边缘计算场景,提交的数据点成倍数增加;Tiny作为MLPerf的一个重要应用场景,补充完善了MLPerf在IoT场景性能测试的空缺,为IoT领域的AI应用提供了软件和硬件性能标杆。从参与者角度看,随着硬件性能红利不断逼近极限,越来越多的参与者正尝试通过优化模型和底层软件来达到更极致的推理速度。

阿里巴巴副总裁、阿里云基础设施负责人周明表示:

随着越来越多的业务迁移到阿里云,不同的业务特征对数据中心的计算资源造成越来越大的压力。高效挖掘计算效率,不仅能大幅降低数据中心资源和运行的开销,同时对阿里云碳中和目标也有很大的推动作用。阿里云震旦异构计算加速平台的软硬一体、全栈式深度优化将为当前数据中心的AI计算效率瓶颈找到一个重要突破口

作为MLCommons的创始会员,阿里云一直积极参与MLPerf性能测试数据的提交,并在此过程中不断总结和优化震旦异构计算加速平台。震旦异构计算加速平台已在阿里巴巴双11搜索推荐、菜鸟驿站、天猫精灵等云、边、端场景中应用,助力业务实现了数倍的效能和性价比提升

创立造为难悉数,新路苍海通方蓬!在日趋丰富的AI终端应用场景驱动下,阿里云震旦异构计算加速平台坚持软硬协同,不断推动技术创新,为云计算、人工智能和物联网打造了一个更加先进的算力基础设施!未来,平台还将通过阿里云对外提供产品和服务能力,赋能行业伙伴,为上层生态平台构建一个统一的算力资源池,优化终端应用场景的算力效率!



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~ 

相关文章
|
24天前
|
存储 SQL BI
毫秒级查询性能优化实践!基于阿里云数据库 SelectDB 版内核:Apache Doris 在极越汽车数字化运营和营销方向的解决方案
毫秒级查询性能优化实践!基于阿里云数据库 SelectDB 版内核:Apache Doris 在极越汽车数字化运营和营销方向的解决方案
毫秒级查询性能优化实践!基于阿里云数据库 SelectDB 版内核:Apache Doris 在极越汽车数字化运营和营销方向的解决方案
|
2月前
|
存储 固态存储 安全
阿里云4核CPU云服务器价格参考,最新收费标准和活动价格
阿里云4核CPU云服务器多少钱?阿里云服务器核数是指虚拟出来的CPU处理器的核心数量,准确来讲应该是vCPU。CPU核心数的大小代表了云服务器的运算能力,CPU越高,云服务器的性能越好。阿里云服务器1核CPU就是一个超线程,2核CPU2个超线程,4核CPU4个超线程,这样云服务器可以同时处理多个任务,计算性能更强。如果网站流程较小,少量图片展示的企业网站,建议选择2核及以上CPU;如果网站流量较大,动态页面比较多,有视频等,建议选择4核、8核以上CPU。
阿里云4核CPU云服务器价格参考,最新收费标准和活动价格
|
2月前
|
存储 弹性计算 监控
【阿里云弹性计算】阿里云 ECS 性能优化秘籍:提升应用响应速度与资源利用率
【5月更文挑战第22天】阿里云ECS优化涉及实例规格选择、OS与应用配置、网络配置、存储优化及数据库连接池管理。合理挑选CPU和内存,关闭无关服务,利用EIP和负载均衡优化网络,选择合适存储类型,并通过监控工具进行性能分析和压力测试,以提升响应速度,优化资源利用率,降低成本,增强企业竞争力。示例展示了Java数据库连接池配置优化。通过持续探索和实践,可最大化发挥ECS潜力。
106 7
|
2月前
|
监控 Cloud Native 数据库
【阿里云云原生专栏】性能优化之道:阿里云云原生平台上的监控与调优策略
【5月更文挑战第22天】本文介绍了阿里云云原生平台的监控与调优策略。阿里云提供如CloudMonitor、ARMS和ACK监控等工具,用于基础和应用监控,以及容器监控。调优策略包括资源、代码和架构优化,例如根据监控数据调整资源配置,优化代码性能,和利用微服务、容器化和无服务器化改进架构。示例代码展示了如何进行监控和调优操作,强调实时监控与针对性调优对提升云原生应用性能的重要性。
232 1
|
23天前
|
机器学习/深度学习 算法 开发工具
【YOLOv8量化】普通CPU上加速推理可达100+FPS
【YOLOv8量化】普通CPU上加速推理可达100+FPS
113 0
|
6天前
|
分布式计算 算法 Java
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
|
2月前
|
存储 弹性计算 缓存
阿里云2核CPU云服务器租用收费标准与活动价格参考
阿里云2核CPU云服务器多少钱?阿里云服务器核数是指虚拟出来的CPU处理器的核心数量,准确来讲应该是vCPU。CPU核心数的大小代表了云服务器的运算能力,CPU越高,云服务器的性能越好。阿里云服务器1核CPU就是一个超线程,2核CPU2个超线程,4核CPU4个超线程,这样云服务器可以同时处理多个任务,计算性能更强。如果网站流程较小,少量图片展示的企业网站,建议选择2核及以上CPU;如果网站流量较大,动态页面比较多,有视频等,建议选择4核、8核以上CPU。
阿里云2核CPU云服务器租用收费标准与活动价格参考
|
2月前
|
存储 弹性计算 监控
【阿里云弹性计算】深入阿里云ECS配置选择:CPU、内存与存储的最优搭配策略
【5月更文挑战第20天】阿里云ECS提供多种实例类型满足不同需求,如通用型、计算型、内存型等。选择CPU时,通用应用可选1-2核,计算密集型应用推荐4核以上。内存选择要考虑应用类型,内存密集型至少4GB起。存储方面,系统盘和数据盘容量依据应用和数据量决定,高性能应用可选SSD或高效云盘。结合业务特点和预算制定配置方案,并通过监控应用性能适时调整,确保资源最优利用。示例代码展示了使用阿里云CLI创建ECS实例的过程。
113 5
|
2月前
|
测试技术 PyTorch 算法框架/工具
魔搭开源推理引擎 DashInfer,助力CPU服务器解锁大模型超强推理
ModelScope推出了预训练大语言模型(LLM)推理引擎DashInfer,采用C++ Runtime编写,提供C++和Python语言接口,具有生产级别的高性能表现,适用于多种CPU架构,包括x86和ARMv9。DashInfer支持连续批处理(Continuous Batching)和多NUMA推理(NUMA-Aware),能够充分利用服务器级CPU的算力,为推理14B及以下的LLM模型提供更多的硬件选择。该项工作已开源。
|
2月前
|
SQL 关系型数据库 数据库
阿里云数据库 RDS SQL Server版实战【性能优化实践、优点探析】
本文探讨了Amazon RDS SQL Server版在云数据库中的优势,包括高可用性、可扩展性、管理便捷、安全性和成本效益。通过多可用区部署和自动备份,RDS确保数据安全和持久性,并支持自动扩展以适应流量波动。可视化管理界面简化了监控和操作,而数据加密和访问控制等功能保障了安全性。此外,弹性计费模式降低了运维成本。实战应用显示,RDS SQL Server版能有效助力企业在促销高峰期稳定系统并保障数据安全。阿里云的RDS SQL Server版还提供了弹性伸缩、自动备份恢复、安全性和高可用性功能,进一步优化性能和成本控制,并与AWS生态系统无缝集成,支持多种开发语言和框架。
177 2

热门文章

最新文章