每秒处理107万张图片!阿里云打破MLPerf推理性能测试纪录

本文涉及的产品
性能测试 PTS,5000VUM额度
简介: 阿里云震旦异构计算加速平台全栈优化技术获历史性突破,MLPerf图像分类场景性能测试夺得多项第一。
来源 | 阿里云基础设施微信公众号

640 (1).gif

阿里云打破MLPerf推理性能测试绝对性能纪录

● 阿里云震旦异构计算加速平台全栈优化技术获历史性突破,MLPerf图像分类场景性能测试夺得多项第一。

● 每秒处理107万张图片,基于GPU系统第一次超越百万级性能纪录。

● 应用阿里电商场景,图片关联产品推荐速度提升5倍,用户购物体验更加流畅。

2021年4月21日,MLCommons™发布MLPerf ™1.0版推理性能测试结果。阿里云服务器研发团队基于震旦异构计算加速平台的软硬件全栈优化技术获得历史性突破!在MLPerf图像分类(Image Classification)性能测试分类中取得多项第一,特别是在离线场景(Offline Scenario) 性能测试中,基于8张NVIDIA A100 GPU通过开放优化规则取得了每秒处理107.8万张图片的惊人成绩,超越了V0.5版本中由128张Google TPU V3在该测试中通过封闭优化规则取得的每秒处理103.9万张图片的最好结果,一举拿下了绝对性能纪录的宝座,这也是通用GPU计算平台首次超越百万级的性能纪录。

image.png

这将进一步提升图像识别、自动驾驶等场景下的计算效率,比如在阿里电商某场景下,基于相同GPU硬件采用编译自动优化技术后,自动分类标记产品图像或者搜索图像效率大幅提升,服务器数量减少75%,通过图片关联的产品推荐速度提升5倍,用户购物体验更加流畅。

MLPerf™是目前全球最权威的AI基准测试之一,在2018年发布V0.5测试结果之后,迅速得到了各大厂商、科研机构和高校支持和参与。图像分类是AI领域最为热门的应用领域之一,图像分类性能测试是MLPerf™推理性能创始测试之一,且每一版、每个参与者都会提交该测试的离线场景测试结果,竞争之激烈,称之为MLPerf™测试皇冠上的明珠并不为过。

震旦平台MLPerf推理性能结果1.0版成绩

震旦是阿里云自研的异构计算加速平台,适配GPU、ASIC等多种异构AI芯片,优化编译代码,深挖和释放异构芯片算力,支持TensorFlow、Caffe、PAI等多种深度学习框架,可实现AI框架及算法的无缝迁移适配,支持云变端多场景快速部署,大幅提升AI应用开发效率。在MLPerf最新版的图像分类测试中,震旦平台针对图像分类神经网络架构进行自动优化,在保证基准测试精度目标的同时,远超标准ResNet50 v1.5的计算效率。

在公布的MLPerf推理性能测试结果1.0版中,除了在8卡GPU配置上性能夺魁,阿里云还在A100、主流推理GPU T4,以及刚刚官宣的下一代推理GPU A10的单卡性能结果也都获得了第一,且成绩大幅领先第二名。

image.png

◆ 在A100上,阿里云第一个超越了单卡10万量级,达到了136142 IPS(Image Per Second),是本次提交其它厂商最佳成绩的1.84倍;

◆ 在A10上,阿里云的性能达到了69514 IPS,是本次提交其它厂商最佳成绩的3.61倍;

◆ 在T4上,本次其他厂商成绩未超越0.7版的最佳,而阿里云的结果达到了30414 IPS,是0.7版最佳的2.34倍。

值得一提的是,震旦异构计算加速平台针对机器学习模型的自动优化技术,能做到对GPU架构的通用支持,仅需要非常少的人工便可高效利用新一代的GPU架构。我们利用官宣刚发布的单张A10 GPU,系统性能能够达到单张A100 GPU的系统性能的50%以上,而其他厂商仅能达到三分之一左右。

基于深度软硬件全栈优化的解读

震旦异构计算加速平台之所以在此次评测中取得如此优异成绩,得益于其出色的软硬件全栈优化能力,首先在顶层算法模型上,使用基于自动机器学习(AutoML)的模型设计方式,这种方式可以获得比人工设计更高效的模型。震旦基于MIT的先进的神经网络架构搜索算法Once-For-All,使用了基于强化学习的自研搜索算法获得了高性能子网络;之后通过INT8量化获得硬件加速继续提高性能,并在量化前进行深度重训练,以保证量化后的精度能够达到测试的精度要求。

image.png

上图为高性能子网络示意图,IRB即反转残差块(Inverted Residual Block),是用于网络架构搜索的基本模块。每个反转残差块包括三层卷积算子,图上反转残差块的长度代表了该块的输出channel数量。

一般机器学习框架的算子实现专注于优化主流的神经网络架构,而对于NAS的反转残差块则效率不佳,震旦使用了基于自动调优的大规模算子融合技术,大幅提高了推理时算子对GPU的利用率,并且可根据不同的架构自动调优到最佳算子实现,因此能快速发掘全新GPU架构的潜力,例如在刚官宣的A10芯片上,震旦的优化结果能达到50%的A100的性能,而TensorRT目前仅能做到三分之一。

2020年,参与MLPerf的多家厂商联合成立了MLCommons组织,旨在推动人工智能的进一步发展,而MLPerf也成为了MLCommons旗下的重要部分。阿里巴巴作为MLCommons的创始会员,一直积极参与MLPerf 测试结果的提交,2019年11月发布的MLPerf 推理性能测试结果0.5版本中,阿里巴巴平头哥AI芯片含光800在封闭优化规则下Resnet50基准测试中获得单芯片性能第一。

技术驱动的阿里云在基础设施技术创新和前沿科技上不断突破,坚持软硬件协同优化,为云计算、人工智能提供更加先进的高可用大规模云基础设施,给全球消费者带来更好的用户体验。基于震旦异构计算加速平台的机器学习模型自动优化技术,可应用在包括视觉处理在内的多个场景,如电商场景视频图像识别和处理、城市大脑交通场景等。目前,该平台通过阿里云弹性计算加速实例EAIS对外提供服务。弹性计算加速实例EAIS,将异构算力资源池化的同时,与CPU计算资源解耦以增加配置灵活性,结合震旦平台的EAIS,将弹性、灵活、以及高性能完美结合,为用户提供高性价比的深度学习计算解决方案。

image.png

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
2月前
|
存储 测试技术
阿里云块存储问题之测试不聚焦可能导致测试不稳定如何解决
阿里云块存储问题之测试不聚焦可能导致测试不稳定如何解决
33 3
|
2月前
|
弹性计算 测试技术 持续交付
阿里云云效产品使用合集之如何进行自动化测试
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
9天前
|
计算机视觉
目标检测笔记(二):测试YOLOv5各模块的推理速度
这篇文章是关于如何测试YOLOv5中不同模块(如SPP和SPPF)的推理速度,并通过代码示例展示了如何进行性能分析。
36 3
|
14天前
|
弹性计算 安全 Linux
阿里云国际版使用ping命令测试ECS云服务器不通的排查方法
阿里云国际版使用ping命令测试ECS云服务器不通的排查方法
|
2月前
|
运维 Java Devops
阿里云云效操作报错合集之在流水线增加单元测试报错,是什么导致的
本合集将整理呈现用户在使用过程中遇到的报错及其对应的解决办法,包括但不限于账户权限设置错误、项目配置不正确、代码提交冲突、构建任务执行失败、测试环境异常、需求流转阻塞等问题。阿里云云效是一站式企业级研发协同和DevOps平台,为企业提供从需求规划、开发、测试、发布到运维、运营的全流程端到端服务和工具支撑,致力于提升企业的研发效能和创新能力。
|
2月前
|
存储 Kubernetes 测试技术
阿里云块存储问题之处理信用分低的测试用例(即不稳定Case)如何解决
阿里云块存储问题之处理信用分低的测试用例(即不稳定Case)如何解决
39 0
|
2月前
|
存储 Kubernetes 测试技术
阿里云块存储问题之生产代码与测试代码需要同步原子提交如何解决
阿里云块存储问题之生产代码与测试代码需要同步原子提交如何解决
31 0
|
2月前
|
存储 测试技术 块存储
阿里云块存储问题之有顺序依赖的测试导致不稳定如何解决
阿里云块存储问题之有顺序依赖的测试导致不稳定如何解决
29 0
|
2月前
|
Docker 容器
FunASR离线文件转写软件包3.0问题之推理效率测试的配置如何解决
FunASR离线文件转写软件包3.0问题之推理效率测试的配置如何解决
31 0
|
4月前
|
人工智能 分布式计算 DataWorks
首批!阿里云 MaxCompute 完成中国信通院数据智能平台专项测试
2024年5月31日,在中国信通院组织的首批数据智能平台专项测试中,阿里云数据智能平台解决方案(MaxCompute、DataWorks、PAI)顺利完成测试。
279 5
首批!阿里云 MaxCompute 完成中国信通院数据智能平台专项测试