每秒处理107万张图片!阿里云打破MLPerf推理性能测试纪录

简介: 阿里云震旦异构计算加速平台全栈优化技术获历史性突破,MLPerf图像分类场景性能测试夺得多项第一。
来源 | 阿里云基础设施微信公众号

640 (1).gif

阿里云打破MLPerf推理性能测试绝对性能纪录

● 阿里云震旦异构计算加速平台全栈优化技术获历史性突破,MLPerf图像分类场景性能测试夺得多项第一。

● 每秒处理107万张图片,基于GPU系统第一次超越百万级性能纪录。

● 应用阿里电商场景,图片关联产品推荐速度提升5倍,用户购物体验更加流畅。

2021年4月21日,MLCommons™发布MLPerf ™1.0版推理性能测试结果。阿里云服务器研发团队基于震旦异构计算加速平台的软硬件全栈优化技术获得历史性突破!在MLPerf图像分类(Image Classification)性能测试分类中取得多项第一,特别是在离线场景(Offline Scenario) 性能测试中,基于8张NVIDIA A100 GPU通过开放优化规则取得了每秒处理107.8万张图片的惊人成绩,超越了V0.5版本中由128张Google TPU V3在该测试中通过封闭优化规则取得的每秒处理103.9万张图片的最好结果,一举拿下了绝对性能纪录的宝座,这也是通用GPU计算平台首次超越百万级的性能纪录。

image.png

这将进一步提升图像识别、自动驾驶等场景下的计算效率,比如在阿里电商某场景下,基于相同GPU硬件采用编译自动优化技术后,自动分类标记产品图像或者搜索图像效率大幅提升,服务器数量减少75%,通过图片关联的产品推荐速度提升5倍,用户购物体验更加流畅。

MLPerf™是目前全球最权威的AI基准测试之一,在2018年发布V0.5测试结果之后,迅速得到了各大厂商、科研机构和高校支持和参与。图像分类是AI领域最为热门的应用领域之一,图像分类性能测试是MLPerf™推理性能创始测试之一,且每一版、每个参与者都会提交该测试的离线场景测试结果,竞争之激烈,称之为MLPerf™测试皇冠上的明珠并不为过。

震旦平台MLPerf推理性能结果1.0版成绩

震旦是阿里云自研的异构计算加速平台,适配GPU、ASIC等多种异构AI芯片,优化编译代码,深挖和释放异构芯片算力,支持TensorFlow、Caffe、PAI等多种深度学习框架,可实现AI框架及算法的无缝迁移适配,支持云变端多场景快速部署,大幅提升AI应用开发效率。在MLPerf最新版的图像分类测试中,震旦平台针对图像分类神经网络架构进行自动优化,在保证基准测试精度目标的同时,远超标准ResNet50 v1.5的计算效率。

在公布的MLPerf推理性能测试结果1.0版中,除了在8卡GPU配置上性能夺魁,阿里云还在A100、主流推理GPU T4,以及刚刚官宣的下一代推理GPU A10的单卡性能结果也都获得了第一,且成绩大幅领先第二名。

image.png

◆ 在A100上,阿里云第一个超越了单卡10万量级,达到了136142 IPS(Image Per Second),是本次提交其它厂商最佳成绩的1.84倍;

◆ 在A10上,阿里云的性能达到了69514 IPS,是本次提交其它厂商最佳成绩的3.61倍;

◆ 在T4上,本次其他厂商成绩未超越0.7版的最佳,而阿里云的结果达到了30414 IPS,是0.7版最佳的2.34倍。

值得一提的是,震旦异构计算加速平台针对机器学习模型的自动优化技术,能做到对GPU架构的通用支持,仅需要非常少的人工便可高效利用新一代的GPU架构。我们利用官宣刚发布的单张A10 GPU,系统性能能够达到单张A100 GPU的系统性能的50%以上,而其他厂商仅能达到三分之一左右。

基于深度软硬件全栈优化的解读

震旦异构计算加速平台之所以在此次评测中取得如此优异成绩,得益于其出色的软硬件全栈优化能力,首先在顶层算法模型上,使用基于自动机器学习(AutoML)的模型设计方式,这种方式可以获得比人工设计更高效的模型。震旦基于MIT的先进的神经网络架构搜索算法Once-For-All,使用了基于强化学习的自研搜索算法获得了高性能子网络;之后通过INT8量化获得硬件加速继续提高性能,并在量化前进行深度重训练,以保证量化后的精度能够达到测试的精度要求。

image.png

上图为高性能子网络示意图,IRB即反转残差块(Inverted Residual Block),是用于网络架构搜索的基本模块。每个反转残差块包括三层卷积算子,图上反转残差块的长度代表了该块的输出channel数量。

一般机器学习框架的算子实现专注于优化主流的神经网络架构,而对于NAS的反转残差块则效率不佳,震旦使用了基于自动调优的大规模算子融合技术,大幅提高了推理时算子对GPU的利用率,并且可根据不同的架构自动调优到最佳算子实现,因此能快速发掘全新GPU架构的潜力,例如在刚官宣的A10芯片上,震旦的优化结果能达到50%的A100的性能,而TensorRT目前仅能做到三分之一。

2020年,参与MLPerf的多家厂商联合成立了MLCommons组织,旨在推动人工智能的进一步发展,而MLPerf也成为了MLCommons旗下的重要部分。阿里巴巴作为MLCommons的创始会员,一直积极参与MLPerf 测试结果的提交,2019年11月发布的MLPerf 推理性能测试结果0.5版本中,阿里巴巴平头哥AI芯片含光800在封闭优化规则下Resnet50基准测试中获得单芯片性能第一。

技术驱动的阿里云在基础设施技术创新和前沿科技上不断突破,坚持软硬件协同优化,为云计算、人工智能提供更加先进的高可用大规模云基础设施,给全球消费者带来更好的用户体验。基于震旦异构计算加速平台的机器学习模型自动优化技术,可应用在包括视觉处理在内的多个场景,如电商场景视频图像识别和处理、城市大脑交通场景等。目前,该平台通过阿里云弹性计算加速实例EAIS对外提供服务。弹性计算加速实例EAIS,将异构算力资源池化的同时,与CPU计算资源解耦以增加配置灵活性,结合震旦平台的EAIS,将弹性、灵活、以及高性能完美结合,为用户提供高性价比的深度学习计算解决方案。

image.png

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
2月前
|
存储 弹性计算 运维
阿里云服务器ECS经济型e实例详细介绍_性能测试和租用价格
阿里云服务器ECS经济型e实例详细介绍_性能测试和租用价格,阿里云服务器ECS推出经济型e系列,经济型e实例是阿里云面向个人开发者、学生、小微企业,在中小型网站建设、开发测试、轻量级应用等场景推出的全新入门级云服务器,CPU采用Intel Xeon Platinum架构处理器,支持1:1、1:2、1:4多种处理器内存配比,e系列性价比优选
|
30天前
|
算法
m基于OFDM+QPSK和LDPC编译码以及MMSE信道估计的无线图像传输matlab仿真,输出误码率,并用图片进行测试
MATLAB2022a仿真实现了无线图像传输的算法,包括OFDM、QPSK调制、LDPC编码和MMSE信道估计。OFDM抗频率选择性衰落,QPSK用相位表示二进制,LDPC码用于前向纠错,MMSE估计信道响应。算法流程涉及编码、调制、信道估计、均衡、解码和图像重建。MATLAB代码展示了从串行数据到OFDM信号的生成,经过信道模型、噪声添加,再到接收端的信道估计和解码过程,最终计算误码率。
20 1
|
1月前
|
弹性计算 缓存 测试技术
阿里云2核4g服务器(费用价格/性能测试/支持人数)
阿里云2核4g服务器能支持多少人访问?2核4G服务器并发数性能测试,阿小云账号下的2核4G服务器支持20人同时在线访问,然而应用不同、类型不同、程序效率不同实际并发数也不同,2核4G服务器的在线访问人数取决于多个变量因素
|
1月前
|
弹性计算 缓存 测试技术
2核4g服务器能支持多少人访问?阿里云2核4G服务器并发数测试
2核4g服务器能支持多少人访问?阿里云2核4G服务器并发数测试,2核4G服务器并发数性能测试,阿小云账号下的2核4G服务器支持20人同时在线访问,然而应用不同、类型不同、程序效率不同实际并发数也不同,2核4G服务器的在线访问人数取决于多个变量因素
|
1月前
|
存储 数据采集 Apache
众安保险 CDP 平台:借助阿里云数据库 SelectDB 版内核 Apache Doris 打破数据孤岛,人群圈选提速4倍
随着业务在金融、保险和商城领域的不断扩展,众安保险建设 CDP 平台以提供自动化营销数据支持。早期 CDP 平台依赖于 Spark + Impala + Hbase + Nebula 复杂的技术组合,这不仅导致数据分析形成数据孤岛,还带来高昂的管理及维护成本。为解决该问题,众安保险引入 Apache Doris,替换了早期复杂的技术组合,不仅降低了系统的复杂性,打破了数据孤岛,更提升了数据处理的效率。
众安保险 CDP 平台:借助阿里云数据库 SelectDB 版内核 Apache Doris 打破数据孤岛,人群圈选提速4倍
|
1月前
|
资源调度 算法
m基于OFDM+QPSK和LDPC编译码以及LS信道估计的无线图像传输matlab仿真,输出误码率,并用图片进行测试
m基于OFDM+QPSK和LDPC编译码以及LS信道估计的无线图像传输matlab仿真,输出误码率,并用图片进行测试
26 2
|
2月前
|
并行计算 计算机视觉
YOLOv8太卷啦 | YOLOv8官方仓库正式支持RT-DETR训练、测试以及推理
YOLOv8太卷啦 | YOLOv8官方仓库正式支持RT-DETR训练、测试以及推理
92 0
|
2月前
|
弹性计算 数据中心
阿里云香港服务器详细介绍_BGP多线精品测试_CN2高速网络
阿里云香港服务器中国香港数据中心网络线路类型BGP多线精品,中国电信CN2高速网络高质量、大规格BGP带宽,运营商精品公网直连中国内地,时延更低,优化海外回中国内地流量的公网线路,可以提高国际业务访问质量。阿里云百科来详细介绍阿里云香港云服务器
|
2月前
|
存储 弹性计算 运维
阿里云经济型e实例详细介绍_性能测试_使用限制说明
阿里云服务器ECS推出经济型e系列,经济型e实例是阿里云面向个人开发者、学生、小微企业,在中小型网站建设、开发测试、轻量级应用等场景推出的全新入门级云服务器,CPU采用Intel Xeon Platinum架构处理器
|
2月前
|
弹性计算 测试技术 数据中心
阿里云香港服务器BGP多线精品网络_CN2性能测试_中国香港主机测试
阿里云香港服务器BGP多线精品网络_CN2性能测试_中国香港主机测试,阿里云香港服务器中国香港数据中心网络线路类型BGP多线精品,中国电信CN2高速网络高质量、大规格BGP带宽,运营商精品公网直连中国内地,时延更低,优化海外回中国内地流量的公网线路,可以提高国际业务访问质量