MNN推理引擎最新实测,CPU、GPU性能全面领先!

简介: 一个好的推理引擎应至少具有三个基本特性:通用性,模型支持是一切应用的前提;高性能,但快慢若脱离业务价值,也会缺失实际意义;易用性,能少搬几块砖,岂不美哉?

每当有深度学习框架开源时,我们也和广大的吃瓜群众一样,期冀着是不是能有一波新的浪潮,把端侧AI托上一个新的高度。但同时,出于同行们对MNN的认可,我们几乎每一次都会在对比的榜单上出镜,有时甚至是唯一竞对。高处不胜寒哪。

在正文之前,要先赞扬一下腾讯的开源精神。2017年,NCNN吹响了国内引擎开源的号角,为诸多后来者树立了榜样。而今,TNN又一次在移动性能上又迈出了一步。作为开源社区的一员,来,我们欢迎…emmm…这一位到底是该称为老戏骨还是小鲜肉…加入社区性能毒打群和谐友爱的大社区。

关于测评的一些观点
image.png

端侧AI在这两三年里,可谓高速发展,新应用、新算法、新硬件推陈出新,也不断有新推理引擎涌现。但对引擎的评价方式定格在了三年前,比较的总是ARMv7/ARM64下MobileNet、SqueezeNet、ResNet不同版本的性能比较。

这对我们而言,愈发像是一场性能的"圣杯战争" —— 性能重要吗?当然重要。能不参与吗?又无人身免。但这几个模型的性能真的是推理引擎们的终极目标吗?当然不是!如果我们的目标是真正去降低社区AI应用的门槛,就不能只停留在这些指标上。

测评报告的原初目的,应该是便于用户针对自身的业务,做出选择,而不是秀肌肉。

一个好的推理引擎应至少具有三个基本特性:

  • 通用性,模型支持是一切应用的前提;
  • 高性能,但快慢若脱离业务价值,也会缺失实际意义
  • 易用性,能少搬几块砖,岂不美哉?

因此,行业评价推理引擎的方式亟需升级 —— 性能上,除了基准的数据,也应包含对新后端、新特性的支持情况;算子上,用户可能更关心除了CNN以外,能不能支持RNN、GAN、Transformer;易用性上,是不是有提供可视化工具、测评工具、量化工具,编程界面是不是足够友好。

为此,我们一直在努力。

高性能

image.png

虽然说不能只看性能,但点名了,还是要回应一下的。

做完数据验证,虽然数据和TNN的测评稍有出入,但毕竟也为我们的工程师刷新了一个小目标。于是,我们把之前搁置的优化拎上了日程。一周不到的时间,835/845上跑小网络,CPU上,略胜一筹;GPU上,则是5 ~ 15%的领先。

image.png

但这再也不是当年从2000ms降低到700ms那样的飞跃了。

而如果我们放眼大一些的模型,比如Inception V3,那么情况会是:

image.png

又或是打开ARM v8.2的情况下,不论是fp16还是quant,性能都可以有一段跃迁:

image.png

你看,可以为业务带来质变优化的点依然存在。而这些,正是我们暂时按下ARM优化的原因。

通用性

除了性能,用户最为关心的指标就是通用性。性能再好,业务模型跑不起来都白搭。而MNN背靠阿里巴巴的众多智能场景,久经各方业务的磨炼,在支持算子的数量、算子实现的质量上,都可谓久经考验。但如果不是MNN的死忠粉,可能都很难意识到,我们在通用性方面下的苦功。

模型转换上,我们没有将Caffe、TensorFlow、TensorFlow Lite的转换转嫁给三方的工具,尽量避免模型格式间转换导致的失败。从开源到现在,在支持的转换算子总量上,MNN翻了一番还多。

image.png

算子实现上,我们在计算后端的支持上,应该也是业界最广的。除了前文所述的ARM v8.2,我们在GPU算子的支持上,也不遑多让。

image.png

注:计算算子数量时,对Binary、Unary、Reduce算子,统一到友商口径,采用拆分成多种的方式计算。

易用性

易用性方面,在过去的一年,我们也着墨颇多。

可视化上,我们在跨平台可视化工具 Netron 上增加了对MNN模型的支持。

模型压缩上,我们的工具同时支持了KL和ADMM两种量化方式,即可以采用Post-training Quantization 降低量化门槛,也可以采用Quantization Aware Training 来提升量化的精度。

模型测评上,我们提供的校验工具和Profiler工具,可以帮助开发者快速定位模型中的问题所在。

前端语言上,我们还打通了MNN和Python的桥接,方便算法工程师们,在自己熟悉的平台、熟悉的语言上,完成开发、校验。

除了工程之外,文档示例上,我们也没落下。我们搭建了 中英文的文档集 ,也和社区一起搭建了我们的 示例集

想点大事

image.png

如果跳出引擎的小圈子,放眼整个AI生态圈,端侧AI近几年发展到底怎么样呢?

我们以云侧AI为标尺,可以把端侧AI拆解为上下两层:

- 基础设施

如前所述,不只是性能,推理引擎在通用性、易用性等方面还有待完善。而推理引擎也只是解决了模型在端侧运行的问题,从端侧AI部署的完整迭代来说,模型转换、模型压缩、开发调试、效果评估、算法和工程怎么高效协同等等,需要优化、提效的流程,还有很多。

- 上层应用

从应用角度来说,目前端侧AI应用的广度和深度都是不够的 —— 一方面,杀手级的应用不多,甚至基本就没有;另一方面,AI应用的门槛还比较高,很多长尾需求难以落地。可以说,端侧AI的业务价值还没有充分被挖掘出来。因此,相比于烈火烹油的云侧AI,或是三端一体的Flutter,我们都还需要和社区站在一起,做更进一步的探索。

我们真切得认为端侧AI还处于发展的初期,更需要从业者一起努力推动行业发展,而不是把弹药浪费在无尽的对比内耗上面。我们期望和大家在真正有益于繁荣AI生态的方向上,探索出一片新的空间。

端智能团队

淘宝基础平台部-端智能团队欢迎移动端计算优化工程师和推理引擎架构师的加入。对新技术感兴趣,善于创新突破,渴望用新技术给用户带来创新体验的同学请联系我们。

简历投递至吕行:chengfei.lcf@alibaba-inc.com

关注「淘系技术」微信公众号,一个有温度有内容的技术社区~

image.png

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
3月前
|
存储 并行计算 调度
迈向可编程观测:在GPU Kernel中构建类eBPF风格的性能探针
本文旨在梳理作者学习路径,带领读者共同探索 GPU Kernel 性能分析从宏观到微观的技术演进。
664 24
迈向可编程观测:在GPU Kernel中构建类eBPF风格的性能探针
|
4月前
|
存储 机器学习/深度学习 人工智能
GPU云存储性能:加速AI与高性能计算的关键
在人工智能(AI)、机器学习(ML)和高性能计算(HPC)飞速发展的今天,数据存储和处理的效率已成为决定项目成败的关键因素。传统的云存储方案往往无法满足GPU密集型工作负载的需求,而GPU云存储性能的优化正成为企业提升计算效率、降低延迟的核心突破口。本文将深入探讨GPU云存储性能的重要性、关键技术及优化策略,助您在数据驱动的竞争中占据先机。
|
7月前
|
机器学习/深度学习 存储 人工智能
阿里云GPU服务器gn6v、gn7i、gn6i性能特点、区别及选择参考
阿里云GPU云服务器产品线凭借其强大的计算能力和广泛的应用价值,在这些领域中发挥着举足轻重的作用。阿里云GPU云服务器能够为各类复杂的计算任务提供高效、稳定的计算支持,助力企业和开发者在技术创新和业务拓展的道路上加速前行。本文将详细介绍阿里云GPU云服务器中的gn6v、gn7i、gn6i三个实例规格族的性能特点、区别及选择参考,帮助用户根据自身需求选择合适的GPU云服务器实例。
855 60
|
5月前
|
存储 弹性计算 固态存储
阿里云服务器配置费用整理,支持一万人CPU内存、公网带宽和存储IO性能全解析
要支撑1万人在线流量,需选择阿里云企业级ECS服务器,如通用型g系列、高主频型hf系列或通用算力型u1实例,配置如16核64G及以上,搭配高带宽与SSD/ESSD云盘,费用约数千元每月。
452 0
|
7月前
|
人工智能 并行计算 监控
在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南
本文详细介绍了在AMD硬件上构建大型语言模型(LLM)推理环境的全流程。以RX 7900XT为例,通过配置ROCm平台、部署Ollama及Open WebUI,实现高效本地化AI推理。尽管面临技术挑战,但凭借高性价比(如700欧元的RX 7900XT性能接近2200欧元的RTX 5090),AMD方案成为经济实用的选择。测试显示,不同规模模型的推理速度从9到74 tokens/秒不等,满足交互需求。随着ROCm不断完善,AMD生态将推动AI硬件多元化发展,为个人与小型组织提供低成本、低依赖的AI实践路径。
2487 1
在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南
|
9月前
|
存储 测试技术 对象存储
容器计算服务ACS单张GPU即可快速搭建QwQ-32B推理模型
阿里云最新发布的QwQ-32B模型拥有320亿参数,通过强化学习大幅度提升了模型推理能力,其性能与DeepSeek-R1 671B媲美,本文介绍如何使用ACS算力部署生产可用的QwQ-32B模型推理服务。
|
9月前
|
人工智能 负载均衡 调度
COMET:字节跳动开源MoE训练加速神器,单层1.96倍性能提升,节省百万GPU小时
COMET是字节跳动推出的针对Mixture-of-Experts(MoE)模型的优化系统,通过细粒度的计算-通信重叠技术,显著提升分布式训练效率,支持多种并行策略和大规模集群部署。
454 9
|
9月前
|
人工智能 运维 Serverless
Serverless GPU:助力 AI 推理加速
Serverless GPU:助力 AI 推理加速
387 1
|
11月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置,包括CPU+GPU、FPGA等,适用于人工智能、机器学习和深度学习等计算密集型任务。本文整理了阿里云GPU服务器的优惠价格,涵盖NVIDIA A10、V100、T4等型号,提供1个月、1年和1小时的收费明细。具体规格如A10卡GN7i、V100-16G卡GN6v等,适用于不同业务场景,详情见官方页面。
1067 11
|
12月前
|
缓存 算法 关系型数据库
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
麻省理工学院韩松团队提出DuoAttention框架,旨在提高大型语言模型(LLM)处理长上下文的效率。该框架通过区分检索头和流式头,仅对检索头应用全键值缓存,减少内存消耗和计算时间,同时保持模型长上下文处理能力。实验结果显示,DuoAttention在多种模型架构上显著提升了推理效率,为LLM的实际应用提供了新可能。
315 14

热门文章

最新文章