4G手机内存玩转Qwen2.5-Omni?MNN全面支持Qwen2.5-Omni与Qwen3!

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 随着移动端算力、存储能力的提升,在端侧部署大模型已成为趋势。本地化运行可消除网络延迟实现毫秒响应,降低云端算力成本,同时避免数据上传保障隐私安全。

01.概述

随着移动端算力、存储能力的提升,在端侧部署大模型已成为趋势。本地化运行可消除网络延迟实现毫秒响应,降低云端算力成本,同时避免数据上传保障隐私安全。MNN是阿里巴巴开源的一个高效轻量级深度学习框架,专注端侧AI部署优化,支持CNN/RNN/GAN/Transformer等主流模型架构,覆盖模型优化、异构计算(CPU/GPU/NPU)及动态输入处理,已在淘宝、钉钉等30+APP落地应用。

MNN-LLM是基于 MNN 引擎开发的大型语言模型运行时解决方案,旨在将 LLM 模型本地部署到所有平台(手机/PC/物联网)。

轻量化框架

  • 针对设备进行优化,无依赖性,可以轻松部署到移动设备和各种嵌入式设备。
  • iOS平台:arm v7+arm64平台静态库大小全选约12MB,链接后可执行文件大小增加约2M。
  • Android平台:核心so大小约为800KB(armv7a - c++_shared)。
  • 使用 MNN_BUILD_MINI 可以减少包大小约 25%,但模型输入大小有限制
  • 支持fp16/int8/int4量化,可缩小模型尺寸50%-70%

MNN 及大模型推理相关代码均已开源:

https://github.com/alibaba/MNN/

MNN推理端侧模型均已在魔搭社区开源:https://modelscope.cn/organization/MNN

02.MNN支持Qwen3系列模型

Qwen3 的发布在国内外引起很大的关注,社区中也有很多人有本地部署的需求,MNN Chat Android 第一时间做了适配,并且发布一天内又冲到了 Github Trending:

image.gif

image.gif 编辑

用户开启推理模式后,模型将进行更深入的推理再给出答案,若关闭则直接快速回答,满足不同使用场景。

 

Qwen3-4B thinking模式

https://live.csdn.net/v/478260

 

更多自定义设置

采样设置

MNN Chat APP新增了Sampler的自定义设置功能,用户可自由决定输出是偏确定性还是更富创造性。

image.gif 编辑

image.gif 编辑

注,Qwen官方推荐的sample参数如下:

image.gif

image.gif 编辑

更多设置

除了采样设置外,新版本还加入了System Prompt和Max New Tokens等更多可自定义的设置项。比如Max New Tokens可以控制模型输出的长度,避免输出过短或过长的情况。

System Prompt则可以自定义模型的人设和回答风格,更好地满足个性化需求。

 

03.MNN支持Qwen2.5-Omni模型

Qwen2.5-Omni语音对话

https://live.csdn.net/v/478259

 

Qwen2.5-Omni视觉理解

https://live.csdn.net/v/478258

 

04.最佳实践

是不是已经迫不及待的想要自己尝试一下,那就让继续来看看如何使用吧!

Android

Android用户可以直接在 github上下载,也可自行编译定制功能:

git clone https://github.com/alibaba/MNN.git
cd project/android
mkdir build_64
../build_64.sh "-DMNN_LOW_MEMORY=true  -DMNN_BUILD_LLM=true -DMNN_SUPPORT_TRANSFORMER_FUSE=true -DMNN_ARM82=true -DMNN_USE_LOGCAT=true -DMNN_OPENCL=true -DLLM_SUPPORT_VISION=true -DMNN_BUILD_OPENCV=true -DMNN_IMGCODECS=true -DLLM_SUPPORT_AUDIO=true -DMNN_BUILD_AUDIO=true -DMNN_BUILD_DIFFUSION=ON -DMNN_SEP_BUILD=ON"
find . -name "*.so" -exec cp {} ../apps/MnnLlmApp/app/src/main/jniLibs/arm64-v8a/  
cd ../apps/MnnLlmApp/
./gradlew installDebug

image.gif

iOS

iOS 用户当前需要自行编译,后续 TestFlight 包审核后会在Github文档中更新:

1.下载仓库代码:

git clone https://github.com/alibaba/MNN.git

image.gif

2.编译 MNN.framework:

cd MNN/
sh package_scripts/ios/buildiOS.sh "-DMNN_ARM82=true -DMNN_LOW_MEMORY=true -DMNN_SUPPORT_TRANSFORMER_FUSE=true -DMNN_BUILD_LLM=true 
-DMNN_METAL=ON
-DMNN_BUILD_DIFFUSION=ON
-DMNN_BUILD_OPENCV=ON
-DMNN_IMGCODECS=ON
-DMNN_OPENCL=OFF
-DMNN_SEP_BUILD=OFF

image.gif

3.拷贝 framework 到 iOS 项目中

mv MNN-iOS-CPU-GPU/Static/MNN.framework /apps/iOS/MNNLLMChat/MNN.framework

image.gif

4.确保 Link Binary With Libraried 中包含 MNN.framework 和其他三个 Framework。

image.gif

image.gif 编辑

如果没有包含,可以手动添加:

image.gif

image.gif 编辑

image.gif 编辑

5.修改 iOS 签名并编译项目

cd /apps/iOS/MNNLLMChatopen MNNLLMiOS.xcodeproj

image.gif

在 Xcode 项目属性中 Signing & Capabilities > Team 输入自己的账号和Bundle Identifier

image.gif

image.gif 编辑

桌面端(Windows、Mac、Linux)

从魔搭下载模型,并源码编译进行模型推理,在Linux/Mac/Windows等设备上进行测试。

模型下载

#命令行工具下载
modelscope download --model 'MNN/Qwen2.5-Omni-3B-MNN' --local_dir 'path/to/dir'

image.gif

环境安装

  • x86架构额外加 MNN_AVX512 的宏
  • Mac 推荐增加 MNN_METAL的宏
git clone https://github.com/alibaba/MNN.git
# 编译
cd MNN
mkdir build && cd build
cmake .. -DLLM_SUPPORT_VISION=ON -DMNN_BUILD_OPENCV=ON -DMNN_IMGCODECS=ON -DLLM_SUPPORT_AUDIO=ON -DMNN_BUILD_AUDIO=ON -DMNN_LOW_MEMORY=true -DMNN_CPU_WEIGHT_DEQUANT_GEMM=true -DMNN_BUILD_LLM=true -DMNN_SUPPORT_TRANSFORMER_FUSE=true
make -j

image.gif

编译完成后,可以看到 mls 产物,通过 mls 命令可以执行下载、benchmark 测试、启动rest服务等功能。

Qwen3模型推理

# 运行
./mnncli serve Qwen3-4B-MNN

image.gif

会启动一个 REST 服务端。

接下来可以在 Chatbox 等客户端就可以配置使用 MNN 的服务。

image.gif

image.gif 编辑

 

Qwen2.5-Omni模型推理

./llm_demo /path/to/Qwen2.5-Omni-3B-MNN/config.json

image.gif

多模态prompt示例:

<img>https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg</img>介绍一下这张图片
<audio>https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-Audio/audio/translate_to_chinese.wav</audio>

image.gif

 

点击链接, 即可跳转~

https://modelscope.cn/organization/MNN

目录
相关文章
|
1月前
|
JSON 缓存 并行计算
NVIDIA 实现通义千问 Qwen3 的生产级应用集成和部署
阿里巴巴近期开源了通义千问Qwen3大语言模型(LLM),包含两款混合专家模型(MoE)235B-A22B与30B-A3B,以及六款稠密模型(Dense)从0.6B到32B不等。开发者可基于NVIDIA GPU使用TensorRT-LLM、Ollama、SGLang、vLLM等框架高效部署Qwen3系列模型,实现快速词元生成和生产级应用开发。
|
1月前
|
人工智能 自然语言处理 机器人
阿里云百炼xWaytoAGI共学课 DAY4 - 小白也能在阿里云百炼手搓Qwen3,构建Qwen3赋能的英语学习智能体“妮娜”
本次课程通过构建"英语老师妮娜"AI应用,教授Qwen3系列模型特性及阿里云百炼平台的MCP服务、工作流集成技术。重点学习模型选择、智能体开发流程,涵盖单词卡片生成、结构化分析、Notion存档及二维码分享功能,适合开发者、产品经理等人群掌握AI应用落地方法。
|
1月前
|
机器学习/深度学习 人工智能 监控
实战 | Qwen3大模型微调入门实战(完整代码)
Qwen3是阿里通义实验室最近开源的大语言模型,发布时便登顶了开源LLM榜单第一名。同时,Qwen系列模型也超越LLaMA,成为了开源模型社区中最受欢迎的开源LLM。
1175 23
|
2月前
|
机器学习/深度学习 人工智能 API
阿里通义开源新一代混合推理模型 Qwen3:创新双模式推理,支持"思考模式"和"非思考模式"
Qwen3是阿里巴巴推出的新一代大型语言模型,支持119种语言和两种推理模式,采用四阶段训练流程和Apache 2.0协议开源,提供从0.6B到235B的多种模型配置。
390 19
阿里通义开源新一代混合推理模型 Qwen3:创新双模式推理,支持"思考模式"和"非思考模式"
|
16天前
|
人工智能 自然语言处理 程序员
通义灵码 2.5 版发布上线,支持 Qwen3
示例中展示了通义灵码创建贪食蛇游戏的过程,包括代码优化、Bug修复和功能改进(如游戏结束后提示重新开始)。并通过AI总结了工具的核心能力,如实时续写、自然语言生码、单元测试生成等,帮助开发者高效编码并提升代码质量。
95 9
|
17天前
|
人工智能 安全 Android开发
手机也能跑通义Qwen3大模型,手把手教你部署!
全球开源模型冠军Qwen3与端到端全模态模型Qwen2.5-Omni现已成功在手机上跑通!借助MNN支持,适配Android、iOS及桌面端,实现低延迟、本地化、高安全的AI体验。用户可通过自定义Sampler设置、System Prompt和Max New Tokens调节模型输出风格与长度。
|
1月前
|
测试技术 UED
全新开源通义千问Qwen3,它来了!
Qwen3是通义千问系列的最新模型,融合推理与非推理模式,兼具QwQ和Instruct模型能力。提供多种尺寸,包括235B-A22B、30B-A3B及六个Dense模型,大幅提升数学、代码、逻辑推理和对话能力,达到业界领先水平。旗舰模型Qwen3-235B-A22B在多场景测试中表现优异,小型模型如Qwen3-4B性能媲美大模型。用户可在阿里云百炼平台免费体验各100万Token。
全新开源通义千问Qwen3,它来了!
|
2月前
|
存储 Kubernetes 异构计算
Qwen3 大模型在阿里云容器服务上的极简部署教程
通义千问 Qwen3 是 Qwen 系列最新推出的首个混合推理模型,其在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。

热门文章

最新文章