MiniCPM-V 4.6 开源:1.3B 多模态模型登顶同尺寸榜单,6G 内存跑通手机端

简介: 5月11日,面壁智能联合清华、OpenBMB开源新一代端侧多模态大模型MiniCPM-V 4.6。仅1.3B参数,性能登顶同尺寸全球第一,超越Qwen3.5-0.8B与Gemma4-E2B-it;仅需6GB内存即可流畅运行,支持iOS/Android/HarmonyOS。首创ViT早压缩与4倍/16倍混合Token压缩技术,实现“低内存、极速跑”,推动AGI普惠落地。

5 月 11 日,面壁智能联合清华大学、OpenBMB 开源社区正式发布并开源了新一代端侧多模态大模型:MiniCPM-V 4.6。

这是 MiniCPM-V 系列有史以来效率与性能平衡最佳的模型。它以仅 1.3B 的参数规模,实现了性能与效率的双重突破,在全球同尺寸模型中登顶,全面超越了阿里 Qwen3.5-0.8B 与谷歌 Gemma4-E2B-it。

尤其在内存价格飞涨的当下,MiniCPM-V 4.6 只需 6G 内存即可在端侧流畅运行,真正实现了「低内存、极速跑」。这不仅极大降低了多模态大模型在各类智能终端上的落地门槛,也让面壁智能「智周万物」(AGI for Lives)的愿景离我们更近了一步。


开源地址:

本次开源同时提供 Testflight 测试版本,可以在 iOS、Android、HarmonyOS 系统的手机端使用。

➤  GitHub

🔗 https://github.com/OpenBMB/MiniCPM-V

➤  ModelScope

🔗 https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6

➤  APP Demo

🔗 https://github.com/OpenBMB/MiniCPM-V-Apps

性能拔群,1.3B 实现同尺寸最佳

根据多个权威基准评测,MiniCPM-V 4.6 的两个版本(Instruct 与 Thinking)多模态综合能力均表现卓越,实现了全维度领跑。

  • Instruct 版本:在通用图文理解、STEM 数理推理、文档 OCR、视频时序理解及目标定位等任务上,全面超越 Qwen3.5-0.8B、Gemma4-E2B-it 等模型。


  • Thinking 版本:在多图像关联推理、幻觉抑制等高阶任务中,同样几乎全面领先。


在最新的 Artificial Analysis(AA)榜单评测中,MiniCPM-V 4.6 更是以 13 分 的优异成绩跻身前列,超越了包括 Mistral 3-3B、Qwen 3.5-0.8B 在内的一众模型,成绩逼近 Qwen 3.5-2B,成为 1B 级开源模型中当之无愧的性能标杆。


效率反超,重新定义「智能密度」

除了性能惊艳,MiniCPM-V 4.6 在效率上也取得了堪称「反常识」的突破。

尽管参数规模比 Qwen3.5-0.8B 更大,但 MiniCPM-V 4.6 的运行效率却更快,实现了惊人的反超

  • 推理吞吐量:基于 vLLM 的 token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍;
  • 计算成本:在 AA 评测中,仅用 2.5% 的 token 消耗(5.4M vs 233M)就超越了 Qwen3.5-0.8B。

这意味着 MiniCPM-V 4.6 以极小的计算成本,撬动了极高的智能水平,是面壁智能「密度定律」的又一实践。

由此,用同样的硬件,开发者可以承载数倍的线上流量,或在端侧实现更极致的响应速度。

这一飞跃,让市面上几乎所有的个人设备(手机、电脑)都可以将 MiniCPM-V 4.6 高效地跑起来。

极致背后的硬核创新

惊人的性能与效率背后,是两大底层技术的硬核创新。

ViT 架构重构:图像编码计算量锐减 50%

视觉编码器(ViT)是多模态模型处理图像信息的核心组件,也是计算开销最集中的环节之一。

MiniCPM-V 4.6 采用了面壁智能与清华大学联合研发的最新 LLaVA-UHD v4 技术,通过创新的 「ViT 内部视觉 token 早压缩」,在保证性能不掉点的前提下,大幅降低了视觉 token 的数量和计算量,相比传统 ViT 将图像编码开销锐减了 50%

针对模型在处理高分辨率图像时的视觉编码效率问题,LLaVA-UHD v4 提出了一种高效的编码范式,可以在超越原有性能的同时,将视觉编码阶段的浮点运算量降低 55.8%


LLaVA-UHD v4 论文链接:

https://www.modelscope.cn/papers/2605.08985


LLaVA-UHD v4 主要包含两个核心设计:

  • 高效切片编码:替代传统的全局编码,将高分辨率图像切分为多个区块处理,结构性地避免了注意力计算量随分辨率二次方增长的瓶颈。
  • ViT 内早期压缩:在 ViT 的浅层就引入压缩模块,让后续绝大部分 ViT 层只需处理极少量 Token,从根源上降低了计算量。

这一改造,与 16倍 token 压缩协同工作,协同实现了极致的轻量化推理——用更少的计算资源,完成同等质量的图像理解任务。这也造就了 MiniCPM-V 4.6「参数更大,但跑得更快」的效率奇迹。

4倍/16倍混合 Token 压缩:性能与速度,按需切换

业界多模态基座模型普遍采用固定的 4 倍视觉 token 压缩率,而 MiniCPM-V 4.6 则打破常规,提供了业界领先的双模式切换

  • 4 倍压缩模式(性能优先):适合高要求的文档解析、密集文字识别等细节敏感型任务;
  • 16 倍压缩模式(速度优先):适合实时交互、低算力环境、高并发部署等场景。

同一个模型,两种选择,开发者无需在性能和速度之间艰难取舍。

视觉 token 压缩率会影响到显存占用、首响延迟、推理吞吐、功耗等众多关键效率指标,压缩率越高、响应速度越快。MiniCPM-V 多模态大模型从 2024 年就推出了 16 倍压缩率,在行业内领先。

值得一提的是,面壁智能开创性的 16 倍压缩技术早已在产业界得到验证,例如快手在 2025 年发布的推荐大模型 OneRec,在处理海量视频多模态特征时便应用了 MiniCPM-V 系列模型,成功支撑了主场景 25% 的巨大流量请求。

得益于 16 倍视觉 Token 压缩这一核心技术,MiniCPM-V 4.6 在推理效率的两大关键维度上同时建立起显著优势:

1)在单并发首响延迟(TTFT)上,它把“分辨率—延迟”曲线压得几乎平坦,3136² 高清大图的 TTFT 仅 75.7 ms,较同基座规模的 Qwen3.5-0.8B 快 2.2 倍


2)在高并发吞吐上,单卡可达 7013 token/s、54.79 张/s 的 1344² 图片处理能力,是 Qwen3.5-0.8B 的 1.5 倍,意味着同样的硬件可以承载数倍的线上流量


这两个维度的数值指标,共同指向同一结论:

MiniCPM-V 4.6 用更短的视觉序列、更小的 KV-Cache,把多模态推理的端侧体感与云侧 ROI 同时推到了新的高度

根据 AA 榜单评测,MiniCPM-V 4.6 1.3B(非推理版本)的运行仅消耗 5.4M token 量,仅为 Qwen3.5-0.8B(非推理版本,101M)的 1/19 与 Qwen 3.5-0.8B(推理版本,233M)的 1/43,模型智能密度为同尺寸模型范围内最高



模型微调

MiniCPM-V4.6官方原生支持 ms-swift 与 LLaMA-Factory 等业内最受欢迎的微调框架。开发者只需准备好场景数据,和一张 RTX 4090 等常见的消费级显卡,修改几行配置,一键即可拉起专属模型的训练。


1、ms-swift 微调

ms-swift day0 支持了 MiniCPM-V-4.6 系列模型的微调,包括文本、图像、视频模态。ms-swift是魔搭社区官方提供的大模型训练框架,开源地址:https://github.com/modelscope/ms-swift


环境准备:

# pip install git+https://github.com/modelscope/ms-swift.git
git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e .
pip install transformers -U

可直接运行训练脚本如下:

# 10GiB
CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model OpenBMB/MiniCPM-V-4.6 \
    --dataset 'AI-ModelScope/LaTeX_OCR:human_handwrite#20000' \
    --load_from_cache_file true \
    --split_dataset_ratio 0.01 \
    --tuner_type lora \
    --torch_dtype bfloat16 \
    --num_train_epochs 1 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --learning_rate 1e-4 \
    --lora_rank 8 \
    --lora_alpha 32 \
    --target_modules all-linear \
    --freeze_vit true \
    --freeze_aligner true \
    --gradient_accumulation_steps 16 \
    --eval_steps 50 \
    --save_steps 50 \
    --save_total_limit 2 \
    --logging_steps 5 \
    --max_length 2048 \
    --output_dir output \
    --warmup_ratio 0.05 \
    --dataset_num_proc 4 \
    --dataloader_num_workers 4

对验证集进行推理:

CUDA_VISIBLE_DEVICES=0 \
swift infer \
    --adapters output/vx-xxx/checkpoint-xxx \
    --stream true \
    --load_data_args true \
    --enable_thinking false

如果您需要自定义数据集微调模型,你可以将数据准备成以下格式:

{"messages": [{"role": "user", "content": "浙江的省会在哪?"}, {"role": "assistant", "content": "浙江的省会在杭州。"}]}
{"messages": [{"role": "user", "content": "<image>两张图片有什么区别"}, {"role": "assistant", "content": "前一张是小猫,后一张是小狗。"}], "images": ["/xxx/x.jpg"]}
{"messages": [{"role": "user", "content": "<video>视频中是什么"}, {"role": "assistant", "content": "视频中是一只小狗在草地上奔跑。"}], "videos": ["/xxx/x.mp4"]}

推送微调后的模型到ModelScope:

swift export \
    --adapters output/vx-xxx/checkpoint-xxx \
    --push_to_hub true \
    --hub_model_id '<your-model-id>' \
    --hub_token '<your-sdk-token>'

2、LLaMA-Factory 微调

以图片计数任务作为微调任务,使用LLaMA-Factory微调请参考以下步骤:

环境安装:

conda create -n "MiniCPM-V-4.6-Counting" python=3.11 -y
conda activate "MiniCPM-V-4.6-Counting"
pip install torch==2.8.0 torchvision==0.23.0
pip install \
  transformers==5.7.0 accelerate==1.13.0 \
  deepspeed==0.18.3 peft==0.18.1 trl==0.24.0 \
  wandb ninja einops safetensors tokenizers sentencepiece
MAX_JOBS=32 NVCC_THREADS=4 pip install --no-build-isolation flash-attn==2.8.3
git clone https://github.com/hiyouga/LlamaFactory.git
cd LlamaFactory
pip install -e .
pip install -r requirements/metrics.txt -r requirements/deepspeed.txt

数据准备:

数据格式参考

{
    "messages": [
        {
            "content": "<image>\nCarefully observe the image. Are there any people in the image? If yes, please list their respective coordinates and provide the total count. If no, answer 0.",
            "role": "user"
        },
        {
            "content": "<think>\n\n</think>\n\nThe respective coordinates of people: <point>236 469</point>, <point>307 232</point>, <point>362 434</point>, <point>485 521</point>, <point>487 340</point>, <point>615 386</point>, <point>735 441</point>, <point>870 615</point>. So the total count is 8.",
            "role": "assistant"
        }
    ],
    "images": [
        "/path/to/images/*.jpg"
    ],
    "source_file": "pixmo-count",
    "orig_index": 1,
    "channel": "pixmo-count"
}

模型训练:

在train.yaml中配置好模型路径、训练集路径、验证集路径和输出目录后,执行以下脚本即可以开始训练。

#!/bin/bash
set -euo pipefail
export CUDA_VISIBLE_DEVICES="${CUDA_VISIBLE_DEVICES:-0,1,2,3,4,5,6,7}"
export NPROC_PER_NODE="${NPROC_PER_NODE:-8}"
export MASTER_PORT="${MASTER_PORT:-29632}"
export WANDB_API_KEY="${WANDB_API_KEY:-}"
export WANDB_PROJECT="${WANDB_PROJECT:-MiniCPMV46-Counting}"
export WANDB_RUN_NAME="${WANDB_RUN_NAME:-mcpmv46_count}"
export WANDB_NAME="${WANDB_NAME:-mcpmv46_count}"
# MiniCPMV 4.6 downsample mode: 4x for high-resolution, 16x for default
export DOWNSAMPLE_MODE="${DOWNSAMPLE_MODE:-4x}"
export DISABLE_VERSION_CHECK=1
# Activate the lfv46 conda environment
# IMPORTANT: Unset USE_V1 to use the v2 launcher
unset USE_V1
CONFIG_FILE="$(dirname "$0")/train.yaml"
OUTPUT_DIR="${OUTPUT_DIR:-/path/to/output_dir}"
echo "Training with config: $CONFIG_FILE"
echo "Output dir: $OUTPUT_DIR"
llamafactory-cli train "$CONFIG_FILE"

模型部署

官方适配了 vLLM、SGLang、llama.cpp、Ollama 等顶级高性能推理框架,请参考以下链接:

1、vLLM

中文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md

英文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm.md


2、SGLang

中文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/sglang/minicpm-v4_6_sglang_zh.md

英文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/sglang/minicpm-v4_6_sglang.md


3、llama.cpp

中文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md

英文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp_zh.md


4、Ollama

中文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md

英文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama.md


端侧部署保姆级教程

OpenBMB官方同时提供了详尽的端侧部署指南,助你轻松上手:

➤  英文

🔗 https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README.md

➤  中文

🔗 https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README_zh.md

目录
相关文章
|
19天前
|
SQL 缓存 druid
一次 OOM 线上排查实录
老项目线上 OOM 踩坑实录!Druid 连接池 SQL 缓存泄漏 + 业务 SQL 拼接双重叠加导致内存溢出,通过堆 dump 定位问题,优化 Druid 配置 + 批量插入预防 OOM。
195 2
|
2月前
|
机器学习/深度学习 缓存 测试技术
DeepSeek-V4开源:百万上下文,Agent能力比肩顶级闭源模型
DeepSeek-V4正式开源!含V4-Pro(1.6T参数)与V4-Flash(284B参数)双版本,均支持百万token上下文。首创混合注意力架构,Agent能力、世界知识与推理性能全面领先开源模型,数学/代码评测比肩顶级闭源模型。
3955 10
|
22天前
|
JSON NoSQL API
开源项目观察|ds4:本地 Agent 推理,不只是把模型跑起来
Redis作者antirez新开源项目ds4(DwarfStar 4),是专为DeepSeek V4 Flash设计的轻量级本地推理引擎。聚焦Agent场景,支持OpenAI/Anthropic API、Disk KV Cache复用、工具调用精准映射与长上下文优化,在MacBook等高端个人设备上实现高效端到端推理。
458 3
开源项目观察|ds4:本地 Agent 推理,不只是把模型跑起来
|
2月前
|
消息中间件 缓存 API
DeepSeek-V4 核心能力落地与实战应用指南:从底层机制到多智能体架构复盘
本文以SaaS架构师视角,深度解析DeepSeek-V4在真实生产环境中的工程落地:聚焦上下文缓存优化、强约束JSON输出、多智能体协同调度,并分享高并发下的三大避坑实战指南,助力开发者高效构建AI原生应用。
724 6
|
11天前
|
机器学习/深度学习 数据采集 SQL
小模型也能做 Agent?阿里最新的 AgenticQwen 论文讲了什么
这篇论文讨论了一个很实际的工程问题:在真实的工业场景中,Agent 往往不只是要会聊天,还要具备多步推理、调用工具的能力。但受限于工业生产环境对成本的控制和延迟的要求,不适合把所有任务都交由大模型来处理。
148 3
小模型也能做 Agent?阿里最新的 AgenticQwen 论文讲了什么
|
17天前
|
Web App开发 数据采集 前端开发
如何在VSCode中查看、转换markdown文件:使用MPE(Markdown Previe Enhanced)插件
本文介绍了在VSCode中使用MPE插件处理Markdown文件的方法。主要内容包括:1)MPE插件的安装;2)查看Markdown渲染效果的两种方式(内置快捷键和MPE右键预览);3)Markdown文件转换功能,详细讲解了导出HTML(离线/在线模式)、PDF(Chrome/Prince/Pandoc三种方式)和Word的操作步骤及注意事项。文章还提供了相关软件的安装指南和常见问题解决方案,帮助用户更好地使用MPE插件进行Markdown文档处理。
如何在VSCode中查看、转换markdown文件:使用MPE(Markdown Previe Enhanced)插件
|
9天前
|
人工智能 安全 测试技术
别再让 Claude 乱改代码了!Claude Code 这 7 个权限配置让你的项目再也不翻车
还在为 Claude Code 的混乱操作头疼?本文总结 7 个核心权限配置,从上下文管理、提示技巧到环境配置全覆盖,让你的 AI 编程助手真正听话不翻车。
245 5
|
8天前
|
人工智能 开发工具 git
Claude Code 新手极速上手指南 从安装到国产模型配置教程+常用命令详解
在AI编程工具快速迭代的当下,Claude Code凭借终端原生、任务驱动、自主规划执行的独特优势,已经成为开发者必备效率工具。和传统IDE代码补全插件不同,它不需要依赖笨重图形界面,全程在终端运行,能够自主读懂项目结构、拆解开发任务、批量修改文件、执行终端指令、管理Git版本仓库,覆盖从项目初始化、代码编写、Bug修复到项目部署全流程。
356 0
|
16天前
|
人工智能 安全 API
阿里云部署OpenClaw/Hermes Agent配置百炼Token Plan保姆级步骤教程
2026年,AI智能体已成为开发者与企业提升效率、实现自动化的核心工具。OpenClaw作为轻量化AI智能体网关,支持多模型自由切换与灵活扩展;Hermes Agent则凭借自主进化、持久记忆与多任务协同能力,成为团队级AI协作的优选框架。两款工具均需依托高性能大模型后端才能发挥完整能力,而阿里云百炼大模型平台凭借模型丰富、访问稳定、计费透明等优势,成为国内主流的大模型服务选择。
176 4
|
22天前
|
弹性计算 人工智能 缓存
阿里云轻量应用服务器2核2G38元、2核4G9.9元起:配置解析、适用场景与选购指南
2026年阿里云轻量应用服务器抢购活动提供两大核心配置:2核2G(200M峰值带宽+40G ESSD盘)抢购价38元/年,适合个人建站与入门学习;2核4G(200M带宽+50G ESSD盘)9.9元/月或199元/年,支持OpenClaw镜像一键部署AI助理。抢购每日10:00和15:00限时开抢,仅限新用户。本文同时对比了ECS 99计划(e实例99元/年、u1实例199元/年,新购续费同价至2027年3月),建议用户根据业务规模、AI需求及长期成本综合选型。
349 14

热门文章

最新文章