MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行

简介: MiniCPM-o 2.6 是面壁智能开源的多模态大模型,支持视觉、语音和多模态直播,性能媲美GPT-4o,能够在端侧设备上高效运行。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 性能表现:MiniCPM-o 2.6 在视觉、语音和多模态直播领域表现出色,性能媲美GPT-4o。
  2. 功能特点:支持实时双语语音识别、情感/语速/风格控制、端到端声音克隆等功能。
  3. 高效推理:仅需640个token即可处理180万像素图像,推理速度显著提升。

正文(附运行示例)

MiniCPM-o 2.6 是什么

minicpm-o-advanced

MiniCPM-o 2.6 是 MiniCPM-o 系列的最新版本,具有 8B 参数量。该模型在视觉、语音和多模态直播等多个领域表现出色,性能与 GPT-4o 相当。MiniCPM-o 2.6 支持实时双语语音识别,超越了 GPT-4o 的实时识别表现,并支持 30 多种语言。

MiniCPM-o 2.6 基于先进的 token 密度技术,处理 180 万像素图像仅产生 640 个 tokens,显著提高了推理速度和效率。该模型还支持在 iPad 等端侧设备上高效运行多模态直播。

MiniCPM-o 2.6 的主要功能

  • 领先的视觉能力:支持处理任意长宽比的图像,像素数可达 180 万(如 1344×1344)。
  • 出色的语音能力:支持可配置声音的中英双语实时对话,支持情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力。
  • 强大的多模态流式交互能力:接受连续的视频和音频流,并与用户进行实时语音交互。
  • 高效的推理能力:仅需 640 个 token 即可处理 180 万像素图像,比大多数模型少 75%。支持在 iPad 等终端设备上高效进行多模态实时流式交互。
  • 易于使用:支持多种推理方式,包括 llama.cpp、ollama、vLLM 等。提供 int4 和 GGUF 格式的量化模型,降低内存使用和加速推理。

MiniCPM-o 2.6 的技术原理

  • 端到端全模态架构:不同模态的编码器/解码器用端到端的方式连接和训练,充分基于丰富的多模态知识。
  • 全模态直播机制:将离线模态编码器/解码器改为在线版本,支持流式输入/输出,设计时间分割复用(TDM)机制,用在LLM主干中的全模态流处理。
  • 可配置的语音建模设计:设计多模态系统提示,包括传统的文本系统提示和新的音频系统提示,确定助手的音色,实现灵活的音色配置。

如何运行 MiniCPM-o 2.6

1. 安装依赖

首先,克隆仓库并安装依赖:

git clone https://github.com/OpenBMB/MiniCPM-o.git
cd MiniCPM-o
conda create -n MiniCPM-o python=3.10 -y
conda activate MiniCPM-o
pip install -r requirements.txt

2. 运行多轮对话示例

以下是一个简单的多轮对话示例:

import torch
from PIL import Image
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained('openbmb/MiniCPM-o-2_6', trust_remote_code=True, attn_implementation='sdpa', torch_dtype=torch.bfloat16)
model = model.eval().cuda()
tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM-o-2_6', trust_remote_code=True)

image = Image.open('./assets/show_demo.jpg').convert('RGB')
question = "What is the landform in the picture?"
msgs = [{
   'role': 'user', 'content': [image, question]}]

answer = model.chat(msgs=msgs, tokenizer=tokenizer)
print(answer)

3. 运行语音对话示例

以下是一个语音对话示例:

import librosa
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained('openbmb/MiniCPM-o-2_6', trust_remote_code=True, attn_implementation='sdpa', torch_dtype=torch.bfloat16)
model = model.eval().cuda()
tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM-o-2_6', trust_remote_code=True)

model.init_tts()
model.tts.float()

audio_input, _ = librosa.load('xxx.wav', sr=16000, mono=True)
msgs = [{
   'role': 'user', 'content': [audio_input]}]

res = model.chat(
    msgs=msgs,
    tokenizer=tokenizer,
    sampling=True,
    max_new_tokens=128,
    use_tts_template=True,
    generate_audio=True,
    output_audio_path='output.wav',
)
print(res)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
389 113
|
11月前
|
存储 运维 数据挖掘
革新智能驾驶数据挖掘检索效率!某国内新能源汽车未来出行领导者选择阿里云Milvus构建多模态检索引擎
在智能驾驶技术快速发展中,数据成为驱动算法进步的核心。某新能源汽车领军企业基于阿里云Milvus向量数据库构建智能驾驶数据挖掘平台,利用其高性能、可扩展的相似性检索服务,解决了大规模向量数据检索瓶颈问题,显著降低20%以上成本,缩短模型迭代周期,实现从数据采集到场景挖掘的智能化闭环,加速智能驾驶落地应用。
1178 3
革新智能驾驶数据挖掘检索效率!某国内新能源汽车未来出行领导者选择阿里云Milvus构建多模态检索引擎
|
11月前
|
前端开发 搜索推荐 开发工具
通义灵码与颜色板生成器,为前端开发提供智能配色解决方案
在前端开发中,色彩搭配对用户体验和界面美观至关重要。通义灵码提供的颜色板生成器通过自动推荐配色方案、随机生成颜色组合及支持自定义调整,帮助开发者高效完成配色任务。该工具支持一键导出为 CSS 样式表,并提供简洁的中文指令交互方式,大大提升开发效率,助力开发者打造美观和谐的用户界面。
|
9月前
|
人工智能 Java API
Java与大模型集成实战:构建智能Java应用的新范式
随着大型语言模型(LLM)的API化,将其强大的自然语言处理能力集成到现有Java应用中已成为提升应用智能水平的关键路径。本文旨在为Java开发者提供一份实用的集成指南。我们将深入探讨如何使用Spring Boot 3框架,通过HTTP客户端与OpenAI GPT(或兼容API)进行高效、安全的交互。内容涵盖项目依赖配置、异步非阻塞的API调用、请求与响应的结构化处理、异常管理以及一些面向生产环境的最佳实践,并附带完整的代码示例,助您快速将AI能力融入Java生态。
1429 12
|
8月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
642 0
|
9月前
|
机器学习/深度学习 人工智能 测试技术
探索 Qwen2.5-Max 的智能:大规模 MoE 模型的飞跃
Qwen2.5-Max 是通义实验室推出的最先进MoE模型,在推理、知识和代码任务中表现卓越,已在超20万亿token上预训练,并通过SFT和RLHF优化。在多项基准测试中领先,如Arena-Hard达89.4,MMLU-Pro为76.1,性能超越DeepSeek V3、GPT-4o等模型,成为当前最佳开源模型。可通过Qwen Chat和API使用,适用于开发者、研究者及AI爱好者探索前沿AI能力。
1380 2
|
11月前
|
人工智能 数据挖掘 API
Kimi K2开源炸场,1万亿参数碾压GPT-4.1,成本仅Claude 4的1/5!
月之暗面开源的万亿参数大模型Kimi K2引发行业震动,48小时内即登顶OpenRouter API调用榜,GitHub项目激增200%。该模型在代码生成、Agent任务及中文创作上超越Claude 4,标志着中国大模型首次在三大核心能力上达到全球顶尖水平。
|
11月前
|
人工智能 BI 语音技术
AR眼镜+AI大模型:颠覆工业设备验收流程的智能革命
本方案结合AR眼镜与AI视觉大模型,打造高效、精准、可追溯的设备验收流程。通过第一视角记录、智能识别、结构化数据生成与智能报表功能,提升验收效率与质量,助力企业实现智能化管理。
|
11月前
|
人工智能 自然语言处理 监控
软件开发效率低,如何通过AI技术实现软件开发的全面智能化?—— 解析大模型和RAG技术的关键作用
三桥君指出大模型与RAG技术正推动软件工程智能化变革,覆盖需求分析、代码生成、测试和CI/CD全流程。AI可自动解析需求、生成代码、检测缺陷并优化部署,显著提升效率与质量。RAG技术通过检索增强生成,使AI具备知识库实时调用能力。二者的结合让开发者向架构师角色转型,降低人力成本。本文AI专家三桥君从技术融合、场景应用及行业影响展开分析,指出智能化将重塑软件开发范式,开启软件工程新黄金时代。
774 0

热门文章

最新文章