MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行

简介: MiniCPM-o 2.6 是面壁智能开源的多模态大模型,支持视觉、语音和多模态直播,性能媲美GPT-4o,能够在端侧设备上高效运行。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 性能表现:MiniCPM-o 2.6 在视觉、语音和多模态直播领域表现出色,性能媲美GPT-4o。
  2. 功能特点:支持实时双语语音识别、情感/语速/风格控制、端到端声音克隆等功能。
  3. 高效推理:仅需640个token即可处理180万像素图像,推理速度显著提升。

正文(附运行示例)

MiniCPM-o 2.6 是什么

minicpm-o-advanced

MiniCPM-o 2.6 是 MiniCPM-o 系列的最新版本,具有 8B 参数量。该模型在视觉、语音和多模态直播等多个领域表现出色,性能与 GPT-4o 相当。MiniCPM-o 2.6 支持实时双语语音识别,超越了 GPT-4o 的实时识别表现,并支持 30 多种语言。

MiniCPM-o 2.6 基于先进的 token 密度技术,处理 180 万像素图像仅产生 640 个 tokens,显著提高了推理速度和效率。该模型还支持在 iPad 等端侧设备上高效运行多模态直播。

MiniCPM-o 2.6 的主要功能

  • 领先的视觉能力:支持处理任意长宽比的图像,像素数可达 180 万(如 1344×1344)。
  • 出色的语音能力:支持可配置声音的中英双语实时对话,支持情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力。
  • 强大的多模态流式交互能力:接受连续的视频和音频流,并与用户进行实时语音交互。
  • 高效的推理能力:仅需 640 个 token 即可处理 180 万像素图像,比大多数模型少 75%。支持在 iPad 等终端设备上高效进行多模态实时流式交互。
  • 易于使用:支持多种推理方式,包括 llama.cpp、ollama、vLLM 等。提供 int4 和 GGUF 格式的量化模型,降低内存使用和加速推理。

MiniCPM-o 2.6 的技术原理

  • 端到端全模态架构:不同模态的编码器/解码器用端到端的方式连接和训练,充分基于丰富的多模态知识。
  • 全模态直播机制:将离线模态编码器/解码器改为在线版本,支持流式输入/输出,设计时间分割复用(TDM)机制,用在LLM主干中的全模态流处理。
  • 可配置的语音建模设计:设计多模态系统提示,包括传统的文本系统提示和新的音频系统提示,确定助手的音色,实现灵活的音色配置。

如何运行 MiniCPM-o 2.6

1. 安装依赖

首先,克隆仓库并安装依赖:

git clone https://github.com/OpenBMB/MiniCPM-o.git
cd MiniCPM-o
conda create -n MiniCPM-o python=3.10 -y
conda activate MiniCPM-o
pip install -r requirements.txt

2. 运行多轮对话示例

以下是一个简单的多轮对话示例:

import torch
from PIL import Image
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained('openbmb/MiniCPM-o-2_6', trust_remote_code=True, attn_implementation='sdpa', torch_dtype=torch.bfloat16)
model = model.eval().cuda()
tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM-o-2_6', trust_remote_code=True)

image = Image.open('./assets/show_demo.jpg').convert('RGB')
question = "What is the landform in the picture?"
msgs = [{
   'role': 'user', 'content': [image, question]}]

answer = model.chat(msgs=msgs, tokenizer=tokenizer)
print(answer)

3. 运行语音对话示例

以下是一个语音对话示例:

import librosa
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained('openbmb/MiniCPM-o-2_6', trust_remote_code=True, attn_implementation='sdpa', torch_dtype=torch.bfloat16)
model = model.eval().cuda()
tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM-o-2_6', trust_remote_code=True)

model.init_tts()
model.tts.float()

audio_input, _ = librosa.load('xxx.wav', sr=16000, mono=True)
msgs = [{
   'role': 'user', 'content': [audio_input]}]

res = model.chat(
    msgs=msgs,
    tokenizer=tokenizer,
    sampling=True,
    max_new_tokens=128,
    use_tts_template=True,
    generate_audio=True,
    output_audio_path='output.wav',
)
print(res)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
7月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
639 2
|
7月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
2256 2
|
7月前
|
人工智能 自然语言处理 API
快速集成GPT-4o:下一代多模态AI实战指南
快速集成GPT-4o:下一代多模态AI实战指南
569 101
|
7月前
|
数据采集 人工智能 文字识别
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
本文深入解析多模态RAG技术,涵盖其基本原理、核心组件与实践路径。通过整合文本、图像、音频等多源信息,实现跨模态检索与生成,拓展AI应用边界。内容详实,建议收藏学习。
1056 50
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
|
7月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
2785 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
8月前
|
编解码 自然语言处理
通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。
1760 29
|
7月前
|
机器学习/深度学习 人工智能 测试技术
开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!
大家好,今天阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。
1211 21
|
7月前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。

热门文章

最新文章