MoshiVis:语音视觉实时交互开源!7B模型秒懂图像,无障碍革命来袭

简介: MoshiVis 是 Kyutai 推出的开源多模态语音模型,结合视觉与语音输入,支持实时交互,适用于无障碍应用、智能家居控制等多个场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


👁️ 「Siri瞎了20年终于复明!开源模型让语音助手『看见』世界」

大家好,我是蚝油菜花。你是否经历过这些AI智障时刻——

  • 👉 问语音助手"这张化验单什么意思?"它回答"正在搜索附近的餐厅"
  • 👉 视障朋友用手机拍照,AI只会机械朗读"检测到0.8置信度的物体"
  • 👉 直播时想让AI解说画面,它把球赛说成芭蕾舞...

今天要炸场的 MoshiVis 正在终结多模态智障时代!这个开源语音视觉核弹:

  • 真·实时看图说话:206M适配器让7B模型秒解图像,延迟低过人类眨眼
  • 动态注意力门控:聊画面时专注细节,切换话题自动屏蔽视觉干扰
  • 无障碍交互革命:视障用户对着超市货架问"哪个是低糖牛奶",AI能指认具体货架层

已有盲人测试者用它独立逛超市,直播团队靠它做实时双语画外音——你的语音助手,是时候进化成「数字导盲犬」了!

🚀 快速阅读

MoshiVis 是一款开源的多模态语音模型,结合视觉与语音输入,支持实时交互。

  1. 核心功能:支持视觉输入、实时语音交互、多模态融合、低延迟对话和多后端适配。
  2. 技术原理:通过跨注意力机制和动态门控机制,将视觉信息与语音流自然融合,实现高效的多模态处理。

MoshiVis 是什么

moshivis

MoshiVis 是 Kyutai 推出的开源多模态语音模型,基于 Moshi 实时对话语音模型开发,增加了视觉输入功能。它能够实现图像的自然、实时语音交互,将语音和视觉信息相结合,让用户可以通过语音与模型交流图像内容。

MoshiVis 在 Moshi 的 7B 基础架构上,增加了约 206M 的适配器参数,并集成了 400M 的 PaliGemma2 视觉编码器。通过跨注意力机制和门控机制,MoshiVis 能将视觉信息自然地融入语音流中,保持低延迟和自然对话风格。模型支持 PyTorch、Rust 和 MLX 三种后端,推荐使用 Web UI 前端进行交互。

MoshiVis 的主要功能

  • 视觉输入功能:MoshiVis 能接收图像输入,与语音交互相结合。用户可以通过语音指令与模型交流图像内容,例如询问图像中的场景、物体、人物等信息。
  • 实时交互:模型支持实时语音交互,用户可以自然地与模型对话,无需等待长时间的处理。
  • 多模态融合:MoshiVis 通过跨注意力机制将视觉信息与语音流相结合,模型能同时处理语音和视觉输入。
  • 低延迟与自然对话:MoshiVis 在处理图像和语音信息时,能保持低延迟,确保交互的实时性。模型继承了 Moshi 的自然对话风格,能生成自然流畅的语音回应。
  • 多后端适配:MoshiVis 支持 PyTorch、Rust 和 MLX 三种后端,用户可以根据需求选择合适的后端进行部署。推荐使用 Web UI 前端进行交互。
  • 无障碍应用:MoshiVis 适用于无障碍 AI 接口,能帮助视障人士通过语音交互理解视觉场景。

MoshiVis 的技术原理

  • 多模态融合机制:MoshiVis 通过集成轻量级交叉注意模块,将视觉编码器的视觉信息注入到 Moshi 的语音标记流中。使模型能同时处理语音和视觉输入,实现语音与图像内容的交互。具体来说,视觉编码器将图像特征提取出来,然后通过交叉注意力机制与语音流进行融合,模型能理解图像内容并生成与之相关的语音回应。
  • 动态门控机制:为了更好地处理视觉输入与非视觉对话主题之间的切换,MoshiVis 引入了动态门控机制。可以根据对话内容的上下文动态调整视觉信息的影响力,确保模型在讨论图像相关话题时能充分利用视觉输入,在其他话题中减少视觉信息的干扰,提高对话的自然性和流畅性。
  • 参数高效微调:MoshiVis 采用了单阶段、参数高效的微调流程。在训练过程中,模型利用图像-文本和图像-语音样本的混合数据进行训练,降低训练成本并提高模型的适应性。减少了对大规模图像-语音配对数据的需求,保留了语音模型的韵律特征,如说话者的语调。

如何运行 MoshiVis

PyTorch 后端

注意:目前 PyTorch 版本不支持量化,因此需要具有较大显存的 GPU(约 24GB)。

你可以通过以下命令启动 MoshiVis PyTorch 服务器,然后通过 https://localhost:8008 访问 Web UI。

cd kyuteye_pt
uv run server configs/moshika-vis.yaml --port 8088

Rust 后端

对于 Rust 后端,你需要安装最新版本的Rust 工具链。要编译 GPU 支持,还需要安装CUDA,特别是 nvcc

运行以下命令启动 Rust 推理服务器:

cd kyuteye_rs
cargo run --features cuda --bin moshi-backend -r -- --config configs/config-moshika-vis.json standalone --vis

MLX 后端

我们提供了 bfloat16q4q8 量化的 MLX 模型检查点。你可以通过以下命令启动 MoshiVis MLX 后端:

cd kyuteye_mlx
# 使用 bfloat16 权重
uv run server

# 使用 q4 量化权重
uv run server -q 4

# 使用 q8 量化权重
uv run server -q 8

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
7月前
|
人工智能 程序员 API
Motia:程序员福音!AI智能体三语言混编,零基础秒级部署
Motia 是一款专为软件工程师设计的 AI Agent 开发框架,支持多种编程语言,提供零基础设施部署、模块化设计和内置可观测性功能,帮助开发者快速构建和部署智能体。
536 15
Motia:程序员福音!AI智能体三语言混编,零基础秒级部署
|
7月前
|
人工智能 物联网 UED
Soundwave:语音对齐黑科技!开源模型秒解翻译问答,听懂情绪波动
Soundwave 是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解,支持语音翻译、语音问答、情绪识别等功能,广泛应用于智能语音助手、语言学习等领域。
359 13
Soundwave:语音对齐黑科技!开源模型秒解翻译问答,听懂情绪波动
|
7月前
|
人工智能 网络协议 Java
RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块
RuoYi AI 是一个全栈式 AI 开发平台,支持本地 RAG 方案,集成多种大语言模型和多媒体功能,适合企业和个人开发者快速搭建个性化 AI 应用。
1681 77
RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块
|
6月前
|
数据采集 人工智能 自然语言处理
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集,包含41.25小时3-5岁儿童普通话语音数据,覆盖中国22个省级行政区,为儿童语音识别和语言发展研究提供高质量数据支持。
632 20
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
|
7月前
|
人工智能 边缘计算 自然语言处理
DistilQwen2.5-R1:蒸馏黑科技!32B推理能力塞进3B小模型,推理速度狂飙300%
阿里巴巴最新发布的DistilQwen2.5-R1系列模型通过知识蒸馏技术,在保持高性能的同时大幅降低计算资源需求,7B模型性能甚至可媲美32B大模型。
243 11
DistilQwen2.5-R1:蒸馏黑科技!32B推理能力塞进3B小模型,推理速度狂飙300%
|
6月前
|
机器学习/深度学习 人工智能 编解码
Text to Bark:让狗狗听懂人话!全球首个AI"狗语"生成器,137种狗狗口音任君挑选
ElevenLabs推出的Text to Bark是全球首个能将文本转换为逼真狗吠声的AI模型,支持多种犬种选择并适配智能家居设备,其核心技术基于深度神经网络训练。
1066 15
Text to Bark:让狗狗听懂人话!全球首个AI"狗语"生成器,137种狗狗口音任君挑选
|
7月前
|
人工智能 文字识别 异构计算
SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍
SmolDocling 是一款轻量级的多模态文档处理模型,能够将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。
547 1
SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍
|
7月前
|
存储 人工智能 人机交互
Multi-Agent Orchestrator:亚马逊开源AI智能体自动协作黑科技!重构人机交互逻辑,1秒精准分配任务
Multi-Agent Orchestrator 是亚马逊开源的多智能体框架,能够动态分配代理、维护上下文、支持多种代理类型,适用于客户服务、智能交通、物流配送等复杂场景。
281 9
Multi-Agent Orchestrator:亚马逊开源AI智能体自动协作黑科技!重构人机交互逻辑,1秒精准分配任务
|
7月前
|
机器学习/深度学习 人工智能 搜索推荐
Second Me:硅基生命或成现实?如何用AI克隆自己,打造你的AI数字身份!
Second Me 是一个开源AI身份系统,允许用户创建完全私有的个性化AI代理,代表用户的真实自我,支持本地训练和部署,保护用户隐私和数据安全。
958 8
Second Me:硅基生命或成现实?如何用AI克隆自己,打造你的AI数字身份!
|
7月前
|
文字识别 测试技术 语音技术
看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!
今天,通义千问团队发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
1410 6
看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!

热门文章

最新文章