❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦
👁️ 「Siri瞎了20年终于复明!开源模型让语音助手『看见』世界」
大家好,我是蚝油菜花。你是否经历过这些AI智障时刻——
- 👉 问语音助手"这张化验单什么意思?"它回答"正在搜索附近的餐厅"
- 👉 视障朋友用手机拍照,AI只会机械朗读"检测到0.8置信度的物体"
- 👉 直播时想让AI解说画面,它把球赛说成芭蕾舞...
今天要炸场的 MoshiVis 正在终结多模态智障时代!这个开源语音视觉核弹:
- ✅ 真·实时看图说话:206M适配器让7B模型秒解图像,延迟低过人类眨眼
- ✅ 动态注意力门控:聊画面时专注细节,切换话题自动屏蔽视觉干扰
- ✅ 无障碍交互革命:视障用户对着超市货架问"哪个是低糖牛奶",AI能指认具体货架层
已有盲人测试者用它独立逛超市,直播团队靠它做实时双语画外音——你的语音助手,是时候进化成「数字导盲犬」了!
🚀 快速阅读
MoshiVis 是一款开源的多模态语音模型,结合视觉与语音输入,支持实时交互。
- 核心功能:支持视觉输入、实时语音交互、多模态融合、低延迟对话和多后端适配。
- 技术原理:通过跨注意力机制和动态门控机制,将视觉信息与语音流自然融合,实现高效的多模态处理。
MoshiVis 是什么
MoshiVis 是 Kyutai 推出的开源多模态语音模型,基于 Moshi 实时对话语音模型开发,增加了视觉输入功能。它能够实现图像的自然、实时语音交互,将语音和视觉信息相结合,让用户可以通过语音与模型交流图像内容。
MoshiVis 在 Moshi 的 7B 基础架构上,增加了约 206M 的适配器参数,并集成了 400M 的 PaliGemma2 视觉编码器。通过跨注意力机制和门控机制,MoshiVis 能将视觉信息自然地融入语音流中,保持低延迟和自然对话风格。模型支持 PyTorch、Rust 和 MLX 三种后端,推荐使用 Web UI 前端进行交互。
MoshiVis 的主要功能
- 视觉输入功能:MoshiVis 能接收图像输入,与语音交互相结合。用户可以通过语音指令与模型交流图像内容,例如询问图像中的场景、物体、人物等信息。
- 实时交互:模型支持实时语音交互,用户可以自然地与模型对话,无需等待长时间的处理。
- 多模态融合:MoshiVis 通过跨注意力机制将视觉信息与语音流相结合,模型能同时处理语音和视觉输入。
- 低延迟与自然对话:MoshiVis 在处理图像和语音信息时,能保持低延迟,确保交互的实时性。模型继承了 Moshi 的自然对话风格,能生成自然流畅的语音回应。
- 多后端适配:MoshiVis 支持 PyTorch、Rust 和 MLX 三种后端,用户可以根据需求选择合适的后端进行部署。推荐使用 Web UI 前端进行交互。
- 无障碍应用:MoshiVis 适用于无障碍 AI 接口,能帮助视障人士通过语音交互理解视觉场景。
MoshiVis 的技术原理
- 多模态融合机制:MoshiVis 通过集成轻量级交叉注意模块,将视觉编码器的视觉信息注入到 Moshi 的语音标记流中。使模型能同时处理语音和视觉输入,实现语音与图像内容的交互。具体来说,视觉编码器将图像特征提取出来,然后通过交叉注意力机制与语音流进行融合,模型能理解图像内容并生成与之相关的语音回应。
- 动态门控机制:为了更好地处理视觉输入与非视觉对话主题之间的切换,MoshiVis 引入了动态门控机制。可以根据对话内容的上下文动态调整视觉信息的影响力,确保模型在讨论图像相关话题时能充分利用视觉输入,在其他话题中减少视觉信息的干扰,提高对话的自然性和流畅性。
- 参数高效微调:MoshiVis 采用了单阶段、参数高效的微调流程。在训练过程中,模型利用图像-文本和图像-语音样本的混合数据进行训练,降低训练成本并提高模型的适应性。减少了对大规模图像-语音配对数据的需求,保留了语音模型的韵律特征,如说话者的语调。
如何运行 MoshiVis
PyTorch 后端
注意:目前 PyTorch 版本不支持量化,因此需要具有较大显存的 GPU(约 24GB)。
你可以通过以下命令启动 MoshiVis PyTorch 服务器,然后通过 https://localhost:8008 访问 Web UI。
cd kyuteye_pt
uv run server configs/moshika-vis.yaml --port 8088
Rust 后端
对于 Rust 后端,你需要安装最新版本的Rust 工具链
。要编译 GPU 支持,还需要安装CUDA
,特别是 nvcc
。
- Rust 工具链:https://rustup.rs/
- CUDA:https://developer.nvidia.com/cuda-toolkit
运行以下命令启动 Rust 推理服务器:
cd kyuteye_rs
cargo run --features cuda --bin moshi-backend -r -- --config configs/config-moshika-vis.json standalone --vis
MLX 后端
我们提供了 bfloat16
和 q4
、q8
量化的 MLX 模型检查点。你可以通过以下命令启动 MoshiVis MLX 后端:
cd kyuteye_mlx
# 使用 bfloat16 权重
uv run server
# 使用 q4 量化权重
uv run server -q 4
# 使用 q8 量化权重
uv run server -q 8
资源
- 项目主页:https://kyutai.org/moshivis
- 在线演示 Demo:https://vis.moshi.chat/
- GitHub 仓库:https://github.com/kyutai-labs/moshivis
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦