MoshiVis:语音视觉实时交互开源!7B模型秒懂图像,无障碍革命来袭

简介: MoshiVis 是 Kyutai 推出的开源多模态语音模型,结合视觉与语音输入,支持实时交互,适用于无障碍应用、智能家居控制等多个场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


👁️ 「Siri瞎了20年终于复明!开源模型让语音助手『看见』世界」

大家好,我是蚝油菜花。你是否经历过这些AI智障时刻——

  • 👉 问语音助手"这张化验单什么意思?"它回答"正在搜索附近的餐厅"
  • 👉 视障朋友用手机拍照,AI只会机械朗读"检测到0.8置信度的物体"
  • 👉 直播时想让AI解说画面,它把球赛说成芭蕾舞...

今天要炸场的 MoshiVis 正在终结多模态智障时代!这个开源语音视觉核弹:

  • 真·实时看图说话:206M适配器让7B模型秒解图像,延迟低过人类眨眼
  • 动态注意力门控:聊画面时专注细节,切换话题自动屏蔽视觉干扰
  • 无障碍交互革命:视障用户对着超市货架问"哪个是低糖牛奶",AI能指认具体货架层

已有盲人测试者用它独立逛超市,直播团队靠它做实时双语画外音——你的语音助手,是时候进化成「数字导盲犬」了!

🚀 快速阅读

MoshiVis 是一款开源的多模态语音模型,结合视觉与语音输入,支持实时交互。

  1. 核心功能:支持视觉输入、实时语音交互、多模态融合、低延迟对话和多后端适配。
  2. 技术原理:通过跨注意力机制和动态门控机制,将视觉信息与语音流自然融合,实现高效的多模态处理。

MoshiVis 是什么

moshivis

MoshiVis 是 Kyutai 推出的开源多模态语音模型,基于 Moshi 实时对话语音模型开发,增加了视觉输入功能。它能够实现图像的自然、实时语音交互,将语音和视觉信息相结合,让用户可以通过语音与模型交流图像内容。

MoshiVis 在 Moshi 的 7B 基础架构上,增加了约 206M 的适配器参数,并集成了 400M 的 PaliGemma2 视觉编码器。通过跨注意力机制和门控机制,MoshiVis 能将视觉信息自然地融入语音流中,保持低延迟和自然对话风格。模型支持 PyTorch、Rust 和 MLX 三种后端,推荐使用 Web UI 前端进行交互。

MoshiVis 的主要功能

  • 视觉输入功能:MoshiVis 能接收图像输入,与语音交互相结合。用户可以通过语音指令与模型交流图像内容,例如询问图像中的场景、物体、人物等信息。
  • 实时交互:模型支持实时语音交互,用户可以自然地与模型对话,无需等待长时间的处理。
  • 多模态融合:MoshiVis 通过跨注意力机制将视觉信息与语音流相结合,模型能同时处理语音和视觉输入。
  • 低延迟与自然对话:MoshiVis 在处理图像和语音信息时,能保持低延迟,确保交互的实时性。模型继承了 Moshi 的自然对话风格,能生成自然流畅的语音回应。
  • 多后端适配:MoshiVis 支持 PyTorch、Rust 和 MLX 三种后端,用户可以根据需求选择合适的后端进行部署。推荐使用 Web UI 前端进行交互。
  • 无障碍应用:MoshiVis 适用于无障碍 AI 接口,能帮助视障人士通过语音交互理解视觉场景。

MoshiVis 的技术原理

  • 多模态融合机制:MoshiVis 通过集成轻量级交叉注意模块,将视觉编码器的视觉信息注入到 Moshi 的语音标记流中。使模型能同时处理语音和视觉输入,实现语音与图像内容的交互。具体来说,视觉编码器将图像特征提取出来,然后通过交叉注意力机制与语音流进行融合,模型能理解图像内容并生成与之相关的语音回应。
  • 动态门控机制:为了更好地处理视觉输入与非视觉对话主题之间的切换,MoshiVis 引入了动态门控机制。可以根据对话内容的上下文动态调整视觉信息的影响力,确保模型在讨论图像相关话题时能充分利用视觉输入,在其他话题中减少视觉信息的干扰,提高对话的自然性和流畅性。
  • 参数高效微调:MoshiVis 采用了单阶段、参数高效的微调流程。在训练过程中,模型利用图像-文本和图像-语音样本的混合数据进行训练,降低训练成本并提高模型的适应性。减少了对大规模图像-语音配对数据的需求,保留了语音模型的韵律特征,如说话者的语调。

如何运行 MoshiVis

PyTorch 后端

注意:目前 PyTorch 版本不支持量化,因此需要具有较大显存的 GPU(约 24GB)。

你可以通过以下命令启动 MoshiVis PyTorch 服务器,然后通过 https://localhost:8008 访问 Web UI。

cd kyuteye_pt
uv run server configs/moshika-vis.yaml --port 8088

Rust 后端

对于 Rust 后端,你需要安装最新版本的Rust 工具链。要编译 GPU 支持,还需要安装CUDA,特别是 nvcc

运行以下命令启动 Rust 推理服务器:

cd kyuteye_rs
cargo run --features cuda --bin moshi-backend -r -- --config configs/config-moshika-vis.json standalone --vis

MLX 后端

我们提供了 bfloat16q4q8 量化的 MLX 模型检查点。你可以通过以下命令启动 MoshiVis MLX 后端:

cd kyuteye_mlx
# 使用 bfloat16 权重
uv run server

# 使用 q4 量化权重
uv run server -q 4

# 使用 q8 量化权重
uv run server -q 8

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
11月前
|
人工智能 搜索推荐
阿里语音AI提供了个性化人声定制功能
【2月更文挑战第24天】阿里语音AI提供了个性化人声定制功能
901 2
|
24天前
|
人工智能 API 语音技术
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。
168 43
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
|
7天前
|
人工智能 自然语言处理 搜索推荐
AI对话像真人!交交:上海交大推出全球首个口语对话情感大模型,支持多语言与实时音色克隆
上海交通大学推出的交交是全球首个纯学术界自研的口语对话情感大模型,具备多语言交流、方言理解、角色扮演和情感互动等能力,通过创新技术实现端到端语音对话和实时音色克隆。
77 14
AI对话像真人!交交:上海交大推出全球首个口语对话情感大模型,支持多语言与实时音色克隆
|
24天前
|
人工智能 搜索推荐 图形学
ChatAnyone:阿里通义黑科技!实时风格化肖像视频生成框架震撼发布
阿里巴巴通义实验室推出的ChatAnyone框架,通过高效分层运动扩散模型和混合控制融合技术,实现高保真度、自然度的实时肖像视频生成。
126 13
ChatAnyone:阿里通义黑科技!实时风格化肖像视频生成框架震撼发布
|
9月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12771 116
|
3月前
|
JSON 测试技术 语音技术
VITA-1.5: 迈向GPT-4o级实时视频-语音交互
近期,由南京大学和腾讯优图推出的VITA-1.5在魔搭开源。VITA-1.5支持视频,音频,文本输入,以及音频输出。
310 66
|
4月前
|
人工智能 自然语言处理 前端开发
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
Lobe Vidol是一款开源的AI数字人交互平台,允许用户创建和互动自己的虚拟偶像。该平台提供流畅的对话体验、丰富的动作姿势库、优雅的用户界面设计以及多种技术支持,如文本到语音和语音到文本技术。Lobe Vidol适用于娱乐互动、在线教育、客户服务、品牌营销和社交媒体等多个应用场景。
297 7
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
|
8月前
|
自然语言处理 语音技术
|
11月前
|
人工智能 搜索推荐 语音技术
有道开源的国产语音库EmotiVoice爆火了!具有情绪控制功能的语音合成引擎!
有道开源的国产语音库EmotiVoice爆火了!具有情绪控制功能的语音合成引擎!
1951 0
|
人工智能 达摩院 搜索推荐
前沿科技 | 定制语音四部曲,让AI语音更具“人情味”
编者按: “冰雪是冬天的礼物;而我,最懂冰雪的快乐。驭冰雪是我独具的智慧。想要玩转冰雪的更多可能?跟上我,去未来!” 当冬奥虚拟主持人冬冬以语音合成的方式说出这句话时,原始发音人吃惊地表示,她已经分不出来这究竟是不是她说的话了。 达摩院语音实验室通过技术四部曲,即可完成虚拟主持人的个性化语音定制,今天请跟随我们的脚步一起来看看他们是如何实现的吧! 本文约2091字,建议阅读时间7分钟。
413 0
前沿科技 | 定制语音四部曲,让AI语音更具“人情味”

热门文章

最新文章