Hibiki:实时语音翻译模型打破语言交流障碍!支持将语音实时翻译成其他语言的语音或文本

简介: Hibiki 是由 Kyutai Labs 开发的实时语音翻译模型,能够将一种语言的语音实时翻译成另一种语言的语音或文本,支持高保真度和低延迟。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


大家好,我是蚝油菜花,今天跟大家分享一下 Hibiki 这个开源的实时语音翻译模型,能够将一种语言的语音实时翻译成另一种语言的语音或文本。

🚀 快速阅读

Hibiki 是一个用于实时语音翻译的解码器模型,支持语音到语音(S2ST)和语音到文本(S2TT)的翻译功能。

  1. 核心功能:实时语音到语音和文本翻译,支持批量和设备端部署。
  2. 技术原理:基于多流语言模型架构,使用弱监督学习生成合成数据,确保低延迟和高保真度。

Hibiki 是什么

Hibiki

Hibiki 是由 Kyutai Labs 开源的实时语音翻译模型,能够将一种语言的语音实时翻译成另一种语言的语音或文本。它基于多流语言模型架构,同步处理源语音和目标语音,联合生成文本和音频标记,实现语音到语音(S2ST)和语音到文本(S2TT)的翻译功能。Hibiki 使用弱监督学习方法,基于文本翻译系统的困惑度识别单词级的最佳延迟,创建对齐的合成数据进行训练。

Hibiki 在法语到英语的翻译任务中表现出色,具有高翻译质量、说话者保真度和自然度,支持批量翻译和实时设备端部署,展现了强大的实用潜力。

Hibiki 的主要功能

  • 实时语音到语音翻译(S2ST):将一种语言的语音实时翻译成另一种语言的语音,保留说话者的音色和语调。
  • 实时语音到文本翻译(S2TT):将语音实时翻译成目标语言的文本,提供更灵活的使用场景。
  • 低延迟翻译:基于实时积累上下文信息,逐块生成翻译内容,延迟极低,接近人类口译水平。
  • 高保真度:生成的语音自然流畅,与源语音的音色和语调高度相似,用户体验接近专业人类口译。
  • 支持批量和实时部署:推理过程简单,支持批量处理和实时设备端部署,适合大规模应用。

Hibiki 的技术原理

  • 多流语言模型架构

    • 同步处理:同时接收源语音和生成目标语音,基于多流架构联合建模两个音频流。
      avigator。
    • 文本和音频标记:模型预测文本和音频标记的层次结构,实现语音到文本和语音到语音的翻译。
    • 因果音频编解码器:用预训练的因果音频编解码器(如Mimi)将语音编码为低帧率的离散标记,支持实时流式处理。
  • 弱监督学习与上下文对齐

    • 合成数据生成:基于翻译单语音频的转录文本并重新合成目标语音,生成对齐的合成数据。
    • 上下文对齐:用现成文本翻译系统的困惑度,计算单词级对齐,确保目标语音的生成与源语音的上下文同步。
    • 静音插入与对齐感知TTS:基于插入静音或用对齐感知的TTS模型重新合成目标语音,确保目标语音的延迟符合实时翻译的要求。
  • 说话者相似性与分类器自由引导

    • 说话者相似性标记:对训练数据进行说话者相似性分类标记,避免过滤数据的同时,在推理时优先选择高相似性样本。
    • 分类器自由引导:调整条件标签的权重,增强模型对说话者相似性的控制,进一步提升语音保真度。
  • 高效的推理过程

    • 温度采样:用温度采样技术,结合因果音频编解码器,实现流式输入和输出。
    • 批量处理与实时部署:推理过程简单高效,支持批量处理和实时设备端部署,适合大规模应用场景。

如何运行 Hibiki

1. PyTorch

为了使用 PyTorch 运行 Hibiki,首先需要安装 moshi 包:

pip install -U moshi
AI 代码解读

然后可以从 kyutai-labs/moshi 获取示例文件,并通过以下命令进行翻译:

wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
python -m moshi.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-pytorch-bf16
AI 代码解读

你可以通过 --cfg-coef 参数指定分类器自由引导系数,默认值为 1,较高的值会使生成的语音更接近原始语音。常用的值为 3。

2. MLX

为了使用 MLX 运行 Hibiki,首先需要安装 moshi_mlx 包:

pip install -U moshi_mlx
AI 代码解读

然后可以从 kyutai-labs/moshi 获取示例文件,并通过以下命令进行翻译:

wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
python -m moshi_mlx.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-mlx-bf16
AI 代码解读

同样可以通过 --cfg-coef 参数指定分类器自由引导系数。

3. MLX-Swift

kyutai-labs/moshi-swift 仓库包含了一个可以在 iPhone 上运行的 MLX-Swift 实现。此代码为实验性质,已在 iPhone 16 Pro 上测试通过。

4. Rust

hibiki-rs 目录包含了一个简单的 Rust 应用程序,可以根据原始音频文件生成翻译。你可以使用 --features cuda 来在 NVIDIA GPU 上运行,或者使用 --features metal 来在 Mac 上运行。

cd hibiki-rs
wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
cargo run  --features metal -r -- gen sample_fr_hibiki_crepes.mp3 out_en.wav
AI 代码解读

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
打赏
0
16
18
2
401
分享
相关文章
Zonos:油管博主集体转粉!开源TTS神器Zonos爆火:克隆你的声音说5国语言,还能调喜怒哀乐
Zonos 是 ZyphraAI 推出的开源多语言 TTS 模型,支持语音克隆、情感控制和多种语言,适用于有声读物、虚拟助手等场景。
318 18
Zonos:油管博主集体转粉!开源TTS神器Zonos爆火:克隆你的声音说5国语言,还能调喜怒哀乐
exo:22.1K Star!一个能让任何人利用日常设备构建AI集群的强大工具,组成一个虚拟GPU在多台设备上并行运行模型
exo 是一款由 exo labs 维护的开源项目,能够让你利用家中的日常设备(如 iPhone、iPad、Android、Mac 和 Linux)构建强大的 AI 集群,支持多种大模型和分布式推理。
1164 100
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
小红书开源的工业级自动语音识别模型,支持普通话、中文方言和英语,采用 Encoder-Adapter-LLM 和 AED 架构,实现 SOTA 性能。
1576 17
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
WhisperChain:开源 AI 实时语音转文字工具!自动消噪优化文本,效率翻倍
WhisperChain 是一款基于 Whisper.cpp 和 LangChain 的开源语音识别工具,能够实时将语音转换为文本,并自动清理和优化文本内容,适用于会议记录、写作辅助等多种场景。
1489 2
WhisperChain:开源 AI 实时语音转文字工具!自动消噪优化文本,效率翻倍
Ola:清华联合腾讯等推出的全模态语言模型!实现对文本、图像、视频和音频的全面理解
Ola 是由清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型,支持文本、图像、视频和音频输入,并具备实时流式解码功能。
342 16
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型,具备拟人口语化表达、低延迟响应和多情感控制等功能。
1286 21
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频
JoyGen 是京东和香港大学联合推出的音频驱动的3D说话人脸视频生成框架,支持多语言、高质量视觉效果和精确的唇部与音频同步。
278 14
JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
Dolphin是清华大学与海天瑞声联合研发的语音识别大模型,支持40种东方语言和22种中文方言,采用CTC-Attention混合架构,词错率显著低于同类模型。
1400 50
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
TIGER 是清华大学推出的轻量级语音分离模型,通过时频交叉建模和多尺度注意力机制,显著提升语音分离效果,同时降低参数量和计算量。
239 6
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
Orpheus TTS:开源语音克隆王炸!200ms延迟+情感操控,Llama3引爆音效革命
Orpheus TTS 是基于 Llama-3b 架构的开源文本到语音系统,支持自然语音生成、零样本语音克隆和情感引导,适用于有声读物、虚拟助手、游戏等多种场景。
468 1
Orpheus TTS:开源语音克隆王炸!200ms延迟+情感操控,Llama3引爆音效革命

热门文章

最新文章

AI助理
登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问

你好,我是AI助理

可以解答问题、推荐解决方案等