Zonos:油管博主集体转粉!开源TTS神器Zonos爆火:克隆你的声音说5国语言,还能调喜怒哀乐

简介: Zonos 是 ZyphraAI 推出的开源多语言 TTS 模型,支持语音克隆、情感控制和多种语言,适用于有声读物、虚拟助手等场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🎬 “百万播放博主秘密武器!开源AI声优Zonos上线:你的声音能说五国方言,悲伤快乐一键切换”

大家好,我是蚝油菜花。你是否遇到过——

  • 🎧 录中文视频想拓展海外市场,重录多语言版累到声带撕裂
  • 🎙️ 买商用TTS服务,发现情感语调僵硬得像新闻联播重播
  • 💸 想克隆自己声纹,专业工具动不动收费$0.2/秒...

今天要拆解的 ZyphraAI Zonos ,正在用开源力量终结这些痛苦!这个基于20万小时训练的TTS模型,不仅能克隆你的声音说中英日法德,还能通过情感滑块调节喜怒哀乐。更震撼的是——所有代码Apache 2.0开源,接下来就带你看如何免费打造专属AI声优!

🚀 快速阅读

Zonos 是 ZyphraAI 推出的高保真多语言 TTS 模型,支持语音克隆和情感控制。

  1. 核心功能:零样本 TTS、语音克隆、音频前缀输入、多语言支持。
  2. 技术原理:基于 eSpeak 工具进行文本预处理,使用 Transformer 或混合骨干网络预测 DAC 标记,通过自编码器生成高质量语音。

Zonos 是什么

Zonos

Zonos 是 ZyphraAI 推出的一个高保真文本到语音(TTS)模型。它包含两个版本的模型:一个是拥有 16 亿参数的 Transformer 模型,另一个是 SSM 混合模型,均在 Apache 2.0 许可下开源。Zonos 可以根据文本提示和说话人嵌入生成自然、高表达性的语音,支持语音克隆功能,用户可以调节语速、音高、情感等参数,输出采样率为 44kHz。

Zonos 基于约 20 万小时的多语言语音数据训练,主要支持英语,同时对其他语言如日语、中文、法语和德语也有一定的支持。该模型提供了优化的推理引擎,能够快速生成语音,适合实时应用。

Zonos 的主要功能

  • 零样本 TTS 与语音克隆:输入文本和 10-30 秒的说话者样本,生成高质量的 TTS 输出。
  • 音频前缀输入:基于添加文本和音频前缀,更精确地匹配说话者的声音,实现难以通过说话者嵌入复制的行为,如耳语。
  • 多语言支持:支持英语、日语、中文、法语和德语。
  • 音频质量和情感控制:支持精细控制语速、音高、最大频率、音频质量和各种情感,如快乐、愤怒、悲伤等。

Zonos 的技术原理

Zonos

  • 文本预处理:基于 eSpeak 工具进行文本归一化和音素化,将输入文本转换为音素序列。
  • 特征预测:使用 Transformer 或混合骨干网络(Hybrid Backbone)预测 DAC(Discrete Audio Codec)标记。
  • 语音生成:基于预测的 DAC 标记,使用自编码器(Autoencoder)解码生成高质量的语音输出。

如何运行 Zonos

1. Python 示例

import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# 加载预训练模型
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# 加载音频文件并生成说话人嵌入
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# 创建条件字典
cond_dict = make_cond_dict(text="Hello, world!", speaker=speaker, language="en-us")
conditioning = model.prepare_conditioning(cond_dict)

# 生成语音
codes = model.generate(conditioning)
wavs = model.autoencoder.decode(codes).cpu()

# 保存生成的语音
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

2. Gradio 界面(推荐)

uv run gradio_interface.py
# 或者
python gradio_interface.py

这将生成一个 sample.wav 文件在你的项目根目录中。为了提高效率,建议使用 Gradio 界面进行重复采样,因为最小示例每次运行时都需要重新加载模型。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
7月前
|
人工智能 Rust PyTorch
Hibiki:实时语音翻译模型打破语言交流障碍!支持将语音实时翻译成其他语言的语音或文本
Hibiki 是由 Kyutai Labs 开发的实时语音翻译模型,能够将一种语言的语音实时翻译成另一种语言的语音或文本,支持高保真度和低延迟。
773 18
Hibiki:实时语音翻译模型打破语言交流障碍!支持将语音实时翻译成其他语言的语音或文本
|
7月前
|
人工智能 自然语言处理 语音技术
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
Step-Audio 是由阶跃星辰团队推出的开源语音交互模型,支持多语言、方言和情感表达,能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。
1000 91
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
|
7月前
|
机器学习/深度学习 人工智能 机器人
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
TIGER 是清华大学推出的轻量级语音分离模型,通过时频交叉建模和多尺度注意力机制,显著提升语音分离效果,同时降低参数量和计算量。
466 6
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
|
7月前
|
人工智能 物联网 测试技术
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
小红书开源的工业级自动语音识别模型,支持普通话、中文方言和英语,采用 Encoder-Adapter-LLM 和 AED 架构,实现 SOTA 性能。
2355 17
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
|
6月前
|
人工智能 API 语音技术
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。
588 43
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
|
7月前
|
人工智能 自然语言处理 测试技术
Potpie.ai:比Copilot更狠!这个AI直接接管项目代码,自动Debug+测试+开发全搞定
Potpie.ai 是一个基于 AI 技术的开源平台,能够为代码库创建定制化的工程代理,自动化代码分析、测试和开发任务。
592 19
Potpie.ai:比Copilot更狠!这个AI直接接管项目代码,自动Debug+测试+开发全搞定
|
7月前
|
人工智能 API 语音技术
VideoCaptioner:北大推出视频字幕处理神器,AI自动生成+断句+翻译,1小时工作量5分钟搞定
VideoCaptioner 是一款基于大语言模型的智能视频字幕处理工具,支持语音识别、字幕断句、优化、翻译全流程处理,并提供多种字幕样式和格式导出。
1208 89
VideoCaptioner:北大推出视频字幕处理神器,AI自动生成+断句+翻译,1小时工作量5分钟搞定
|
7月前
|
人工智能 自然语言处理 数据可视化
YAYI-Ultra:中国企业终于等来『全能大脑』!开源企业级AI『混合专家』横扫金融舆情中医领域,最长生成20万字报告
YAYI-Ultra 是由中科闻歌研发的企业级大语言模型,具备强大的多领域专业能力和多模态内容生成能力,支持数学、代码、金融等多个领域的专家组合,缓解垂直领域迁移中的“跷跷板”现象。
288 10
YAYI-Ultra:中国企业终于等来『全能大脑』!开源企业级AI『混合专家』横扫金融舆情中医领域,最长生成20万字报告
|
7月前
|
人工智能 自然语言处理 Linux
OSUM:告别ASR单一功能,西工大开源的语音大模型会「读心」!识别+情感分析+年龄预测等8大任务1个模型全搞定
OSUM 是西北工业大学开发的开源语音理解模型,支持语音识别、情感分析、说话者性别分类等多种任务,基于 ASR+X 训练策略,具有高效和泛化能力强的特点。
599 8
OSUM:告别ASR单一功能,西工大开源的语音大模型会「读心」!识别+情感分析+年龄预测等8大任务1个模型全搞定
|
9月前
|
人工智能 自然语言处理 人机交互
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。
6813 22
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性

热门文章

最新文章