Zonos:油管博主集体转粉!开源TTS神器Zonos爆火:克隆你的声音说5国语言,还能调喜怒哀乐

简介: Zonos 是 ZyphraAI 推出的开源多语言 TTS 模型,支持语音克隆、情感控制和多种语言,适用于有声读物、虚拟助手等场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🎬 “百万播放博主秘密武器!开源AI声优Zonos上线:你的声音能说五国方言,悲伤快乐一键切换”

大家好,我是蚝油菜花。你是否遇到过——

  • 🎧 录中文视频想拓展海外市场,重录多语言版累到声带撕裂
  • 🎙️ 买商用TTS服务,发现情感语调僵硬得像新闻联播重播
  • 💸 想克隆自己声纹,专业工具动不动收费$0.2/秒...

今天要拆解的 ZyphraAI Zonos ,正在用开源力量终结这些痛苦!这个基于20万小时训练的TTS模型,不仅能克隆你的声音说中英日法德,还能通过情感滑块调节喜怒哀乐。更震撼的是——所有代码Apache 2.0开源,接下来就带你看如何免费打造专属AI声优!

🚀 快速阅读

Zonos 是 ZyphraAI 推出的高保真多语言 TTS 模型,支持语音克隆和情感控制。

  1. 核心功能:零样本 TTS、语音克隆、音频前缀输入、多语言支持。
  2. 技术原理:基于 eSpeak 工具进行文本预处理,使用 Transformer 或混合骨干网络预测 DAC 标记,通过自编码器生成高质量语音。

Zonos 是什么

Zonos

Zonos 是 ZyphraAI 推出的一个高保真文本到语音(TTS)模型。它包含两个版本的模型:一个是拥有 16 亿参数的 Transformer 模型,另一个是 SSM 混合模型,均在 Apache 2.0 许可下开源。Zonos 可以根据文本提示和说话人嵌入生成自然、高表达性的语音,支持语音克隆功能,用户可以调节语速、音高、情感等参数,输出采样率为 44kHz。

Zonos 基于约 20 万小时的多语言语音数据训练,主要支持英语,同时对其他语言如日语、中文、法语和德语也有一定的支持。该模型提供了优化的推理引擎,能够快速生成语音,适合实时应用。

Zonos 的主要功能

  • 零样本 TTS 与语音克隆:输入文本和 10-30 秒的说话者样本,生成高质量的 TTS 输出。
  • 音频前缀输入:基于添加文本和音频前缀,更精确地匹配说话者的声音,实现难以通过说话者嵌入复制的行为,如耳语。
  • 多语言支持:支持英语、日语、中文、法语和德语。
  • 音频质量和情感控制:支持精细控制语速、音高、最大频率、音频质量和各种情感,如快乐、愤怒、悲伤等。

Zonos 的技术原理

Zonos

  • 文本预处理:基于 eSpeak 工具进行文本归一化和音素化,将输入文本转换为音素序列。
  • 特征预测:使用 Transformer 或混合骨干网络(Hybrid Backbone)预测 DAC(Discrete Audio Codec)标记。
  • 语音生成:基于预测的 DAC 标记,使用自编码器(Autoencoder)解码生成高质量的语音输出。

如何运行 Zonos

1. Python 示例

import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# 加载预训练模型
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# 加载音频文件并生成说话人嵌入
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# 创建条件字典
cond_dict = make_cond_dict(text="Hello, world!", speaker=speaker, language="en-us")
conditioning = model.prepare_conditioning(cond_dict)

# 生成语音
codes = model.generate(conditioning)
wavs = model.autoencoder.decode(codes).cpu()

# 保存生成的语音
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
AI 代码解读

2. Gradio 界面(推荐)

uv run gradio_interface.py
# 或者
python gradio_interface.py
AI 代码解读

这将生成一个 sample.wav 文件在你的项目根目录中。为了提高效率,建议使用 Gradio 界面进行重复采样,因为最小示例每次运行时都需要重新加载模型。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
打赏
0
16
18
4
343
分享
相关文章
复刻Sora有多难?一张图带你读懂Sora的技术路径
OpenAI发布了视频生成模型Sora,最大的Sora模型能够生成一分钟的高保真视频。同时OpenAI称,可扩展的视频生成模型,是构建物理世界通用模拟器的一条可能的路径。
【AI帮我写代码,上班摸鱼不是梦】手摸手图解CodeWhisperer的安装使用
除了借助ChatGPT通过问答的方式生成代码,也可以通过IDEA插件在写代码是直接帮助我们生成代码。 目前,IDEA插件有CodeGeeX、CodeWhisperer、Copilot。其中,CodeGeeX和CodeWhisperer是完全免费的,Copilot是收费的,每月10美元。 下面我们来了解CodeWhisperer的安装和使用,如果你还想了解其他的可以在评论告诉我。
274 4
SongGen:三秒克隆音色!开源AI一键生成专业级歌曲,创作人必备神器
SongGen是由上海AI Lab、北京航空航天大学和香港中文大学联合推出的单阶段自回归Transformer模型,能够通过文本生成高质量歌曲,支持混合模式和双轨模式,显著提升生成歌曲的自然度和人声清晰度。
118 3
SongGen:三秒克隆音色!开源AI一键生成专业级歌曲,创作人必备神器
【01】AI制作音乐之三款AI音乐软件推荐,包含AI编曲-AI伴奏-AI混音合成remix等-其次关于音乐版权的阐述-跟随卓伊凡学习如何AI制作音乐-优雅草卓伊凡
【01】AI制作音乐之三款AI音乐软件推荐,包含AI编曲-AI伴奏-AI混音合成remix等-其次关于音乐版权的阐述-跟随卓伊凡学习如何AI制作音乐-优雅草卓伊凡
232 13
吊打中文合成!这款开源语音神器效果炸裂,逼真到离谱!
Spark-TTS 是一个面向中文及多语言文本转语音(TTS)场景的开源项目,旨在帮助开发者快速、简便地生成自然流畅的语音合成结果。它拥有灵活的配置方式和良好的扩展性能,对于需要文本到语音功能的应用场景,如有声读物、播客制作、智能客服、语音助手等,都提供了高可用性和可定制化的方案。凭借对多语种、多音色的支持以及清晰自然的发音质量,Spark-TTS 获得了许多开发者的青睐。
【独家秘籍】揭秘!如何用阿里云TTS魔法般将文字瞬间变成天籁之音,让你的作品开口说话,震撼人心!
【8月更文挑战第15天】通过阿里云语音合成服务(TTS),开发者可将文本转为自然语音,适用于有声阅读、客服等场景。首先注册并获取AccessKey ID/Secret,然后安装阿里云Python SDK。使用示例代码设置语音参数(如发音人xiaoyun、引擎wavenet),发送请求并保存生成的MP3文件。注意正确认证及异常处理,以确保应用稳定可靠。
507 0
还在死磕AI咒语?北大-百川搞了个自动提示工程系统PAS
【10月更文挑战第4天】北京大学和百川智能研究人员开发了一种名为PAS的即插即用自动提示工程(APE)系统,利用高质量数据集训练的大型语言模型(LLMs),在基准测试中取得了显著成果,平均提升了6.09个百分点。PAS仅需9000个数据点即可实现顶尖性能,并能自主生成提示增强数据,提高了灵活性和效率。尽管存在训练数据质量和提示多样性等方面的潜在局限性,PAS仍为解决提示工程挑战提供了有前景的方法,有望提升LLM的可用性和有效性。论文详见:https://arxiv.org/abs/2407.06027。
102 3
AI 加成?翻译贼 6?deepl 踩坑记
昨儿个老板突然让把某官网文档翻译成英文,文档是 markdown 写的,好像有上百篇吧,人工翻译是不可能了,所以找到了 deepl 的 API,打算让我脚本快速翻一下。所以就成功让我水出了本篇。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等