ChatTTSPlus:开源文本转语音工具,支持语音克隆,是 ChatTTS 的扩展版本

简介: ChatTTSPlus 是一个开源的文本转语音工具,是 ChatTTS 的扩展版本,支持语音克隆、TensorRT 加速和移动模型部署等功能,极大地提升了语音合成的性能和灵活性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持语音克隆、TensorRT 加速和移动模型部署。
  2. 性能:在 Windows 平台上实现了超过 3 倍的加速,处理速度从 28 tokens/s 提升到 110 tokens/s。
  3. 应用:适用于有声读物、语言学习、辅助技术、客户服务和娱乐游戏等多种场景。

正文(附运行示例)

ChatTTSPlus 是什么

公众号: 蚝油菜花 - ChatTTSPlus

ChatTTSPlus 是 ChatTTS 的扩展版本,增加了 TensorRT 加速、语音克隆和移动模型部署等功能,极大地提升了语音合成的性能和灵活性。在 Windows 平台上,ChatTTSPlus 实现了超过 3 倍的加速,从 28 tokens/s 提升到 110 tokens/s,显著提高了处理速度。

ChatTTSPlus 基于 LoRA 等技术实现了语音克隆,通过剪枝和知识蒸馏等技术进行模型压缩和加速,创造个性化语音的能力。此外,ChatTTSPlus 提供了 Windows 整合包,方便用户一键提取和使用。

ChatTTSPlus 的主要功能

  • TensorRT 加速:基于 TensorRT 技术,在 Windows 平台上实现超过 3 倍的加速,提高语音合成的效率。
  • 语音克隆:使用 LoRA 等技术,支持用户复制特定人的声音。
  • 移动模型部署:通过模型压缩和加速,使语音合成模型能够在移动设备上运行。
  • 一键提取和使用:提供 Windows 整合包,用户可以一键提取和使用,简化安装和配置过程。
  • 模型压缩:使用剪枝和知识蒸馏技术,减少模型大小,提高运行效率,适应资源受限的环境。
  • Web UI 演示:提供基于 TensorRT 和 PyTorch 的 Web 用户界面,方便用户快速体验和测试语音合成功能。

ChatTTSPlus 的技术原理

  • 深度学习优化:基于深度学习技术优化语音合成过程,提高合成语音的自然度和流畅性。
  • 高性能计算:TensorRT 的集成使得在 GPU 上运行的语音合成任务更加高效,尤其是在 NVIDIA 的硬件上。
  • 跨平台部署:支持移动端的部署,使语音合成技术能够应用于更广泛的设备和场景。

如何运行 ChatTTSPlus

环境配置

  1. 安装 Python 3,推荐使用 Miniforge。运行以下命令:
    conda create -n chattts_plus python=3.10 && conda activate chattts_plus
    
  2. 下载源代码:
    git clone https://github.com/warmshao/ChatTTSPlus
    cd ChatTTSPlus
    
  3. 安装必要的 Python 库:
    pip install -r requirements.txt
    
  4. [可选] 如果需要使用 TensorRT,请安装 TensorRT 10
  5. [推荐] 对于 Windows 用户,可以直接从 Google Drive 链接 下载整合包,解压后双击 webui.bat 即可使用。如果需要更新代码,请双击 update.bat

运行示例

  • 使用 TensorRT 的 Web UI
    python webui.py --cfg configs/infer/chattts_plus_trt.yaml
    
  • 使用 PyTorch 的 Web UI
    python webui.py --cfg configs/infer/chattts_plus.yaml
    

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
机器学习/深度学习 存储 人工智能
5秒实现AI语音克隆(Python)
推荐一个有趣的AI黑科技--MockingBird,该项目集成了Python开发,语音提取、录制、调试、训练一体化GUI操作,号称只需要你的 5 秒钟的声音,就能实时克隆出你的任意声音
|
9月前
|
机器学习/深度学习 人工智能 开发工具
Clone-voice:开源的声音克隆工具,支持文本转语音或改变声音风格,支持16种语言
Clone-voice是一款开源的声音克隆工具,支持16种语言,能够将文本转换为语音或将一种声音风格转换为另一种。该工具基于深度学习技术,界面友好,操作简单,适用于多种应用场景,如视频制作、语言学习和广告配音等。
1570 9
Clone-voice:开源的声音克隆工具,支持文本转语音或改变声音风格,支持16种语言
|
8月前
|
人工智能 自然语言处理 并行计算
Kokoro-TTS:超轻量级文本转语音模型,支持生成多种语言和多种语音风格
Kokoro-TTS 是一款轻量级文本转语音模型,支持多语言和多语音风格生成,具备实时处理能力和低资源占用,适用于多种应用场景。
1122 5
Kokoro-TTS:超轻量级文本转语音模型,支持生成多种语言和多种语音风格
|
11月前
|
API Windows
Window本地部署ChatTTS
这篇文章详细介绍了如何在Windows系统上本地部署ChatTTS,实现将文本转化为高质量的语音输出,并提供了简便的部署方法和使用指南。
856 2
Window本地部署ChatTTS
|
9月前
|
人工智能 自然语言处理 人机交互
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。
6521 22
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
|
7月前
|
人工智能 编解码 自然语言处理
Zonos:油管博主集体转粉!开源TTS神器Zonos爆火:克隆你的声音说5国语言,还能调喜怒哀乐
Zonos 是 ZyphraAI 推出的开源多语言 TTS 模型,支持语音克隆、情感控制和多种语言,适用于有声读物、虚拟助手等场景。
381 18
Zonos:油管博主集体转粉!开源TTS神器Zonos爆火:克隆你的声音说5国语言,还能调喜怒哀乐
|
7月前
|
人工智能 物联网 测试技术
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
小红书开源的工业级自动语音识别模型,支持普通话、中文方言和英语,采用 Encoder-Adapter-LLM 和 AED 架构,实现 SOTA 性能。
2041 17
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
|
6月前
|
人工智能 自然语言处理 语音技术
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。
277 2
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
|
7月前
|
存储 人工智能 并行计算
KTransformers:告别天价显卡!国产框架让单卡24G显存跑DeepSeek-R1 671B大模型:推理速度飙升28倍
KTransformers 是由清华大学和趋境科技联合推出的开源项目,能够优化大语言模型的推理性能,降低硬件门槛。支持在仅24GB显存的单张显卡上运行671B参数的满血版大模型。
1945 8
KTransformers:告别天价显卡!国产框架让单卡24G显存跑DeepSeek-R1 671B大模型:推理速度飙升28倍
|
9月前
|
人工智能 自然语言处理 算法
开源更新|语音生成大模型CosyVoice升级2.0版本
开源更新|语音生成大模型CosyVoice升级2.0版本

热门文章

最新文章