ChatTTS:专为对话场景设计的文本转语音模型,底模开源!

简介: 最近,开源社区杀出一匹文本转语音领域的黑马——ChatTTS,在Github上仅4天斩获11.2k star。

引 言

最近,开源社区杀出一匹文本转语音领域的黑马——ChatTTS,在Github上仅4天斩获11.2k star。

image.png

https://github.com/2noise/ChatTTS

ChatTTS是一个专门为对话场景设计的文本转语音模型,例如众所周知的GPT-4o这样的LLM助手对话任务。ChatTTS支持英文和中文两种语言,最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。

模型亮点:

  1. 对话式 TTS: ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。
  2. 细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。
  3. 更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。


目前模型也开源至ModelScope魔搭社区,社区免费算力即可玩转,感谢社区开发者pzc-163,社区开发者还搭建了创空间可直接体验👇

模型下载

在魔搭社区可下载ChatTTS模型

模型链接:https://modelscope.cn/models/pzc163/chatTTS

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('pzc163/chatTTS')

模型推理

使用魔搭社区免费算力,完成模型推理

# pip install -r requirement.txt
# pip install Ipython
# pip install soundfile
from ChatTTS import Chat
from IPython.display import Audio
#下载模型
from modelscope import snapshot_download

model_dir = snapshot_download('pzc163/chatTTS')

chat = Chat()
chat.load_models(source='local', local_path=model_dir)

texts = ["你好,我是ChatTTS,很高兴认识大家",]

wavs = chat.infer(texts, use_decoder=True)
Audio(wavs[0], rate=24_000, autoplay=True)

# save audio
import soundfile as sf
audio_data = wavs[0]
if len(audio_data.shape) > 1:  
    audio_data = audio_data.flatten()

output_file = './output_audio2.wav'
sf.write(output_file, audio_data, 24000)
print(f"Audio saved to {output_file}")


搭建Web-UI体验

体验地址:

https://modelscope.cn/studios/AI-ModelScope/ChatTTS-demo/summary

image.png

image.png

同时也可以使用如下命令👇,将该创空间clone下来,运行如下代码,就可以拥有自己专属的ChatTTS WebUI啦!

git clone https://www.modelscope.cn/studios/AI-ModelScope/ChatTTS-demo.git
cd ChatTTS 
pip install -r requirements.txt 
python app.py



点击链接👇直达体验~

ChatTTS-demo

相关文章
|
机器学习/深度学习 自然语言处理 语音技术
字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言(Python3.10)
按照固有的思维方式,如果想要语音克隆首先得有克隆对象具体的语言语音样本,换句话说,克隆对象必须说过某一种语言的话才行,但现在,coqui-ai TTS V2.0版本做到了,真正的跨语种无需训练的语音克隆技术。 coqui-ai TTS实现跨语种、无需训练克隆语音的方法是基于Tacotron模型,该模型使用了一种音素输入表示来鼓励在不同语种之间共享模型容量。此外,还引入了对抗损失项,以鼓励模型将说话者身份与语音内容进行解耦。这使得模型能够在不同语种之间进行语音合成,而无需在任何双语或平行示例上进行训练。
字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言(Python3.10)
|
4月前
|
存储 缓存 Java
我们来说一说 JVM 的内存模型
我是小假 期待与你的下一次相遇 ~
378 5
|
Linux 网络安全 Python
linux centos上安装python3.11.x详细完整教程
这篇文章提供了在CentOS系统上安装Python 3.11.x版本的详细步骤,包括下载、解压、安装依赖、编译配置、解决常见错误以及版本验证。
11056 3
linux centos上安装python3.11.x详细完整教程
|
存储 Linux C语言
Linux C/C++之IO多路复用(aio)
这篇文章介绍了Linux中IO多路复用技术epoll和异步IO技术aio的区别、执行过程、编程模型以及具体的编程实现方式。
750 1
Linux C/C++之IO多路复用(aio)
【手把手教学】最新ChatTTS语音合成项目使用指南【附所有源码与模型】
【手把手教学】最新ChatTTS语音合成项目使用指南【附所有源码与模型】
|
9月前
|
人工智能 自然语言处理 API
推荐几个常用免费的文本转语音工具
本文推荐了几款免费的文本转语音工具,包括功能全面的AI易视频、支持多语言的Google TTS、操作便捷的Natural Reader、离线使用的Balabolka以及轻量级的Speech2Go。其中AI易视频特别适合小说转语音,可智能分配角色音色,打造广播剧般的听觉体验。这些工具各具特色,能满足不同场景需求,助力内容创作更高效。
2914 5
|
人工智能 自然语言处理 机器人
手把手带你搭建一个语音对话机器人,5分钟定制个人AI小助手(新手入门篇)
本文介绍了如何从零开始搭建一个语音对话机器人,涵盖自动语音识别(ASR)、自然语言处理(NLP)和文本到语音合成(TTS)三大核心模块。通过使用开源工具如FunASR、LLaMA3-8B和ChatTTS,以及FastAPI和Gradio等技术,详细指导读者轻松实现个人AI小助手的构建,适合技术新手快速上手。
6098 1
|
缓存 自然语言处理 JavaScript
Web服务器的动态内容生成与处理
【8月更文第28天】在Web开发领域,动态内容生成是指根据用户请求实时生成页面内容的过程。这与静态内容生成不同,后者的内容在部署时就已经确定,不会随用户的请求而改变。动态内容生成通常依赖于服务器端脚本语言,例如PHP、Node.js等,它们能够根据不同的请求参数生成特定的响应数据。本文将探讨几种流行的服务器端脚本语言在动态网页生成中的作用及其优化方法,并提供相应的代码示例。
552 0
|
语音技术 开发工具 git
要进行ModelScope-Funasr实时ASR的微调,您可以按照以下步骤操作:
要进行ModelScope-Funasr实时ASR的微调,您可以按照以下步骤操作:
1711 5
|
Python
python小项目之利用pygame实现代码雨动画效果(附源码 可供学习)
python小项目之利用pygame实现代码雨动画效果(附源码 可供学习)
544 1