ChatTTS:专为对话场景设计的文本转语音模型,底模开源!

简介: 最近,开源社区杀出一匹文本转语音领域的黑马——ChatTTS,在Github上仅4天斩获11.2k star。

引 言

最近,开源社区杀出一匹文本转语音领域的黑马——ChatTTS,在Github上仅4天斩获11.2k star。

image.png

https://github.com/2noise/ChatTTS

ChatTTS是一个专门为对话场景设计的文本转语音模型,例如众所周知的GPT-4o这样的LLM助手对话任务。ChatTTS支持英文和中文两种语言,最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。

模型亮点:

  1. 对话式 TTS: ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。
  2. 细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。
  3. 更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。


目前模型也开源至ModelScope魔搭社区,社区免费算力即可玩转,感谢社区开发者pzc-163,社区开发者还搭建了创空间可直接体验👇

模型下载

在魔搭社区可下载ChatTTS模型

模型链接:https://modelscope.cn/models/pzc163/chatTTS

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('pzc163/chatTTS')

模型推理

使用魔搭社区免费算力,完成模型推理

# pip install -r requirement.txt
# pip install Ipython
# pip install soundfile
from ChatTTS import Chat
from IPython.display import Audio
#下载模型
from modelscope import snapshot_download

model_dir = snapshot_download('pzc163/chatTTS')

chat = Chat()
chat.load_models(source='local', local_path=model_dir)

texts = ["你好,我是ChatTTS,很高兴认识大家",]

wavs = chat.infer(texts, use_decoder=True)
Audio(wavs[0], rate=24_000, autoplay=True)

# save audio
import soundfile as sf
audio_data = wavs[0]
if len(audio_data.shape) > 1:  
    audio_data = audio_data.flatten()

output_file = './output_audio2.wav'
sf.write(output_file, audio_data, 24000)
print(f"Audio saved to {output_file}")


搭建Web-UI体验

体验地址:

https://modelscope.cn/studios/AI-ModelScope/ChatTTS-demo/summary

image.png

image.png

同时也可以使用如下命令👇,将该创空间clone下来,运行如下代码,就可以拥有自己专属的ChatTTS WebUI啦!

git clone https://www.modelscope.cn/studios/AI-ModelScope/ChatTTS-demo.git
cd ChatTTS 
pip install -r requirements.txt 
python app.py



点击链接👇直达体验~

ChatTTS-demo

相关文章
|
7月前
|
SQL 人工智能 分布式计算
基于阿里云PAI平台搭建知识库检索增强的大模型对话系统
基于原始的阿里云计算平台产技文档,搭建一套基于大模型检索增强答疑机器人。本方案已在阿里云线上多个场景落地,将覆盖阿里云官方答疑群聊、研发答疑机器人、钉钉技术服务助手等。线上工单拦截率提升10+%,答疑采纳率70+%,显著提升答疑效率。
|
7月前
|
人工智能 测试技术 API
ChatGLM3-6B:新一代开源双语对话语言模型,流畅对话与低部署门槛再升级
ChatGLM3-6B:新一代开源双语对话语言模型,流畅对话与低部署门槛再升级
ChatGLM3-6B:新一代开源双语对话语言模型,流畅对话与低部署门槛再升级
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
对于 OpenAI 最新发布 支持实时语音对话的模型GPT-4o,你想说什么?
【6月更文挑战第4天】对于 OpenAI 最新发布 支持实时语音对话的模型GPT-4o,你想说什么?个人关于 OpenAI 最新发布的支持实时语音对话模型的 GPT-4o 想说的内容
|
30天前
|
机器学习/深度学习 人工智能 自然语言处理
OpenAI 推出 GPT-4o,免费向所有人提供GPT-4级别的AI ,可以实时对音频、视觉和文本进行推理,附使用详细指南
GPT-4o不仅提供与GPT-4同等程度的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力,无论你是付费用户,还是免费用户,都能通过它体验GPT-4了
84 1
|
30天前
|
人工智能 搜索推荐 语音技术
有道开源的国产语音库EmotiVoice爆火了!具有情绪控制功能的语音合成引擎!
有道开源的国产语音库EmotiVoice爆火了!具有情绪控制功能的语音合成引擎!
274 0
|
30天前
|
人工智能 自然语言处理 语音技术
ZeroSwot:零数据训练,成功突破语音翻译难题
【2月更文挑战第16天】ZeroSwot:零数据训练,成功突破语音翻译难题
30 1
ZeroSwot:零数据训练,成功突破语音翻译难题
|
30天前
|
人工智能 自然语言处理 机器人
NLP自学习平台中的文本摘要功能并不仅限于电商版
【1月更文挑战第20天】【1月更文挑战第100篇】NLP自学习平台中的文本摘要功能并不仅限于电商版
122 2
|
11月前
|
人工智能 自然语言处理 安全
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
512 0
|
8月前
|
JSON 编解码 物联网
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
|
10月前
|
人工智能 自然语言处理 机器人
开箱即用的对话机器人解决方案,涵盖问答型对话、任务型对话和聊天型对话等多种场景,为您提供全方位的对话交互体验。
开箱即用的对话机器人解决方案,涵盖问答型对话、任务型对话和聊天型对话等多种场景,为您提供全方位的对话交互体验。
开箱即用的对话机器人解决方案,涵盖问答型对话、任务型对话和聊天型对话等多种场景,为您提供全方位的对话交互体验。