Window本地部署ChatTTS

简介: 这篇文章详细介绍了如何在Windows系统上本地部署ChatTTS,实现将文本转化为高质量的语音输出,并提供了简便的部署方法和使用指南。

之前的大模型介绍一直停留在文字交互上,这节部署一个ChatTTS实现文字转语音,而且语音十分接近真人,是最近比较热的一个文字转语音的开源项目了。此前我在window上部署过一次,部署成功了,但是过程稍微复杂些,官网提供的部署方法更适合liunx系统,对window不友好,但如果有liunx系统可以参考尝试下。下面我用一个非常简单的方式来部署,是一个封装好各种包的部署包。

不过官网提供了在线体验的功能非常棒,

首先下载改进后的包,如果需要包的下载地址可以私信我或者给我留言,下载好后解压到文件夹,目录结构如下,

然后,你只需要双击app的那个文件就可以运行了,因为这个包里已经包含了必要的组件,双击运行后会出现如下的日志,最终打印出来一个启动地址,在浏览器输入地址后就可以打开主页面了。

首页中上面是输入要转化的文本,下面是音色提示词以及数字转文本等参数,可以每次修改一个值尝试下效果。选择不同的音色或者音色值转化后的人语音是不一样的,需要注意的是如果文本中存在数字要勾选数字转文本,否则语音会读不准数字的发音。完成后点击立即合成声音就可以生成了,生成完毕声音会显示在下面,点击就可以播放了,

这个版本虽然对原始的chatTTS做了一些修改,但是还提供了API调用的功能,点击生成的语音下显示API调用就可以看到调用的接口文档了。

可以根据接口文档,传入参数值,尝试下。

相关文章
|
11月前
|
人工智能 Linux 测试技术
NexaAI, 一行命令运行魔搭社区模型,首次在设备上运行 Qwen2-Audio
Qwen2-Audio是一个 70亿参数量 SOTA 多模态模型,可处理音频和文本输入。
906 8
|
人工智能 达摩院 并行计算
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,最重要的是,FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,它不仅可以实现语音转写,还能在转写后进行标注,一石二鸟。
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
|
11月前
|
人工智能 物联网 PyTorch
ChatTTSPlus:开源文本转语音工具,支持语音克隆,是 ChatTTS 的扩展版本
ChatTTSPlus 是一个开源的文本转语音工具,是 ChatTTS 的扩展版本,支持语音克隆、TensorRT 加速和移动模型部署等功能,极大地提升了语音合成的性能和灵活性。
880 5
ChatTTSPlus:开源文本转语音工具,支持语音克隆,是 ChatTTS 的扩展版本
|
弹性计算 语音技术
快速部署 ChatTTS 社区版
ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ChatTTS在语音合成中表现出高质量和自然度。本文介绍通过计算巢快速部署 ChatTTS 服务 。
快速部署 ChatTTS 社区版
|
安全 Python
python库ffmpeg的错误解决方法:“Couldn‘t find ffmpeg or avconv - defaulting to ffmpeg, but may not work“
简介:python库ffmpeg的错误解决方法:“Couldn‘t find ffmpeg or avconv - defaulting to ffmpeg, but may not work“
python库ffmpeg的错误解决方法:“Couldn‘t find ffmpeg or avconv - defaulting to ffmpeg, but may not work“
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】ChatTTS:开源文本转语音(text-to-speech)大模型天花板
【机器学习】ChatTTS:开源文本转语音(text-to-speech)大模型天花板
1235 0
|
11月前
|
机器学习/深度学习 人工智能 开发工具
Clone-voice:开源的声音克隆工具,支持文本转语音或改变声音风格,支持16种语言
Clone-voice是一款开源的声音克隆工具,支持16种语言,能够将文本转换为语音或将一种声音风格转换为另一种。该工具基于深度学习技术,界面友好,操作简单,适用于多种应用场景,如视频制作、语言学习和广告配音等。
2068 9
Clone-voice:开源的声音克隆工具,支持文本转语音或改变声音风格,支持16种语言
|
11月前
|
人工智能 自然语言处理 算法
开源更新|语音生成大模型CosyVoice升级2.0版本
开源更新|语音生成大模型CosyVoice升级2.0版本
【手把手教学】最新ChatTTS语音合成项目使用指南【附所有源码与模型】
【手把手教学】最新ChatTTS语音合成项目使用指南【附所有源码与模型】
|
自然语言处理 搜索推荐 Docker
CosyVoice实现声音复刻
这篇文章介绍了如何使用CosyVoice平台实现个性化的声音复刻,包括录制样本音频、上传处理以及生成定制化语音的全流程。
2166 6
CosyVoice实现声音复刻