这款文本转语音(TTS)

简介: 【8月更文挑战第6天】Fish Speech是一款先进的开源文本转语音(TTS)工具,它能迅速将文字转换为流畅自然的语音,尤其适合镜头前感到紧张的人制作视频内容。Fish Speech支持中文、英文及日文等多种语言,可通过简单的原始语音样本快速克隆个性化声音。其架构设计高效,仅需4GB显存即可运行,采用Flash-Attn算法实现高性能语音合成。Fish Speech具备易用性,提供Web界面操作,并可在Linux与Windows系统上部署。用户可通过官网([https://fish.audio/zh-CN/](https://fish.audio/zh-CN/))直接体验其强大功能。

如果你打算制作视频,但又觉得在镜头前有些紧张,那么你将迎来好消息。今年,各种文本转语音(TTS)工具如雨后春笋般涌现,只需准备好文字内容,TTS 就能自动转换成各种语音。

开源的 TTS 项目,它能够快速复制声音,效果令人印象深刻,能够满足用户的个性化需求。它就是:Fish Speech。

Github 地址https://github.com/fishaudio/fish-speech

Fish Speech 是一款高度可定制的文本转语音(TTS)解决方案,架构设计如下图所示,分为训练阶段一和二,以及在线推理阶段。它能够根据用户的具体需求,提供灵活多变的声音输出。该工具特别采用了 Flash-Attn 算法,这一算法在处理大规模数据集时表现出色,以其卓越的效率、精确度和稳定性而闻名,从而显著提升了 TTS 技术的整体性能。

image.png

Fish Speech 的另一个亮点是其无需复杂的训练过程,用户只需上传一段原始语音样本,便能迅速生成与之相似的语音。此外,该工具对显存的要求相对较低,只需 4GB 的内存即可运行,且推理速度非常快,这大大提升了用户的使用体验。

自发布以来,Fish Speech 凭借其出色的效果和易于上手的特点,迅速获得了广泛的关注和好评。

image.png

它具备的特性如下所示:

  1. 文本至语音的即时转换:迅速将文字转换为自然流畅的语音输出。

  2. 多语种覆盖:支持中文、英文和日文等多种语言,轻松跨越语言障碍。

  3. 个性化语音克隆:借助深度学习技术,轻松克隆个性化语音。

  4. 低资源占用:仅需 4GB 显存,降低硬件需求门槛。

  5. 快速处理:优化推理流程,减少等待时间,提升处理效率。

  6. 丰富的语音模型选择:提供多种先进语音模型,满足不同应用需求。

  7. 易于使用:简化安装和配置过程,用户可轻松上手。

  8. 精细调校:LoRA 技术支持对模型进行细致调整。

  9. 性能优化:采用先进技术,确保高效稳定的语音转换能力。

部署

第一、资源要求

  • GPU 内存
  • 4GB (用于推理),8GB (用于微调)

  • 支持操作系统
  • Linux、Windows

window建议考虑 WSL2 或 docker 来运行代码库。如果是想要不使用Linux环境来安装的话,可以参考文档进行操作,也不是很复杂。

第二、Linux 系统部署参考如下


# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenvconda create -n fish-speech python=3.10conda activate fish-speech
# 安装 pytorchpip3 install torch torchvision torchaudio
# 安装 fish-speechpip3 install -e .
# (Ubuntu / Debian 用户) 安装 soxapt install libsox-dev

第三、完成部署启动后 Web 界面效果如下

image.png


Fish Speech 推理过程可以分为几个关键步骤:

1. 语音编码:首先,输入一段大约10秒的语音,使用 VQGAN(VQ-VAE-GAN)对其进行编码。

2. 语义 token 与文本结合:将编码后的语义 token 与相应的文本输入给大模型,作为训练的例子。

3. 生成新的语义 token:给定一段新的文本,让大模型生成对应的语义 token。

4. 语音解码:将生成的语义 token 输入 VQGAN 进行解码,生成对应的语音输出。

目前,推理支持三种不同的方式:命令行、HTTP API 和 Web UI。

接下来,我将介绍 HTTP API 和 Web UI的使用方式。

第一、HTTP API 方式

要使用 HTTP API,首先需要启动 AP I服务。用户可以通过发送特定的 HTTP请求来触发推理过程。比如:可以发送一个 POST 请求,包含语音编码后的数据和待生成的文本,然后 API 会返回相应的语音输出。这种方式适合自动化处理,比如:在服务器端集成或通过编程调用。

步骤一:启动服务

python -m tools.api \\    --listen 0.0.0.0:8080 \\    --llama-checkpoint-path "checkpoints/fish-speech-1.2" \\    --decoder-checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \\    --decoder-config-name firefly_gan_vq


步骤二:在 http://127.0.0.1:8080/ 中查看并测试 API,请求示例代码如下:


python -m tools.post_api \\    --text "要输入的文本" \\    --reference_audio "参考音频路径" \\    --reference_text "参考音频的文本内容" \\    --streaming True

第二、Web UI 方式

Web UI 提供了用户友好的界面,让用户可以通过浏览器直接与系统交互。用户可以在界面上输入文本,选择大模型,上传语音样本,并触发推理。Web UI还可能包括一些高级功能,比如:大模型选择、参数调整等。这种方式适合那些不熟悉编程但希望快速体验服务的用户。

启动 Web UI 步骤如下:


python -m tools.webui \\    --llama-checkpoint-path "checkpoints/fish-speech-1.2" \\    --decoder-checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \\    --decoder-config-name firefly_gan_vq


总的来说,HTTP API 和 Web UI 都提供了方便的方式来使用语音转换服务,无论是在自动化还是用户交互方面。


Fish audio 提供了一个试用网站,用户可以直接访问并开始使用。该网站还包含了众多用户自行制作并上传的个性化声音克隆样本,使用户能够轻松体验和探索不同的声音效果。更重要的是,该网站无需进行复杂的环境搭建,用户可以直接访问并开始尝试。以下是该网站的地址:https://fish.audio/zh-CN/









目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
人工智能基础——模型部分:模型介绍、模型训练和模型微调 !!
人工智能基础——模型部分:模型介绍、模型训练和模型微调 !!
2141 0
|
2月前
|
弹性计算 人工智能 运维
2026年OpenClaw(Clawdbot)部署+接入QQ保姆级教程,3分钟手把手教会你
2026年OpenClaw(前身为Clawdbot)凭借轻量化容器化架构、强大的AI任务自动化能力和丰富的第三方集成接口,成为个人与企业实现智能化办公、社群运营的核心工具。阿里云提供的弹性计算资源、成熟的云端运维体系与企业级安全防护能力,为OpenClaw的稳定运行提供了坚实支撑;而QQ作为国内用户基数最大的即时通讯平台,与OpenClaw的深度联动,可实现“QQ发指令、AI自动化执行”的全流程提效,覆盖办公协作、社群管理、智能客服等多场景。本文基于2026年最新实测经验,从阿里云环境搭建、OpenClaw部署、QQ接入配置到运维优化,提供包含完整代码命令的保姆级教程,零基础用户也能按步骤零失
3376 14
|
4月前
|
Linux Docker 容器
docker下部署 vLLM 启动Qwen3-VL-32B-Instruct模型
本文介绍在CentOS系统、A10 6×24G显卡环境下,通过Docker部署vLLM并启动Qwen3-VL-32B-Instruct大模型的完整流程,涵盖镜像拉取、容器配置、多卡并行与显存优化设置,支持32K上下文,附带启动脚本及调用验证示例。
7229 2
|
机器人 语音技术
神器 | 文本转语音,直接可以合成多人多风格音频了!
为了适应更多的音频使用场景和需求,近期我们将文本转语音服务进行了升级,全新的功能将成为你配音工具的不二之选。
1169 1
|
人工智能 自然语言处理 人机交互
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。
9478 22
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
|
11月前
|
人工智能 自然语言处理 API
推荐几个常用免费的文本转语音工具
本文推荐了几款免费的文本转语音工具,包括功能全面的AI易视频、支持多语言的Google TTS、操作便捷的Natural Reader、离线使用的Balabolka以及轻量级的Speech2Go。其中AI易视频特别适合小说转语音,可智能分配角色音色,打造广播剧般的听觉体验。这些工具各具特色,能满足不同场景需求,助力内容创作更高效。
3820 5
|
设计模式 网络协议 Java
09.接口vs抽象类比较
本文详细对比了接口与抽象类的区别及应用场景,涵盖两者的基本概念、特性以及设计思想。通过具体案例分析,如日志记录和过滤器功能,阐明抽象类适用于代码复用(is-a关系),而接口侧重解耦和行为定义(has-a关系)。此外,还探讨了如何在不支持接口或抽象类的语言中模拟其实现,并总结了选择两者的判断标准。文章结合实际开发场景,提供了清晰的指导,帮助开发者更好地理解与应用这两种核心面向对象概念。
494 26
|
人工智能 自然语言处理 搜索推荐
声临其境!体验阿里云开源音频基座大模型——FunAudioLLM
阿里通义实验室开源了全新的音频基座大模型FunAudioLLM,包含SenseVoice与CosyVoice两大核心模型。SenseVoice专精于多语言语音识别、情感辨识与声音事件检测,支持50余种语言,中文及粤语识别准确率提升50%以上。CosyVoice则擅长语音合成,只需3-10秒原始音频即可克隆音色,并支持跨语言合成。FunAudioLLM的应用场景广泛,包括语音到语音翻译、情感语音对话、互动播客及有声读物等。CosyVoice的在线体验显示,其生成的语音自然流畅,支持定制化及高级情绪控制,超越竞品ChatTTS。SenseVoice在情感识别及长音频处理方面表现出色。
28582 28
|
10月前
|
Linux iOS开发 Python
解决安装flash-attn时的错误报告
记住,程序包安装问题就像个顽皮的谜题,得一步步解开,耐心是解决问题的钥匙,没有什么问题是一顿猛敲键盘解决不了的,如果有,那就两顿。
2434 8
|
编解码 人工智能 缓存
轻装出海:一站式微短剧出海指南
轻装出海:一站式微短剧出海指南
1014 0