IndexTTS2.0_ 情感表达与时长可控的自回归零样本语音合成突破

简介: IndexTTS2 是首个实现自回归模型下**时长可控**、**情感与音色解耦**的零样本语音合成系统。支持语音克隆、情感迁移与文本驱动情绪控制,适用于影视配音、虚拟主播等场景。开源代码与模型已发布,提供完整本地部署方案,大幅提升语音合成的实用性与表现力。

整合包地址:https://pan.quark.cn/s/e115d7385bfe

index-tts2-index.png

近年来,零样本语音合成(Zero-Shot TTS)在声音克隆和语音合成领域发展迅速。
然而,自回归(Autoregressive)TTS 虽然具备更自然的生成效果,却存在一个核心痛点:语音时长难以精确控制
这在影视配音、动漫、游戏角色语音等需要音画严格对齐的场景中,成为了一大障碍。

IndexTTS2 正是在此背景下推出的突破性工作。它不仅首次实现了自回归模型下的时长可控合成,还将说话人音色与情感表达解耦,并支持基于文本的情感控制,大幅提升了 TTS 的可用性与表现力。

开源地址:https://github.com/index-tts/index-tts/

demo地址:https://index-tts.github.io/index-tts2.github.io/

论文地址:https://arxiv.org/abs/2502.05512


技术亮点

1. 时长可控机制

  • 可控模式:通过在生成时指定目标 token 数,严格控制语音时长。
  • 自由模式:不限制 token 数,自然生成语音,保持语调和韵律。

2. 声音与情感解耦

  • 通过梯度反转层(GRL)训练,使模型能分离 说话人音色情感特征
  • 这样用户可以自由组合:
    • 指定一个人的音色
    • 再叠加另一段语音的情绪

3. 文本驱动的情感控制

  • 内置 T2E(Text-to-Emotion)模块,基于 Qwen-3 微调模型,将自然语言描述转为情绪向量。
  • 用户只需输入一句文字描述,例如 "愤怒地质问",即可驱动合成语音的情绪表现。

4. GPT Latent + 三阶段训练

  • 引入 GPT latent 表征,提升强情感场景下的语音稳定性和清晰度。
  • 三阶段训练策略解决了数据不足和过拟合问题,使合成结果更加自然流畅。

5. 开源与可复现

  • 提供完整开源代码与模型权重(HuggingFace & ModelScope),支持研究与二次开发。

🎬 应用场景

  • 🎤 影视/动漫配音:保证音画严格对齐
  • 🧑‍💻 虚拟主播与数字人:可控的情绪驱动,更加自然生动
  • 🌏 跨语言配音:任意音色+情绪迁移
  • 📢 广告与新闻播报:节奏感强、情绪可控

📦 模型下载

平台 地址
HuggingFace 😁 IndexTTS-2
ModelScope IndexTTS-2
GitHub 源码 IndexTTS GitHub

⚙️ 本地快速启动指南

1. 环境准备

确保已安装:

启用 Git-LFS:

git lfs install

克隆仓库:

git clone https://github.com/index-tts/index-tts.git && cd index-tts
git lfs pull

安装依赖(推荐使用 uv):

uv sync --all-extras

若下载缓慢可切换国内镜像:

uv sync --all-extras --default-index "https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"

2. 下载模型

HuggingFace 下载:

uv tool install "huggingface_hub[cli]"
hf download IndexTeam/IndexTTS-2 --local-dir=checkpoints

ModelScope 下载:

uv tool install "modelscope"
modelscope download --model IndexTeam/IndexTTS-2 --local_dir checkpoints

3. 启动 Web Demo

uv run webui.py

浏览器访问 http://127.0.0.1:7860 即可使用。


Python 使用示例

语音克隆

from indextts.infer_v2 import IndexTTS2

tts = IndexTTS2(cfg_path="checkpoints/config.yaml", model_dir="checkpoints")
text = "你好,这是 IndexTTS2 的语音合成示例。"
tts.infer(spk_audio_prompt='examples/voice_01.wav', text=text, output_path="gen.wav")

情感迁移

tts.infer(
  spk_audio_prompt='examples/voice_07.wav',
  text="今天的比赛真是太刺激了!",
  output_path="gen.wav",
  emo_audio_prompt="examples/emo_excited.wav"
)

文本驱动情感

tts.infer(
  spk_audio_prompt='examples/voice_10.wav',
  text="你为什么要这样对我?",
  output_path="gen.wav",
  use_emo_text=True,
  emo_text="愤怒的质问"
)

总结

IndexTTS2 代表了零样本 TTS 进入情感与时长可控新时代

  • 解决了自回归语音合成时长不可控的历史难题
  • 支持音色与情感分离,实现任意组合
  • 引入文本驱动的情感控制,降低了使用门槛

随着开源生态的扩展,IndexTTS2 有望在 影视配音、虚拟主播、游戏角色、数字人 等多个场景中发挥更大价值。

目录
相关文章
|
机器学习/深度学习 人工智能 Linux
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音(TTS)模型,支持13种语言,具备零样本和少样本语音合成能力,语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如Transformer、VITS、VQVAE和GPT,具有高度准确性和快速合成能力,适用于多种应用场景。
1304 3
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
|
算法 语音技术
基于MFCC特征提取和HMM模型的语音合成算法matlab仿真
基于MFCC特征提取和HMM模型的语音合成算法matlab仿真
|
人工智能 数据处理 语音技术
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
LatentLM是由微软研究院和清华大学联合推出的多模态生成模型,能够统一处理离散和连续数据,具备高性能图像生成、多模态大型语言模型集成等功能,展现出卓越的多模态任务处理能力。
419 29
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
|
自然语言处理 语音技术 开发者
ChatTTS超真实自然的语音合成模型
ChatTTS超真实自然的语音合成模型
544 3
|
机器学习/深度学习 TensorFlow 语音技术
使用Python实现深度学习模型:语音合成与语音转换
【7月更文挑战第19天】 使用Python实现深度学习模型:语音合成与语音转换
620 1
【手把手教学】最新ChatTTS语音合成项目使用指南【附所有源码与模型】
【手把手教学】最新ChatTTS语音合成项目使用指南【附所有源码与模型】
|
监控 语音技术 异构计算
使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时,推理速度太慢了,500字大约需要1分钟,为什么会这么慢
使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时,推理速度太慢了,500字大约需要1分钟,为什么会这么慢
912 2
|
自然语言处理 文字识别 Linux
ModelScope运行语音合成模型的官网代码示例报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
691 0
|
自然语言处理 搜索推荐 PyTorch
ModelScope问题之NoteBook训练个性化语音合成模型报错如何解决
ModelScope训练是指在ModelScope平台上对机器学习模型进行训练的活动;本合集将介绍ModelScope训练流程、模型优化技巧和训练过程中的常见问题解决方法。
333 0
|
机器学习/深度学习 人工智能 自然语言处理
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(四)
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型
2080 0

热门文章

最新文章