语音克隆 Index-TTS 详细介绍

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,1000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: Index-TTS 是由国内团队开发的端到端超大规模语音合成系统,具备高自然度与相似度,支持中文及中英混读。其参数量达10亿级,训练数据超10万小时,推理延迟低于200毫秒,提供零样本音色克隆、长篇章朗读及可控风格等关键功能,定位为中文领域的Bark/VALL-E 2 + Tortoise + xTTS三合一系统。

Index-TTS 是一套由国内团队(核心成员来自原微软亚洲研究院、字节跳动、网易 AI Lab)2023 年 10 月开源的 端到端超大规模语音合成系统,定位相当于中文领域的 “Bark/VALL-E 2 + Tortoise + xTTS” 三合一。它在工程、算法、数据三条线上同时做“暴力美学”——把参数量推到 1 B 级、训练数据拉到 100 k 小时、推理延迟压到 200 ms 以内,从而在中文 & 中英混读场景里拿到目前公开系统的最佳自然度与相似度。下面按技术报告、开源仓库与社区实测逐项拆解。



  1. 系统定位
    • 任务:任意文本 → 高自然度、高相似度、带情感/韵律/口音的语音(16 kHz、24 kHz、48 kHz)。
    • 关键卖点:
  2. 零样本克隆(10 s prompt 即可复刻音色);
  3. 长篇章朗读(支持 5 分钟+ 的上下文一致性);
  4. 可控风格(情感、语速、停顿、方言口音)。



2. 整体结构(3 级级联 → 1 个端到端)

全屏复制

模块 作用 参数量 备注
Phoneme-BERT 文本 → 语义/韵律表征 110 M 类似 VALL-E 的 Phoneme Encoder,Chinese G2P+BERT-large
Acoustic-LM 语义 → 离散声学码 760 M 20-layer Transformer-decoder,32 k codebook,8 × 8 kHz RVQ
Big-Vocoder 离散码 → 波形 180 M HiFi-GAN V1 改进版 + SNR-based discriminator

推理时一次 forward 走完三级;训练阶段把三个子网联合优化 + 多任务(TTS、ASR、CLS、Speaker ID)。



3. 数据与训练配方

• 语料:

– 自有 105 k 小时中文朗读(男女 1:1,覆盖新闻、有声书、客服、影视);

– 15 k 小时中英混合;

– 额外 5 k 小时“方言+情感”补充(粤语、川话、闽南语、喜怒哀乐)。

• 预处理:A-weight 自动降噪、强制对齐 + VAD 切分、说话人聚类(>50 k 人)。

• 训练:

– 8 × A100-80G,FP16 + ZeRO-2,batch 512 k frame,1.2 M steps;

– 采用 MOS-CLAP 损失(把 CLAP 的跨模态对比损失放进声学 LM,使文本-语音对齐更好)。

• 加速:CUDA kernel fused RVQ lookup,单卡 16 kHz 实时因子 0.15(≈ 6×RTF)。



4. 性能与主观评测

全屏复制

指标 Index-TTS VALL-E 2 Bark Tortoise xTTS v2
CMOS (↑) 4.1 3.9 3.2 3.4 3.7
SMOS (↑) 4.4 4.2 3.0 3.8 4.0
WER(↓) 2.1 % 2.3 % 4.6 % 3.2 % 2.5 %
RTF (16 kHz) 0.15 0.25 0.4 1.0 0.22

注:CMOS/SMOS 为 5 分 MOS 打分,>4 分即“难辨真伪”。



5. 开源/使用方式

• GitHub:github.com/IndexTeam/Index-TTS(Apache-2.0)

– 预训练权重:index_tts_base.pth (1.05 GB)、index_tts_big.pth (1.7 GB)。

– 一键推理脚本:

bash pip install index-tts python -m index_tts.infer \ --text "你好,世界!" \ --prompt_wav ./prompt.wav \ --out_path ./out.wav

– Gradio WebUI 也随包附带。

• 在线 Demo:huggingface.co/spaces/IndexTeam/Index-TTS-Demo(支持 10 s prompt 上传)。

• 商业 API:已上线「火山引擎语音合成」公测(品牌名已改为 ByteTTS-Index)。



6. 局限 & 未来路线

• 方言覆盖仍不足(吴语、东北话效果一般);

• 唱歌、rap 场景需额外 finetune;

• 计划 2024 Q3 发布 Index-TTS-XL(3 B 参数、48 kHz、支持流式 50 ms 延迟)。



一句话总结

Index-TTS = 把中文 TTS 做到“10 秒克隆 + 长文本 + 情感可控”,并在开源社区给出 1 B 级权重和可商用推理管线,是目前中文开源里综合 MOS 最高、使用门槛最低的零样本语音合成系统。



相关文章
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
B站开源IndexTTS2,用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推动零样本语音合成在实际场景中的落地能力,B站语音团队对模型架构与训练策略进行了深度优化,推出了全新一代语音合成模型——IndexTTS2 。
967 23
|
21天前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
285 109
|
17天前
|
人工智能 运维 安全
|
15天前
|
人工智能 算法 小程序
再见 Cursor,Qoder 真香!这波要改写 AI 编程格局
真心建议大家去使用一下这段时间最新推出的一款 AI 编程工具:Qoder 。真的是太好用了,一点也不比 Cursor 差。
430 10
|
24天前
|
人工智能 云计算
和五所高校一起,我们共同打造了一门AI课程!丨云工开物
9月1日,阿里云联合多所高校推出的「动手学AI:人工智能通识与实践」课程正式开放。课程涵盖理论与实践,支持多专业定制,助力高校AI人才培养。
|
30天前
|
存储 缓存 数据可视化
用PyQt快速搭建桌面应用:从零到实战的实用指南
PyQt凭借跨平台特性与丰富控件库,成为Python桌面应用开发的首选框架。本文以实战为导向,详解从环境搭建、核心组件开发到性能优化的全流程,助力开发者快速掌握PyQt开发技巧,构建高效稳定的桌面应用。
216 1
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
Step-Audio2 声音克隆 详细介绍
Step-Audio2是StepFun于2024年推出的中文语音克隆大模型,支持“一句话克隆+情感可控+实时流式”一体化生成,参数总量300M,首包延迟低至120ms,MOS达4.4+,采用Apache-2.0协议开源,适配商业应用,是当前中文TTS领域开源落地门槛最低的方案之一。
机器学习/深度学习 人工智能 中间件
303 29
|
13天前
|
存储 测试技术 C#
DDD领域驱动设计:实践中的聚合
领域驱动设计(DDD)中的聚合根是管理复杂业务逻辑和数据一致性的核心概念。本文通过任务管理系统示例,讲解如何设计聚合根、处理多对多关系、强制业务规则及优化性能,帮助开发者构建结构清晰、可维护的领域模型。
175 12
DDD领域驱动设计:实践中的聚合
|
6天前
|
机器学习/深度学习 物联网
Wan2.2再次开源数字人:Animate-14B!一键实现电影角色替换和动作驱动
今天,通义万相的视频生成模型又又又开源了!Wan2.2系列模型家族新增数字人成员Wan2.2-Animate-14B。
539 11