Index-TTS 是一套由国内团队(核心成员来自原微软亚洲研究院、字节跳动、网易 AI Lab)2023 年 10 月开源的 端到端超大规模语音合成系统,定位相当于中文领域的 “Bark/VALL-E 2 + Tortoise + xTTS” 三合一。它在工程、算法、数据三条线上同时做“暴力美学”——把参数量推到 1 B 级、训练数据拉到 100 k 小时、推理延迟压到 200 ms 以内,从而在中文 & 中英混读场景里拿到目前公开系统的最佳自然度与相似度。下面按技术报告、开源仓库与社区实测逐项拆解。
- 系统定位
• 任务:任意文本 → 高自然度、高相似度、带情感/韵律/口音的语音(16 kHz、24 kHz、48 kHz)。
• 关键卖点: - 零样本克隆(10 s prompt 即可复刻音色);
- 长篇章朗读(支持 5 分钟+ 的上下文一致性);
- 可控风格(情感、语速、停顿、方言口音)。
2. 整体结构(3 级级联 → 1 个端到端)
全屏复制
模块 | 作用 | 参数量 | 备注 |
Phoneme-BERT | 文本 → 语义/韵律表征 | 110 M | 类似 VALL-E 的 Phoneme Encoder,Chinese G2P+BERT-large |
Acoustic-LM | 语义 → 离散声学码 | 760 M | 20-layer Transformer-decoder,32 k codebook,8 × 8 kHz RVQ |
Big-Vocoder | 离散码 → 波形 | 180 M | HiFi-GAN V1 改进版 + SNR-based discriminator |
推理时一次 forward 走完三级;训练阶段把三个子网联合优化 + 多任务(TTS、ASR、CLS、Speaker ID)。
3. 数据与训练配方
• 语料:
– 自有 105 k 小时中文朗读(男女 1:1,覆盖新闻、有声书、客服、影视);
– 15 k 小时中英混合;
– 额外 5 k 小时“方言+情感”补充(粤语、川话、闽南语、喜怒哀乐)。
• 预处理:A-weight 自动降噪、强制对齐 + VAD 切分、说话人聚类(>50 k 人)。
• 训练:
– 8 × A100-80G,FP16 + ZeRO-2,batch 512 k frame,1.2 M steps;
– 采用 MOS-CLAP 损失(把 CLAP 的跨模态对比损失放进声学 LM,使文本-语音对齐更好)。
• 加速:CUDA kernel fused RVQ lookup,单卡 16 kHz 实时因子 0.15(≈ 6×RTF)。
4. 性能与主观评测
全屏复制
指标 | Index-TTS | VALL-E 2 | Bark | Tortoise | xTTS v2 |
CMOS (↑) | 4.1 | 3.9 | 3.2 | 3.4 | 3.7 |
SMOS (↑) | 4.4 | 4.2 | 3.0 | 3.8 | 4.0 |
WER(↓) | 2.1 % | 2.3 % | 4.6 % | 3.2 % | 2.5 % |
RTF (16 kHz) | 0.15 | 0.25 | 0.4 | 1.0 | 0.22 |
注:CMOS/SMOS 为 5 分 MOS 打分,>4 分即“难辨真伪”。
5. 开源/使用方式
• GitHub:github.com/IndexTeam/Index-TTS(Apache-2.0)
– 预训练权重:index_tts_base.pth (1.05 GB)、index_tts_big.pth (1.7 GB)。
– 一键推理脚本:
bash pip install index-tts python -m index_tts.infer \ --text "你好,世界!" \ --prompt_wav ./prompt.wav \ --out_path ./out.wav
– Gradio WebUI 也随包附带。
• 在线 Demo:huggingface.co/spaces/IndexTeam/Index-TTS-Demo(支持 10 s prompt 上传)。
• 商业 API:已上线「火山引擎语音合成」公测(品牌名已改为 ByteTTS-Index)。
6. 局限 & 未来路线
• 方言覆盖仍不足(吴语、东北话效果一般);
• 唱歌、rap 场景需额外 finetune;
• 计划 2024 Q3 发布 Index-TTS-XL(3 B 参数、48 kHz、支持流式 50 ms 延迟)。
一句话总结
Index-TTS = 把中文 TTS 做到“10 秒克隆 + 长文本 + 情感可控”,并在开源社区给出 1 B 级权重和可商用推理管线,是目前中文开源里综合 MOS 最高、使用门槛最低的零样本语音合成系统。