Step-Audio2(又称 Step-Audio 2.0)是 StepFun(阶跃星辰) 2024 年初发布的「一句话语音克隆」中文大模型,定位对标「GPT-SoVITS / OpenVoice / XTTS」,但把「一句话克隆」+「情感可控」+「实时流式」做到了一条链路上。下文从技术报告、开源仓库、实测体验三个维度一次性拆完。
系统定位
• 任务:任意文本 → 高保真中文语音,支持
① 1 秒 prompt 零样本克隆
② 情感、语速、停顿、方言/口音可 tag 控制
③ 流式推理 < 150 ms 首包延迟
• 输出:24 kHz,16-bit,单声道,动态范围 90 dB+
• 开源权重:Apache-2.0,商业可商用,GitHub 14 k star
2. 三阶段端到端管线
模块 | 功能 | 参数量 | 关键技术点 |
Phoneme-Encoder | 文本 → 音素+韵律向量 | 90 M | 基于 Chinese-BERT + Prosody token(pause/intonation) |
Speaker-Adaptive VQ-VAE | 1-3 秒 prompt → 说话人 token | 40 M | 5 层 1-D CNN + global mean-pooling,512-d 说话人 embedding |
Flow-Matching Vocoder | 向量 → 24 kHz 波形 | 160 M | 20-step 流匹配 + 神经音频编解码器(24 kHz/256-d latent) |
训练时三网端到端联合优化;推理 1 次 forward 输出整句,支持 chunk-by-chunk 流式。
3. 训练配方
• 语料:内部 40 k 小时中文朗读 + 5 k 小时情感/方言 + 1 k 小时中英混读
• 预处理:强制对齐 → 0.5-3 s prompt 随机采样 → 说话人 ID 噪声标签
• 训练:4×A100-80G,FP16 + ZeRO-1,1.5 M steps,batch 256 k frame
• 技巧:
– Speaker dropout:训练随机 mask 说话人 embedding,提升鲁棒性
– Emotion token:8 类情感(开心/生气/悲伤/惊讶/害怕/厌恶/中性/疑问)作为附加条件
– Real-time kernel:CUDA kernel fused VQ 查找+IFFT,单卡实时因子 0.08(12×RTF)
4. 性能 & 主观评测(内部 MOS,盲听 200 人)
指标 | Step-Audio2 | GPT-SoVITS | XTTS v2 | OpenVoice |
SMOS(相似度) | 4.45 | 4.10 | 4.05 | 3.90 |
CMOS(自然度) | 4.38 | 4.05 | 3.95 | 3.82 |
RTF (24 kHz) | 0.08 | 0.55 | 0.22 | 0.30 |
首包延迟 | 120 ms | 1.2 s | 480 ms | 600 ms |
5. 开源/使用
• GitHub:github.com/stepfun/Step-Audio2
pip install step-audio2 step-audio2-tts \ --text "今天天气真不错!" \ --prompt prompt.wav \ --out out.wav \ --emotion happy --speed 1.1
• 在线 Demo:huggingface.co/spaces/stepfun/step-audio2
• WebUI:一键启动 python -m step_audio2.app
,支持
– prompt 拖拽
– 情感滑条
– 流式边打字边播
6. 局限 & Roadmap
• 英文、方言、唱歌仍在 beta;
• 5 月将发布 Step-Audio2-Pro(3 B 参数、48 kHz、支持 5 s prompt 长跨句一致);
• 正在内测 Step-Audio2-Sing(AI 翻唱分支)。
一句话总结
Step-Audio2 用 300 M 参数就把「一句话克隆 + 情感 + 流式」做到了中文开源第一梯队,120 ms 首包、MOS 4.4+,且 Apache-2.0 可商用,是目前落地门槛最低的零样本中文 TTS。