Step-Audio2 声音克隆 详细介绍

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: Step-Audio2是StepFun于2024年推出的中文语音克隆大模型,支持“一句话克隆+情感可控+实时流式”一体化生成,参数总量300M,首包延迟低至120ms,MOS达4.4+,采用Apache-2.0协议开源,适配商业应用,是当前中文TTS领域开源落地门槛最低的方案之一。

Step-Audio2(又称 Step-Audio 2.0)是 StepFun(阶跃星辰) 2024 年初发布的「一句话语音克隆」中文大模型,定位对标「GPT-SoVITS / OpenVoice / XTTS」,但把「一句话克隆」+「情感可控」+「实时流式」做到了一条链路上。下文从技术报告、开源仓库、实测体验三个维度一次性拆完。


系统定位
• 任务:任意文本 → 高保真中文语音,支持
① 1 秒 prompt 零样本克隆
② 情感、语速、停顿、方言/口音可 tag 控制
③ 流式推理 < 150 ms 首包延迟
• 输出:24 kHz,16-bit,单声道,动态范围 90 dB+
• 开源权重:Apache-2.0,商业可商用,GitHub 14 k star



2. 三阶段端到端管线


模块 功能 参数量 关键技术点
Phoneme-Encoder 文本 → 音素+韵律向量 90 M 基于 Chinese-BERT + Prosody token(pause/intonation)
Speaker-Adaptive VQ-VAE 1-3 秒 prompt → 说话人 token 40 M 5 层 1-D CNN + global mean-pooling,512-d 说话人 embedding
Flow-Matching Vocoder 向量 → 24 kHz 波形 160 M 20-step 流匹配 + 神经音频编解码器(24 kHz/256-d latent)

训练时三网端到端联合优化;推理 1 次 forward 输出整句,支持 chunk-by-chunk 流式。



3. 训练配方

• 语料:内部 40 k 小时中文朗读 + 5 k 小时情感/方言 + 1 k 小时中英混读

• 预处理:强制对齐 → 0.5-3 s prompt 随机采样 → 说话人 ID 噪声标签

• 训练:4×A100-80G,FP16 + ZeRO-1,1.5 M steps,batch 256 k frame

• 技巧:

Speaker dropout:训练随机 mask 说话人 embedding,提升鲁棒性

Emotion token:8 类情感(开心/生气/悲伤/惊讶/害怕/厌恶/中性/疑问)作为附加条件

Real-time kernel:CUDA kernel fused VQ 查找+IFFT,单卡实时因子 0.08(12×RTF)



4. 性能 & 主观评测(内部 MOS,盲听 200 人)


指标 Step-Audio2 GPT-SoVITS XTTS v2 OpenVoice
SMOS(相似度) 4.45 4.10 4.05 3.90
CMOS(自然度) 4.38 4.05 3.95 3.82
RTF (24 kHz) 0.08 0.55 0.22 0.30
首包延迟 120 ms 1.2 s 480 ms 600 ms



5. 开源/使用

• GitHub:github.com/stepfun/Step-Audio2

pip install step-audio2
step-audio2-tts \
  --text "今天天气真不错!" \
  --prompt prompt.wav \
  --out out.wav \
  --emotion happy --speed 1.1


• 在线 Demo:huggingface.co/spaces/stepfun/step-audio2

• WebUI:一键启动 python -m step_audio2.app,支持

– prompt 拖拽

– 情感滑条

– 流式边打字边播



6. 局限 & Roadmap

• 英文、方言、唱歌仍在 beta;

• 5 月将发布 Step-Audio2-Pro(3 B 参数、48 kHz、支持 5 s prompt 长跨句一致);

• 正在内测 Step-Audio2-Sing(AI 翻唱分支)。



一句话总结

Step-Audio2 用 300 M 参数就把「一句话克隆 + 情感 + 流式」做到了中文开源第一梯队,120 ms 首包、MOS 4.4+,且 Apache-2.0 可商用,是目前落地门槛最低的零样本中文 TTS。

相关文章
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
B站开源IndexTTS2,用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推动零样本语音合成在实际场景中的落地能力,B站语音团队对模型架构与训练策略进行了深度优化,推出了全新一代语音合成模型——IndexTTS2 。
3828 62
|
9月前
|
机器学习/深度学习 数据可视化 数据挖掘
香烟品牌识别和规格识别设计思路
基于YOLOv8实现香烟品牌与规格(条装/单盒装)识别,采用“品牌+规格”组合为60类的复合类别方案,结合充足标注数据(每类300-500张)、数据增强与反例优化,进行端到端联合训练,提升模型在复杂场景下的检测与分类精度。
|
9月前
|
机器学习/深度学习 人工智能 测试技术
开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!
大家好,今天阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。
1351 21
|
机器学习/深度学习 人工智能 开发工具
Clone-voice:开源的声音克隆工具,支持文本转语音或改变声音风格,支持16种语言
Clone-voice是一款开源的声音克隆工具,支持16种语言,能够将文本转换为语音或将一种声音风格转换为另一种。该工具基于深度学习技术,界面友好,操作简单,适用于多种应用场景,如视频制作、语言学习和广告配音等。
3321 9
Clone-voice:开源的声音克隆工具,支持文本转语音或改变声音风格,支持16种语言
|
人工智能 自然语言处理 语音技术
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
Step-Audio 是由阶跃星辰团队推出的开源语音交互模型,支持多语言、方言和情感表达,能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。
2508 91
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
|
机器学习/深度学习 人工智能 自然语言处理
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
Dolphin是清华大学与海天瑞声联合研发的语音识别大模型,支持40种东方语言和22种中文方言,采用CTC-Attention混合架构,词错率显著低于同类模型。
5508 50
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
|
编解码 文字识别 语音技术
MiniCPM-o 2.6:流式全模态,端到端,多模态端侧大模型来了!
MiniCPM-o 2.6 是 MiniCPM-o 系列的最新、性能最佳模型。该模型基于 SigLip-400M、Whisper-medium-300M、ChatTTS-200M 和 Qwen2.5-7B 构建,共 8B 参数,通过端到端方式训练和推理。相比 MiniCPM-V 2.6,该模型在性能上有了显著提升,并支持了实时语音对话和多模态流式交互的新功能。
2145 70