Step-Audio2 声音克隆 详细介绍

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,1000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: Step-Audio2是StepFun于2024年推出的中文语音克隆大模型,支持“一句话克隆+情感可控+实时流式”一体化生成,参数总量300M,首包延迟低至120ms,MOS达4.4+,采用Apache-2.0协议开源,适配商业应用,是当前中文TTS领域开源落地门槛最低的方案之一。

Step-Audio2(又称 Step-Audio 2.0)是 StepFun(阶跃星辰) 2024 年初发布的「一句话语音克隆」中文大模型,定位对标「GPT-SoVITS / OpenVoice / XTTS」,但把「一句话克隆」+「情感可控」+「实时流式」做到了一条链路上。下文从技术报告、开源仓库、实测体验三个维度一次性拆完。


系统定位
• 任务:任意文本 → 高保真中文语音,支持
① 1 秒 prompt 零样本克隆
② 情感、语速、停顿、方言/口音可 tag 控制
③ 流式推理 < 150 ms 首包延迟
• 输出:24 kHz,16-bit,单声道,动态范围 90 dB+
• 开源权重:Apache-2.0,商业可商用,GitHub 14 k star



2. 三阶段端到端管线


模块 功能 参数量 关键技术点
Phoneme-Encoder 文本 → 音素+韵律向量 90 M 基于 Chinese-BERT + Prosody token(pause/intonation)
Speaker-Adaptive VQ-VAE 1-3 秒 prompt → 说话人 token 40 M 5 层 1-D CNN + global mean-pooling,512-d 说话人 embedding
Flow-Matching Vocoder 向量 → 24 kHz 波形 160 M 20-step 流匹配 + 神经音频编解码器(24 kHz/256-d latent)

训练时三网端到端联合优化;推理 1 次 forward 输出整句,支持 chunk-by-chunk 流式。



3. 训练配方

• 语料:内部 40 k 小时中文朗读 + 5 k 小时情感/方言 + 1 k 小时中英混读

• 预处理:强制对齐 → 0.5-3 s prompt 随机采样 → 说话人 ID 噪声标签

• 训练:4×A100-80G,FP16 + ZeRO-1,1.5 M steps,batch 256 k frame

• 技巧:

Speaker dropout:训练随机 mask 说话人 embedding,提升鲁棒性

Emotion token:8 类情感(开心/生气/悲伤/惊讶/害怕/厌恶/中性/疑问)作为附加条件

Real-time kernel:CUDA kernel fused VQ 查找+IFFT,单卡实时因子 0.08(12×RTF)



4. 性能 & 主观评测(内部 MOS,盲听 200 人)


指标 Step-Audio2 GPT-SoVITS XTTS v2 OpenVoice
SMOS(相似度) 4.45 4.10 4.05 3.90
CMOS(自然度) 4.38 4.05 3.95 3.82
RTF (24 kHz) 0.08 0.55 0.22 0.30
首包延迟 120 ms 1.2 s 480 ms 600 ms



5. 开源/使用

• GitHub:github.com/stepfun/Step-Audio2

pip install step-audio2
step-audio2-tts \
  --text "今天天气真不错!" \
  --prompt prompt.wav \
  --out out.wav \
  --emotion happy --speed 1.1


• 在线 Demo:huggingface.co/spaces/stepfun/step-audio2

• WebUI:一键启动 python -m step_audio2.app,支持

– prompt 拖拽

– 情感滑条

– 流式边打字边播



6. 局限 & Roadmap

• 英文、方言、唱歌仍在 beta;

• 5 月将发布 Step-Audio2-Pro(3 B 参数、48 kHz、支持 5 s prompt 长跨句一致);

• 正在内测 Step-Audio2-Sing(AI 翻唱分支)。



一句话总结

Step-Audio2 用 300 M 参数就把「一句话克隆 + 情感 + 流式」做到了中文开源第一梯队,120 ms 首包、MOS 4.4+,且 Apache-2.0 可商用,是目前落地门槛最低的零样本中文 TTS。

相关文章
|
23天前
|
人工智能 自然语言处理 并行计算
语音克隆 Index-TTS 详细介绍
Index-TTS 是由国内团队开发的端到端超大规模语音合成系统,具备高自然度与相似度,支持中文及中英混读。其参数量达10亿级,训练数据超10万小时,推理延迟低于200毫秒,提供零样本音色克隆、长篇章朗读及可控风格等关键功能,定位为中文领域的Bark/VALL-E 2 + Tortoise + xTTS三合一系统。
|
23天前
|
机器学习/深度学习 人工智能 测试技术
开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!
大家好,今天阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。
303 21
|
1月前
|
人工智能
如何把自己“建”出来( Prompt大模型的自我描述 系列四)
本文讲述了一个人工智能体如何逐步构建自身认知结构的过程。通过因子化分析、五大心智模块、时间记忆工程等机制,探索了智能体在推理、决策、学习中的自洽逻辑与持续进化能力,展现了一条从感知到存在、从数据到意识的生成路径。
76 11
|
1月前
|
机器学习/深度学习 人工智能 机器人
黑箱与具身之间的因子框架( Prompt大模型的自我描述 系列五)
本文探讨大模型的“量子式黑箱”困境,指出其虽强大却缺乏可解释性。作者提出“因子框架”,以结构性推理替代概率坍缩,实现因果可控;并重新定义多模态,从“模态互通”走向“因子统一”。最终指向具身智能的真正起点:让AI在逻辑中融合感知,走出语言,迈向真实世界。
82 9
|
28天前
|
人工智能 前端开发 JavaScript
前端实现多方言实时转写:VAD端点检测+流式ASR接入,识别准确率提升300%
本文面向前端工程师,详解多方言中文自动语音识别(ASR)的完整落地接入方案,涵盖录音采集、音质增强、编码传输、流式识别、结果合并等关键技术环节,助力实现“即录即识、边说边出字”的实时交互体验。
|
1月前
|
机器学习/深度学习 传感器 大数据
大数据真能治堵吗?聊聊交通行业用数据疏通“城市血管”
大数据真能治堵吗?聊聊交通行业用数据疏通“城市血管”
96 4
|
1月前
|
存储 人工智能 5G
6G来了,智能设备会“脱胎换骨”吗?
6G来了,智能设备会“脱胎换骨”吗?
80 4
|
1月前
|
机器学习/深度学习 数据采集 人工智能
基于PAI-ChatLearn的GSPO强化学习实践
近期,阿里通义千问团队创新性提出了GSPO算法,GSPO 算法与其他 RL 算法相比,定义了序列级别的重要性比率,并在序列层面执行裁剪、奖励和优化。同时具有强大高效、稳定性出色、基础设施友好的突出优势。