阶跃星辰发布首个开源 LLM 级音频编辑大模型 Step-Audio-EditX

简介: 阶跃星辰发布全球首个开源LLM级音频编辑大模型Step-Audio-EditX,支持零样本TTS、多语言方言及情感、风格、副语言特征精准控制,采用统一LLM框架,实现文本驱动音频创作。

近期,阶跃星辰发布了全球首个开源 LLM 级音频编辑大模型 —— Step-Audio-EditX

该模型能够通过语言指令或迭代方式,精准控制音频的情感、说话风格和副语言特征,并实现 零样本文本转语音(Zero-Shot TTS)

不同于以往依赖多模块拼接的方案,Step-Audio-EditX 采用统一的 LLM 框架,让“文字驱动音频创作”真正变为现实。

开源信息

  • 开源协议:Apache 2.0
  • Github:https://github.com/stepfun-ai/Step-Audio-EditX
  • Model:https://www.modelscope.cn/models/stepfun-ai/Step-Audio-EditX
  • Technical Report:https://www.modelscope.cn/papers/2511.03601
  • 使用提示:

模型与部分训练数据可自由研究与非商用使用,商用需遵守对应授权条款。

01项目概览

  • 项目名称:Step-Audio-EditX
  • 开发团队:StepFun(阶跃星辰)
  • 项目类型:开源 LLM 级音频编辑与合成模型
  • 主要功能:• 零样本文本转语音(Zero-Shot TTS)• 音频情感与风格编辑• 副语言特征控制(呼吸、笑声、叹息、语气等)• 多语言与方言支持(中文、英文、四川话、粤语等)
  • 在线体验http://stepaudiollm.github.io/step-audio-editx

02技术架构

Step-Audio-EditX 的核心设计可概括为三部分:

音频分词器(Tokenizer)

使用“双码本”结构,将音频分解为离散 token:

  • 语言码本:1024 项,16.7 Hz 采样频率;
  • 语义码本:4096 项,25 Hz 采样频率。

这种双路径分词方式让模型能同时捕捉语言内容与声学细节。

音频大语言模型(Audio LLM)

在音频 token 与文本 token 的联合输入下生成目标音频 token,参数约 3 B

它的输入格式类似聊天框:“文本 + 音频”,输出即为新音频的 token 序列。

解码器(Decoder)

通过 Flow Matching 模块生成 Mel 谱图,并由 BigVGAN v2 声码器合成音频。

这一流程让音频生成质量与真实录音相近,且可控性极强。


03核心亮点

多维度情感与风格控制

Step-Audio-EditX 可以通过简单的指令控制音频的:

  • 情感:愤怒、喜悦、悲伤、恐惧、惊讶、厌恶等
  • 说话风格:夸张、认真、孩童、低语、年长、俏皮等
  • 副语言元素:呼吸声、笑声、叹息、语气词(嗯、唉、哎呀等)

更重要的是,它支持 迭代式编辑——可在原音基础上多轮微调,实现自然、可累积的情感强化。

零样本 TTS(Zero-Shot TTS)

无需录音样本,仅凭参考音频或风格描述,即可生成新语音。

例如:

“将这段话改为粤语,带一点俏皮语气。”

即可立刻输出对应版本的音频。

模型支持中英双语及多方言,让 TTS 真正实现“所写即所听”。

大规模合成数据训练

与传统模型依赖复杂的音频先验模块不同,Step-Audio-EditX 使用 大边距合成数据(Large-Margin Synthetic Data) 训练,直接通过属性差异拉大(如“同文本、异情感”样本)实现情感与风格的解耦学习。

这一策略让模型具备天然的“可控”特性,能够理解并执行复杂的语音编辑指令。


04训练与部署

  • 模型规模:约 3 B 参数
  • 推荐硬件:单卡 32 GB GPU 即可运行(提供 Int8 量化版)
  • 采样率:41.6 kHz
  • 部署方式:
  • • 支持 Docker 镜像部署
  • • 支持本地命令行推理
  • • 提供 Gradio 网页 Demo

示例命令

零样本语音生成:

python3 tts_infer.py \
  --model-path ./models \
  --prompt-text "今天的天气真不错!" \
  --prompt-audio ./ref.wav \
  --generated-text "我们一起去公园吧。" \
  --edit-type "clone"

情感编辑:

python3 tts_infer.py \
  --model-path ./models \
  --prompt-audio ./voice.wav \
  --edit-type "emotion" \
  --edit-info "sad" \
  --n-edit-iter 2


05性能表现

官方报告显示,Step-Audio-EditX 在以下方面表现突出:

• 情感与风格控制的准确率优于闭源模型(如 MiniMax-2.6-hd、Doubao-Seed-TTS 2.0);

• 多轮迭代能显著提升输出音频的自然度与表达力;

• 对外部音频的副语言插入任务泛化良好,可编辑闭源语音素材。


模型链接:https://www.modelscope.cn/models/stepfun-ai/Step-Audio-EditX


目录
相关文章
|
4月前
|
人工智能 前端开发 关系型数据库
MajorRAG 概述(1/3)
一个RAG项目,全文共三个部分:MajorRAG概述、MajorRAG文件内容提取实现分析、MajorRAG聊天问答系统实现分析。 1)第一次做RAG,欢迎带着指导意见评论 2)希望指出不足时可以附带替换方法
177 1
|
4月前
|
人工智能 自然语言处理 语音技术
Soul App联合西工大和上交大开源语音合成模型SoulX-Podcast,已登顶Hugging Face TTS趋势榜!
Soul AI Lab联合西工大、上交大开源SoulX-Podcast,支持中英粤川等多语种方言及副语言生成,可稳定输出超60分钟自然流畅的多人对话音频,已在Huggingface登顶TTS趋势榜。
687 0
Soul App联合西工大和上交大开源语音合成模型SoulX-Podcast,已登顶Hugging Face TTS趋势榜!
|
4月前
|
机器学习/深度学习 数据可视化 Apache
仅3B激活参数,更强的多模态理解与推理能力,百度文心 ERNIE-4.5-VL-28B-A3B-Thinking正式开源!
11月11日,百度开源文心ERNIE-4.5-VL-28B-A3B-Thinking多模态模型,仅3B激活参数,性能媲美顶级大模型。具备强大视觉语言理解、跨模态推理与“图像思考”等创新功能,支持工具调用与视频分析,适用于复杂图文任务,全面开放商用。
559 17
仅3B激活参数,更强的多模态理解与推理能力,百度文心 ERNIE-4.5-VL-28B-A3B-Thinking正式开源!
刚刚参加了一个MCP赛事,奖金还可以,搭友们可以去试试看
社区8月比赛未获奖有点失落,但发现通义灵码×蚂蚁百宝箱MCP赛事正火热进行!参赛即有机会赢取丰厚奖金,激励满满,令人眼前一亮。已跃跃欲试,搭友们快来一起冲榜夺奖吧!https://tianchi.aliyun.com/competition/entrance/532442
|
4月前
|
编解码 人工智能 文字识别
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
DeepSeek-OCR开源即获7k+星,首创“上下文光学压缩”技术,仅用100视觉token超越传统OCR模型256token性能,压缩比达10-20倍,精度仍超97%。30亿参数实现单卡日处理20万页,显著降低大模型长文本输入成本,重新定义高效文档理解新范式。
475 2
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
|
5月前
|
传感器 人工智能 API
仅100多元,他给视障人群装上AI“眼睛”
上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。
1208 6
仅100多元,他给视障人群装上AI“眼睛”
|
4月前
|
JavaScript 搜索推荐 开发者
ChatPPT+魔搭社区:MCP 2.0全面升级!
ChatPPT MCP2.0正式发布,联合魔搭ModelScope推出云端智能体服务,支持生成、编辑、演讲、动画等全链路功能,开放Streamable HTTP协议与本地Stdio双模式,已接入20+平台,服务300+开发者。
772 11
ChatPPT+魔搭社区:MCP 2.0全面升级!
|
人工智能 搜索推荐 API
蚂蚁百宝箱联手深铁打造全国首个地铁 AI 智能体「深铁宝」:你的全能城市向导来啦~
蚂蚁百宝箱联合深铁集团、深圳通推出全国首个“公共出行+城市服务”AI智能体「深铁宝」,上线于深圳地铁、深圳通及支付宝APP,实现一句话直达、秒级响应的智慧出行体验,涵盖出行规划、乘车码快捷调取、周边生活服务推荐等一站式功能,助力城市交通与服务数字化升级。
569 0
蚂蚁百宝箱联手深铁打造全国首个地铁 AI 智能体「深铁宝」:你的全能城市向导来啦~
|
4月前
|
机器学习/深度学习 算法 物联网
Mcore Bridge:迈向Megatron训练"零门槛"时代
魔搭社区推出Mcore-Bridge与Megatron-SWIFT,显著降低大模型训练门槛。支持safetensors格式、一键启动、无需权重转换,兼容MoE等架构,实现高性能与易用性统一,让Megatron训练开箱即用。
867 10
|
4月前
|
数据采集 文字识别 算法
腾讯混元&清华开源15M高质量多模态训练数据,全面开放MLLM迎来质变时刻
腾讯混元与清华推出Bee项目,首创“以数据为中心”的全栈开源方案,通过Honey-Data-15M高质量数据集、HoneyPipe数据增强管线及Bee-8B模型,显著提升全开源多模态大模型性能,缩小与闭源模型差距。
532 4

热门文章

最新文章