Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演

简介: Step-Audio 是由阶跃星辰团队推出的开源语音交互模型,支持多语言、方言和情感表达,能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎙️ “智能家居集体「觉醒」!开源语音模型听懂你的川普怒吼,方言骂人都能温柔回应”

大家好,我是蚝油菜花。你是否经历过——

  • 👉 用普通话叫智能音箱关灯,它反问“您是要开灯吗?”
  • 👉 教长辈说标准指令,不如直接替他们按开关
  • 👉 客服机器人永远用播音腔说“理解您的心情”...

今天介绍的 Step-Audio ,正在终结这些智障交互!这个由阶跃星辰开源的130B参数怪兽:

  • ✅ 听得懂20+方言:四川话吐槽空调太热?马上调低3℃
  • ✅ 情感即时映射:愤怒语气触发应急模式,悲伤时自动切换温柔声线
  • ✅ 端到端实时交互:1秒内完成“听-想-说”全流程,延迟比眨眼还快

从智能家居到银发陪护,连方言短剧配音都在用它——你的设备准备好拥有「灵魂」了吗?

🚀 快速阅读

Step-Audio 是一款支持多语言、方言和情感表达的语音交互模型,能够实现高质量的语音识别、对话和合成。

  1. 核心功能:统一的语音理解与生成框架,支持多语言、方言和情感控制。
  2. 技术原理:基于 130B 参数的多模态大模型,结合双码本语音分词器和混合语音合成器,实现高效的语音处理和实时推理。

Step-Audio 是什么

Step-Audio-architecture

Step-Audio 是由阶跃星辰团队推出的首个产品级开源语音交互模型,旨在为用户提供高质量的语音交互体验。该模型基于 130B 参数的多模态大模型,能够根据不同的场景需求生成带有特定情感、方言、语种和个性化风格的语音表达。Step-Audio 不仅支持语音识别、对话生成,还具备强大的语音合成能力,能够在智能家居、智能客服、教育、娱乐等多个领域发挥作用。

Step-Audio 的核心优势在于其高效的数据生成引擎、精细的情感和方言控制能力,以及增强的工具调用和角色扮演功能。这些特性使得 Step-Audio 在复杂任务处理中表现出色,能够为用户提供更加自然、流畅的语音交互体验。

Step-Audio 的主要功能

  • 语音理解与生成的统一:同时处理语音识别(ASR)、语义理解、对话生成和语音合成(TTS),实现端到端的语音交互。
  • 多语言和方言支持:支持多种语言和方言(如粤语、四川话等),满足不同地区用户的需求。
  • 情感和风格控制:支持生成带有特定情感(如愤怒、喜悦、悲伤)和风格(如说唱、演唱)的语音。
  • 工具调用与角色扮演:支持实时工具调用(如查询天气、获取信息)和角色扮演,提升交互的灵活性和智能化水平。
  • 高质量语音合成:基于开源的 Step-Audio-TTS-3B 模型,提供自然流畅的语音输出,支持音色克隆和个性化语音生成。

Step-Audio 的技术原理

  • 双码本语音分词器:使用语言码本(16.7Hz,1024 码本)和语义码本(25Hz,4096 码本)对语音进行分词,基于 2:3 的时间交错方式整合语音特征,提升语音的语义和声学表示能力。
  • 130B 参数的多模态大模型:基于 Step-1 预训练文本模型,通过音频上下文的持续预训练和后训练,增强模型对语音和文本的理解与生成能力,支持语音和文本的双向交互。
  • 混合语音合成器:结合流匹配和神经声码器技术,优化实时波形生成,支持高质量的语音输出,同时保留语音的情感和风格特征。
  • 实时推理与低延迟交互:采用推测性响应生成机制,用户暂停时提前生成可能的回复,减少交互延迟。基于语音活动检测(VAD)和流式音频分词器,实时处理输入语音,提升交互的流畅性。
  • 强化学习与指令跟随:使用人类反馈的强化学习(RLHF)优化模型的对话能力,确保生成的语音更符合人类的指令和语义逻辑。基于指令标签和多轮对话训练,提升模型在复杂场景下的表现。

如何运行 Step-Audio

1. 环境准备

Step-Audio 需要在以下环境中运行:

Model Setting (sample frequency) GPU Minimum Memory
Step-Audio-Tokenizer 41.6Hz 1.5GB
Step-Audio-Chat 41.6Hz 265GB
Step-Audio-TTS-3B 41.6Hz 8GB
  • 硬件要求:建议使用 NVIDIA GPU,并安装 CUDA 支持。推荐使用 4xA800/H800 GPU,每块 GPU 至少 80GB 内存。
  • 操作系统:已测试的操作系统为 Linux。

2. 安装依赖

git clone https://github.com/stepfun-ai/Step-Audio.git
conda create -n stepaudio python=3.10
conda activate stepaudio

cd Step-Audio
pip install -r requirements.txt

git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer
git clone https://huggingface.co/stepfun-ai/Step-Audio-Chat
git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B

下载完成后,目录结构应如下所示:

where_you_download_dir
├── Step-Audio-Tokenizer
├── Step-Audio-Chat
├── Step-Audio-TTS-3B

3. 推理脚本

  • 离线推理:使用 offline_inference.py 进行端到端的音频或文本输入和输出推理。
python offline_inference.py --model-path where_you_download_dir
  • TTS 推理:使用 tts_inference.py 进行文本到语音的合成,支持默认发音人或克隆新的发音人。
python tts_inference.py --model-path where_you_download_dir --output-path where_you_save_audio_dir --synthesis-type use_tts_or_clone

对于克隆模式,需要提供一个发音人信息字典,格式如下:

{
   
    "speaker": "speaker id",
    "prompt_text": "content of prompt wav",
    "wav_path": "prompt wav path"
}
  • 启动 Web Demo:启动本地服务器进行在线推理。
python app.py --model-path where_you_download_dir

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
10月前
|
人工智能 物联网 测试技术
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
小红书开源的工业级自动语音识别模型,支持普通话、中文方言和英语,采用 Encoder-Adapter-LLM 和 AED 架构,实现 SOTA 性能。
3375 17
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
|
10月前
|
人工智能 编解码 语音技术
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型,具备拟人口语化表达、低延迟响应和多情感控制等功能。
2345 21
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
|
11月前
|
人工智能 自然语言处理 搜索推荐
GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互
GLM-Realtime 是智谱推出的端到端多模态模型,具备低延迟的视频理解与语音交互能力,支持清唱功能、2分钟内容记忆及灵活调用外部工具,适用于多种智能场景。
562 4
GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互
|
11月前
|
机器学习/深度学习 数据采集 人工智能
昇腾AI行业案例(七):基于 Conformer 和 Transformer 模型的中文语音识别
欢迎学习《基于 Conformer 和 Transformer 模型的中文语音识别》实验。本案例旨在帮助你深入了解如何运用深度学习模型搭建一个高效精准的语音识别系统,将中文语音信号转换成文字,并利用开源数据集对模型效果加以验证。
407 12
|
机器学习/深度学习 人工智能 算法
如果能在1分钟内训练出个AI模型,你想要什么?
随着人工智能的技术不断成熟,AI逐渐在各行业内落地,比如:在常见的安防监控领域,我们可以通过人脸识别去抓捕逃犯;在教育领域,我们可以使用OCR识别做拍题识别;在新零售领域,我们通过物体识别判断货品位置和数量;甚至在养猪场,我们都能用AI技术检测养猪的位置及数量。
1946 0
如果能在1分钟内训练出个AI模型,你想要什么?
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
592 40
|
2月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
469 30
|
3月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
950 48
|
2月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
421 1
|
2月前
|
消息中间件 人工智能 安全
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,涵盖AgentScope-Java、AI MQ、Higress、Nacos及可观测体系,全面开源核心技术,助力企业构建分布式多Agent架构,推动AI原生应用规模化落地。
308 0
构建企业级 AI 应用:为什么我们需要 AI 中间件?

热门文章

最新文章

相关产品

  • 智能语音交互