阶跃星辰原生语音推理模型登顶全球权威语音模型榜!开源!

简介: 阶跃星辰开源语音推理模型Step-Audio-R1.1登顶全球权威榜单,以96.4%准确率超越Grok、Gemini等,支持“边说边思考”,实现高智能实时交互,现已开放体验。

阶跃星辰开源模型Step-Audio-R1.1,拿下全球第一!

大模型评测榜单 Artificial Analysis Speech Reasoning 更新,阶跃星辰原生语音推理模型 Step-Audio-R1.1 登顶榜首。

该榜单是目前业界评估“原生语音模型”(Native Audio Models)最权威的第三方基准之一。核心考量模型直接处理音频并进行复杂逻辑推理的能力,主要考察维度包括准确率、首包延迟等。

和大语言模型同理,语音模型同样需要具备强大推理能力,才能提供更高阶智能、更自然交互。

Step-Audio-R1.1 以 96.4% 准确率,超越 GrokGeminiGPT-Realtime 等主流一线模型,刷新历史最好成绩。

在性能与速度的综合权衡上,Step-Audio-R1.1 全面领先同类语音模型。

Step-Audio-R1 是由阶跃星辰发布的全球首个开源原生语音推理模型。它可以在不增加额外时延的情况下,端到端理解语音内容,“像人类一样听到对话即可思考”。

核心能力包括:

  • 深度语音推理
  • 实时响应能力
  • 音频领域的可扩展 CoT

Step-Audio-R1.1 是最新升级版本,兼顾更强实时对话和复杂语音推理能力。与传统流式语音模型以牺牲智能性换取低延迟不同,R1.1 支持“边说边思考”(thinking while speaking),在不牺牲速度的前提下实现高智能水平。完整的实时语音 API 将在 2 月上线,目前开放的chat模式已搭载 R1.1 核心,支持边想边说的流式推理。

  • 案例一:分析猫猫吵架

📎分析猫猫吵架.mp4

根据提供的所有音频片段,这两只猫咪正在进行激烈的打斗和嘶吼。


可以从以下几点判断:

1、声音特征:音频中充满了持续、高亢且充满攻击性的猫叫和嘶吼声。这并非普通猫咪之间玩耍的打闹声,而是带有明显威胁和对抗意味的咆哮。

2、互动状态:可以听到不止一只猫的声音,它们的叫声此起彼伏,表明它们正在直接对抗。

3、人类干预:在音频的后半部分,可以清晰地听到有人在用中文劝阻:“别骂了”“别打了”,这直接说明了当时的情况是两只猫正在激烈争斗,甚至可能已经造成了伤害或噪音过大,导致主人不得不介入制止。

综上所述,这两只猫咪正在发生激烈的打斗,可能是由于领地争端、资源竞争(如食物或主人关注)或其他冲突引发的。


  • 案例二:理解海豹舞BGM韩语歌词

(最近抖音上很火的海豹舞,魔性BGM本来是一位外国友人在反复练习韩语词汇)

📎理解海豹舞BGM韩语歌词.mp4


我对说话人正在进行的活动分析如下:

这位说话人正在进行韩语口语发音练习或朗读训练。具体分析依据如下:内容重复性高:她反复念诵着结构相似的词组,

例如:

메기메긴하다 / 메기메긴한(Megi-megi-n ha-da / Megi-megi-n han)

这种高度重复的模式是典型的语言学习或发音练习特征,而非自然对话。总结来说,音频中的说话人并非在进行日常交流,而是在一个结构化的、有明确目的的口语训练场景中。

她通过快速、重复地朗读设计好的词组,来练习韩语的特定发音技巧或语法点,最可能的身份是语言学习者或从事声音相关工作的专业人士。


目前,Step-Audio-R1.1 权重已上传至ModelScope,并可在ModelScope创空间体验试玩:

  • 模型:https://modelscope.cn/models/stepfun-ai/Step-Audio-R1.1
  • 体验:https://modelscope.cn/studios/stepfun-ai/Step-Audio-R1

GitHub地址:

https://github.com/stepfun-ai/Step-Audio-R1

同时,欢迎大家下载体验或前往「阶跃星辰开放平台体验中心」试玩!

https://www.stepfun.com/studio/audio?tab=conversation


1月19日(周一) ,Step-Audio-R1.1 核心作者、阶跃星辰多模态大模型研究员 田飞将通过直播为大家带来该工作的深度技术解析,来预约,别错过!


点击直达模型体验~

https://modelscope.cn/studios/stepfun-ai/Step-Audio-R1

目录
相关文章
|
30天前
|
机器学习/深度学习 存储 人工智能
国内首个全国产化千亿参数细粒度 MoE:开源!
TeleChat3-105B-A4.7-Thinking,国内首个全国产化千亿参数细粒度MoE大模型,开源!代码、数学、Agent等多能力比肩头部,支持高效任务拆解与代码生成。
176 2
国内首个全国产化千亿参数细粒度 MoE:开源!
|
30天前
|
机器学习/深度学习 安全 测试技术
美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!
美团LongCat团队发布并开源LongCat-Flash-Thinking-2601,升级支持“重思考模式”,在智能体搜索、工具调用等任务中达开源SOTA。具备强泛化与抗噪能力,支持在线免费体验,助力开发者高效落地复杂应用场景。
179 1
美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!
|
28天前
|
机器学习/深度学习 文字识别 测试技术
10B击败200B!阶跃星辰10B视觉语言SOTA模型开源
阶跃星辰发布开源多模态小模型Step3-VL-10B,仅10B参数却媲美百亿级大模型,在视觉感知、逻辑推理、数学竞赛等任务中达同规模SOTA,支持端侧部署,推动智能终端交互革新。
228 6
|
28天前
|
存储 人工智能 缓存
别再把大脑当成 /dev/null 了!用这套AI指令给记忆装个 "Redis 缓存层"
本文将大脑记忆比作数据库存储,指出传统记忆的"无索引"缺陷。通过一套"记忆架构师AI指令",利用数据预处理、建立索引和持久化策略(遗忘曲线),帮助开发者构建高效、稳固的知识记忆系统,实现认知的"架构升级"。
418 4
|
1月前
|
人工智能 自然语言处理 PyTorch
构建AI智能体:九十四、Hugging Face 与 Transformers 完全指南:解锁现代 NLP 的强大力量
Hugging Face 是领先的自然语言处理开源平台,提供 Transformers 等核心库,支持数千种预训练模型,涵盖文本分类、生成、问答等任务。其 Pipeline 工具简化了模型调用,AutoClass 实现架构自动识别,助力开发者高效构建 AI 应用。
471 10
|
1月前
|
人工智能 机器人 程序员
去年我用一张Excel表"规划"学习,结果把自己逼进了ICU——直到我学会让AI帮我排兵布阵
本文以作者因"完美计划表"累倒入院的亲身经历切入,分享了一套让AI担任私人学习规划师的完整指令模板。通过"目标拆解""遗忘曲线复习""弹性时间"三大机制,解决目标模糊、复习逃避、计划崩溃等常见学习痛点,并提供上班族、学生、转行者三种典型场景的实战案例。
314 18
|
10天前
|
存储 API 数据库
投稿 | Zvec: 开箱即用、高性能的嵌入式向量数据库
Zvec 是一款开源(Apache 2.0)轻量级嵌入式向量数据库,专为终端侧设计,具备开箱即用、资源可控、极致性能与完整向量能力四大优势,支持标量-向量混合查询、CRUD、崩溃恢复等生产级特性,让端侧RAG如SQLite般简单可靠。(239字)
99 7
|
29天前
|
测试技术 API
小而强,GLM-4.7-Flash开源
GLM-4.7-Flash正式开源,30B总参、3B激活参数,兼顾性能与效率,支持免费调用。在编程、中文写作、翻译等多场景表现优异,已上线智谱平台,替代GLM-4.5-Flash,提供全新轻量化部署选择。
946 1
|
2月前
|
数据采集 人工智能 分布式计算
只靠国产算力与开源数据,端侧模型预训练行不行?我们做到了全流程开源
鹏城实验室与清华联合发布全流程开源大模型“开元-2B”,基于国产算力实现高效端侧训练。涵盖数据、代码、训练框架与技术报告,推动开放AI生态发展。
216 1
|
30天前
|
编解码 物联网 测试技术
FLUX.2-Klein 4B/9B开源:亚秒级统一图像生成与编辑
Black Forest Labs开源FLUX.2 [klein]模型家族,兼具文生图、图像编辑与多参考生成能力,端到端推理低至0.5秒,4B版本仅需13GB显存,支持消费级GPU高效运行,量化后速度提升最高2.7倍,Apache 2.0许可商用友好。
908 1

热门文章

最新文章