阶跃星辰开源! Step 3 :最新一代基础大模型 ,多模推理,极致效率

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 阶跃星辰开源新一代大模型 Step 3,采用 MoE 架构,参数量达 321B,激活参数 32B,平衡推理效率与资源利用,具备强大多模态能力,支持复杂推理与视觉分析,已在多个评测集取得领先成绩。

以下文章来源于阶跃星辰,作者阶跃星辰


01 前言

阶跃星辰开源最新一代基础大模型 Step 3 ,MoE架构的多模态模型,参数量321B,激活参数32B,重点解决多模态协同、系统解码成本与推理效率问题,实现了资源利用与推理效率的平衡,模型性能取得行业领先。

阶跃星辰团队在 MMMU、MathVision、SimpleVQA、AIME 2025、GPQA-Diamond、LiveCodeBench (2024.08-2025.05) 等评测集上对 Step 3 进行了测试,在同类型开源模型中,Step 3 成绩行业领先。

640 (29).png


开源地址:

GitHub

HuggingFace:

魔搭ModelScope:

[1]

[2]

核心要点

  • Step 3 兼顾智能与效率,专为追求性能与成本极致均衡的企业和开发者设计,旨在面向推理时代打造最适合应用的模型。
  • Step 3 采用 MoE 架构,总参数量 321B,激活参数量 38B。
  • Step 3 拥有强大的视觉感知和复杂推理能力,可准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析,以及日常生活中的各类视觉分析问题。
  • 通过 MFA(Multi-matrix Factorization Attention) & AFD(Attention-FFN Disaggregation) 的优化,在各类芯片上推理效率均大幅提升。
  • 面向 AFD 场景的 StepMesh 通信库已随模型一同开源,提供可跨硬件的标准部署接口,支持关键性能在实际服务中的稳定复现。
  • 模型限时折扣中,所有请求均按最低价格计算,每百万 token 价格低至输入 1.5 元,输出 4 元。

Step 3 API 已上线阶跃星辰开放平台(platform.stepfun.com),大家也可以在“阶跃 AI”官网(stepfun.com)和“阶跃 AI”App(应用商店搜索下载)进行体验。

02 技术亮点

Step 3 重点解决多模态协同、系统解码成本与推理效率问题,在训练路径、架构设计和推理部署上做了系统级优化。

1. 预训练架构

Step 3 的核心结构采用自研 MFA 注意力机制,有效降低注意力计算中的 KV 缓存开销与算力消耗。在不牺牲模型能力的前提下,这一方案实现了资源利用与推理效率的平衡,使得模型可在 8×48GB 显卡上完成大吞吐量推理,具备真实部署的可行性。

2. 多模态预训练

Step 3 的多模态能力围绕“轻量视觉路径”与“稳定协同训练”展开,重点解决视觉引入带来的 token 负担与训练干扰问题。为此,我们采用 5B Vision Encoder,并通过双层 2D 卷积对视觉特征进行降采样,将视觉 token 数量减少到原来的1/16,减轻上下文长度压力,提升推理效率。

为保证多模态训练的稳定性,训练过程分为两个阶段:第一阶段强化 Encoder 感知,第二阶段冻结视觉编码器,仅优化主干与连接层,以减少梯度干扰。训练语料也需与策略匹配,保障稳定协同。多模语料涵盖 Pair、Interleave 与多任务数据,在清洗环节中引入相似度过滤、重采样与任务比例控制,进一步提升图文协同质量与训练鲁棒性。

3. AFD 解耦系统

Step 3 在系统架构层重构了解码流程,重点解决 Attention 与 FFN 混合执行带来的推理瓶颈以及资源不匹配问题。为此,我们实现了高性能的 AFD(Attention-FFN Disaggregation)方案,将两类计算任务解耦成为两个子系统,并通过多级流水线并行调度,有效提升整体吞吐效率。

由于解耦后的子系统之间对数据传输有极高要求,我们同时研发了面向 AFD 场景的 StepMesh 通信库,基于 GPU Direct RDMA 实现跨卡的低延迟和高带宽传输,同时兼备不占用 GPU 计算资源、适配多类异构硬件等优势。在 50ms 解码的SLA 前提下,Step 3 在 Hopper GPU 上的吞吐达到 4039 token/gpu/s,显著高于类似设置下的 DeepSeek V3(2324 token/gpu/s),且该性能增益在特定硬件与长文场景会进一步放大至 300%。

StepMesh 库已随模型一同开源,提供可跨硬件的标准部署接口,支持关键性能在实际服务中的稳定复现。之后我们也会积极与各开源社区合作推广,让以上技术更容易被采纳和使用。

StepMesh 开源地址

03

立即体验

案例 1:商务饭局座位表

第一次安排商务饭局,领导让我按照 10 人图来排座,但客户那边来 7 个人,我们这边算上我5个人,一共 12 人围坐圆桌。怎么排座才不翻车?

“安排商务宴座”是一个混合了图示、模糊语义、礼仪常识与实际变量(人数变化)的非结构化复杂任务。在只提供一张含有限标签的座次图和人数输入的情况下,Step 3 首先识别图中结构,自动解析礼仪规则、角色关系与空间逻辑,再结合中文社交礼仪推理出完整 12 人角色分布逻辑,最终输出了角色明确、位置清晰、结构合理的“主宾-主陪”全局排座方案,并用表格+ ASCII 图直观展示,直接对照坐人即可。

饭局排座指南

案例 2:卡路里计算

我们上传一张麦当劳小票,问“两个人这一餐分别吃了多少卡路里”。


Step 3 看懂了重复杂乱的食品项目,把菜品归好类、对上热量,最终估算出 2 人一顿饭总共吃了 5710 大卡,人均 2855 大卡。整个过程从原始数据 → 概念识别 → 计算 → 结论解释,逻辑清晰,一整个闭环。


卡路里爆表分析

Step 3 API 已上线阶跃星辰开放平台,大家也可以在“阶跃 AI”官网和“阶跃 AI”App(应用商店搜索下载)进行体验。

相关文章
|
20天前
|
人工智能 编解码 数据可视化
原生支持QwenImage!FlowBench 正式开启公测!本地 + 云端双模生图,AI创作更自由
FlowBench 是由 ModelScope x Muse 团队打造的一站式 AI 工作流创作平台,现已开启全面公测。该平台以工作流为核心,支持本地与云端资源协同运行,面向开发者、设计师及 AI 创作者提供高效、稳定、易用的可视化创作体验。FlowBench 原生支持 QwenImage 图像生成模型,最低仅需 8GB 显存即可实现本地生图,并支持多 LoRA 融合、多图批量生成等强大功能。用户可在 Mac 和 Windows 系统下载使用,同时享受云端与本地自由切换带来的灵活体验。公测期间,FlowBench 团队将持续优化功能,推出更多创新特性,助力用户开启高效 AI 创作之旅。
173 11
|
30天前
|
测试技术 Swift 开发者
可调节推理预算,字节Seed团队开源大型语言模型 Seed-OSS 系列!
字节跳动 Seed 团队正式发布了 Seed-OSS 系列开源大型语言模型,提供强大的长上下文、推理、代理和通用功能,以及对开发者友好的多功能特性。
228 9
|
5月前
|
弹性计算 运维 自动驾驶
首个云超算国标正式发布!
近日,我国首个云超算国家标准GB/T 45400-2025正式发布,将于今年10月实施。该标准由阿里云联合多家机构起草,为云超算在高性能计算领域的应用提供规范。云超算结合传统HPC与云计算优势,解决传统HPC复杂、昂贵等问题。阿里云E-HPC V2.0是国内首批通过该标准认证的产品,支持大规模弹性计算,显著降低成本。新标准将推动算力基础设施迈向标准化、智能化新时代。
|
14天前
|
编解码 文字识别 自然语言处理
腾讯混元生图模型升级2.1版本:支持写字、2k分辨率,开源!
腾讯混元生图模型升级2.1版本:支持写字、2k分辨率,开源!
198 14
|
22天前
|
存储 人工智能 机器人
告别 “缸中之脑”:为何 Agent Runtime 至关重要?MuleRun 如何实现突破?
TL;DR:很多 AI Agent 被困在受限且一刀切的沙箱内,而 MuleRun 是全球首个通过提供可完全自定义且持久化的 Agent Runtime 来解决这一问题的平台——即你可以定义操作系统、访问原生软件、跨会话保留状态并分配硬件资源。这让你能打造真正的“数字化工人”,而不仅仅是受限的聊天机器人。
188 9
|
14天前
|
人工智能 数据可视化 定位技术
不会编程也能体验的 AI 魔法,外滩大会代码原生地等你解锁
不会编程也能体验的 AI 魔法,外滩大会代码原生地等你解锁
197 22
|
1月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
296 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
7天前
|
人工智能 物联网 API
ModelScope魔搭25年9月发布月报
ModelScope魔搭25年9月发布月报
145 10
|
20天前
|
算法 测试技术 决策智能
美团开源发布 LongCat-Flash-Chat:专为高效智能体任务设计,推理速度超100 tokens/s
9月1日,美团正式发布 LongCat-Flash-Chat,并同步开源。LongCat-Flash 采用创新性混合专家模型(Mixture-of-Experts, MoE)架构,总参数 560 B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。
119 1
|
6天前
|
机器学习/深度学习 物联网
Wan2.2再次开源数字人:Animate-14B!一键实现电影角色替换和动作驱动
今天,通义万相的视频生成模型又又又开源了!Wan2.2系列模型家族新增数字人成员Wan2.2-Animate-14B。
538 11

热门文章

最新文章