以下文章来源于阶跃星辰,作者阶跃星辰
01 前言
阶跃星辰开源最新一代基础大模型 Step 3 ,MoE架构的多模态模型,参数量321B,激活参数32B,重点解决多模态协同、系统解码成本与推理效率问题,实现了资源利用与推理效率的平衡,模型性能取得行业领先。
阶跃星辰团队在 MMMU、MathVision、SimpleVQA、AIME 2025、GPQA-Diamond、LiveCodeBench (2024.08-2025.05) 等评测集上对 Step 3 进行了测试,在同类型开源模型中,Step 3 成绩行业领先。
开源地址:
魔搭ModelScope:
核心要点
- Step 3 兼顾智能与效率,专为追求性能与成本极致均衡的企业和开发者设计,旨在面向推理时代打造最适合应用的模型。
- Step 3 采用 MoE 架构,总参数量 321B,激活参数量 38B。
- Step 3 拥有强大的视觉感知和复杂推理能力,可准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析,以及日常生活中的各类视觉分析问题。
- 通过 MFA(Multi-matrix Factorization Attention) & AFD(Attention-FFN Disaggregation) 的优化,在各类芯片上推理效率均大幅提升。
- 面向 AFD 场景的 StepMesh 通信库已随模型一同开源,提供可跨硬件的标准部署接口,支持关键性能在实际服务中的稳定复现。
- 模型限时折扣中,所有请求均按最低价格计算,每百万 token 价格低至输入 1.5 元,输出 4 元。
Step 3 API 已上线阶跃星辰开放平台(platform.stepfun.com),大家也可以在“阶跃 AI”官网(stepfun.com)和“阶跃 AI”App(应用商店搜索下载)进行体验。
02 技术亮点
Step 3 重点解决多模态协同、系统解码成本与推理效率问题,在训练路径、架构设计和推理部署上做了系统级优化。
1. 预训练架构
Step 3 的核心结构采用自研 MFA 注意力机制,有效降低注意力计算中的 KV 缓存开销与算力消耗。在不牺牲模型能力的前提下,这一方案实现了资源利用与推理效率的平衡,使得模型可在 8×48GB 显卡上完成大吞吐量推理,具备真实部署的可行性。
2. 多模态预训练
Step 3 的多模态能力围绕“轻量视觉路径”与“稳定协同训练”展开,重点解决视觉引入带来的 token 负担与训练干扰问题。为此,我们采用 5B Vision Encoder,并通过双层 2D 卷积对视觉特征进行降采样,将视觉 token 数量减少到原来的1/16,减轻上下文长度压力,提升推理效率。
为保证多模态训练的稳定性,训练过程分为两个阶段:第一阶段强化 Encoder 感知,第二阶段冻结视觉编码器,仅优化主干与连接层,以减少梯度干扰。训练语料也需与策略匹配,保障稳定协同。多模语料涵盖 Pair、Interleave 与多任务数据,在清洗环节中引入相似度过滤、重采样与任务比例控制,进一步提升图文协同质量与训练鲁棒性。
3. AFD 解耦系统
Step 3 在系统架构层重构了解码流程,重点解决 Attention 与 FFN 混合执行带来的推理瓶颈以及资源不匹配问题。为此,我们实现了高性能的 AFD(Attention-FFN Disaggregation)方案,将两类计算任务解耦成为两个子系统,并通过多级流水线并行调度,有效提升整体吞吐效率。
由于解耦后的子系统之间对数据传输有极高要求,我们同时研发了面向 AFD 场景的 StepMesh 通信库,基于 GPU Direct RDMA 实现跨卡的低延迟和高带宽传输,同时兼备不占用 GPU 计算资源、适配多类异构硬件等优势。在 50ms 解码的SLA 前提下,Step 3 在 Hopper GPU 上的吞吐达到 4039 token/gpu/s,显著高于类似设置下的 DeepSeek V3(2324 token/gpu/s),且该性能增益在特定硬件与长文场景会进一步放大至 300%。
StepMesh 库已随模型一同开源,提供可跨硬件的标准部署接口,支持关键性能在实际服务中的稳定复现。之后我们也会积极与各开源社区合作推广,让以上技术更容易被采纳和使用。
03
立即体验
案例 1:商务饭局座位表
第一次安排商务饭局,领导让我按照 10 人图来排座,但客户那边来 7 个人,我们这边算上我5个人,一共 12 人围坐圆桌。怎么排座才不翻车?
“安排商务宴座”是一个混合了图示、模糊语义、礼仪常识与实际变量(人数变化)的非结构化复杂任务。在只提供一张含有限标签的座次图和人数输入的情况下,Step 3 首先识别图中结构,自动解析礼仪规则、角色关系与空间逻辑,再结合中文社交礼仪推理出完整 12 人角色分布逻辑,最终输出了角色明确、位置清晰、结构合理的“主宾-主陪”全局排座方案,并用表格+ ASCII 图直观展示,直接对照坐人即可。
案例 2:卡路里计算
我们上传一张麦当劳小票,问“两个人这一餐分别吃了多少卡路里”。
Step 3 看懂了重复杂乱的食品项目,把菜品归好类、对上热量,最终估算出 2 人一顿饭总共吃了 5710 大卡,人均 2855 大卡。整个过程从原始数据 → 概念识别 → 计算 → 结论解释,逻辑清晰,一整个闭环。
Step 3 API 已上线阶跃星辰开放平台,大家也可以在“阶跃 AI”官网和“阶跃 AI”App(应用商店搜索下载)进行体验。