阶跃开源 Step 3.7 Flash:面向生产级 Agent 的高效率 Flash 模型

简介: 阶跃星辰开源Step 3.7 Flash——面向Agent生产化的多模态Flash模型。采用稀疏MoE架构(196B+1.8B总参,仅11B激活),支持400 Tokens/s高速推理,原生理解UI/图表/文档/图像,强化联网搜索与高可靠工具调用,已适配Claude Code、OpenClaw、Hermes等主流Agent框架,支持云端及本地部署,魔搭社区免费体验。

阶跃星辰发布并开源Step 3.7 Flash,一款面向Agent生产化阶段的多模态Flash模型。采用稀疏MoE架构,总参数196B+1.8B(ViT),激活参数仅11B,最高生成速度400 Tokens/s。围绕Agent、Coding、Search与多模态工作流进行系统优化,支持云端和本地部署,已适配Claude Code、OpenClaw、Hermes Agent等主流Agent框架,现已上架魔搭社区。


开源地址:

  • ModelScope:

https://modelscope.cn/models/stepfun-ai/Step-3.7-Flash

  • GitHub:

https://github.com/stepfun-ai/Step-3.7-Flash

  • Model Page:

https://static.stepfun.com/blog/step-3.7-flash/


核心特性

下一阶段的模型竞争,不只是峰值智能,而是可规模化的高效智能。随着 Agent 从 Demo 走向真实生产环境,模型不只要回答问题,更要理解复杂输入、主动搜索信息、稳定调用工具,并在多轮任务中持续保持执行轨迹。

这对底层基础模型提出了完全不同的要求,同时,模型能力的关键指标正在发生变化。Step 3.7 Flash 正是为此而来。

面向生产级 Agent 优化的四大能力:

  • 原生多模态理解与执行:原生理解 UI、图表、文档、图片和应用界面,将复杂视觉信息转化为结构化结果、代码生成和可执行任务。
  • 联网与视觉搜索增强:强化联网检索与图像搜索,使模型在开放信息环境中跨文本与图像主动获取并交叉比对多源证据。
  • 高可靠工具调用与编排:在长程多轮 Agent 工作流中稳定调用 API、浏览器、终端、Office 工具和外部系统,保持任务轨迹一致,降低跑偏和执行失败。
  • Agent 生态兼容优化:针对主流 Agent 框架(Claude Code / KiloCode / RooCode / OpenCode / Hermes Agent / OpenClaw 等)、MCP/Skills 等工具调用协议和开发链路进行兼容优化,降低模型接入和工作流编排成本。


柱状图中左一为 Step 3.7 Flash、左二为 Step 3.5 Flash(Multimodal 除外)

同时,Step 3.7 Flash 也在适配 OpenRouter、ZenMux 等海外模型聚合与开发者平台,相关体验入口陆续开放。

多模:原生多模态理解与执行

Step 3.7 Flash 具备原生多模态理解与搜索能力,能够在真实环境中边看、边查、边验证信息。

模型支持理解 UI、图表、文档、图片与应用界面,并可将复杂视觉内容转化为结构化结果与可执行任务。在面对复杂视觉问题时,模型还能够自主裁剪、放大、重读图像,并在信息不确定时主动发起搜索进行交叉验证。

通过将视觉感知、搜索与推理过程深度结合,Step 3.7 Flash 在 SimpleVQA (Search)、V* (Python) 等复杂视觉任务 Benchmark 上,展现出媲美更大规模旗舰模型的能力表现。

Case 1


用户输入“如何起飞”指令后,模型可自动框选驾驶舱范围,识别仪表、按钮等视觉信息,理解驾驶舱中的关键信息与操作逻辑,并生成“如何起飞”的分步骤教程,展示复杂界面理解与任务引导能力(黄色鼠标及其行动为模型自动生成)。

Case 2


用户输入“怎么删除这个方块”指令,模型可自动框选 Photoshop 界面中,开始理解图层、工具栏与当前编辑状态,并给出删除画面中指定方块的具体操作步骤,展示对复杂专业软件界面与多步骤编辑任务的理解能力(黄色鼠标及其行动为模型自动生成)。


Case 3


用户输入“这些设计有什么有趣之处”指令,模型可自动框选应用界面,开始识别信息内容、理解不同图片设计,最终生成专业分析(黄色鼠标及其行动为模型自动生成)。

快速:单请求最高 400 TPS

Step 3.7 Flash 采用稀疏 MoE 架构,总参数 196B+1.8B(ViT)、激活参数仅 11B ,在模型能力、推理成本与执行效率之间实现更优平衡。

最高生成速度可达 400 Tokens/s,适合高频、多轮、低等待的 Agent 应用。 尤其适用于高频 Agent、Coding Agent、Search Agent、多模态 Agent 和企业知识工作 Agent。这意味着在同样单位时间内,Step 3.7 Flash 可以多看、多查、多想,迭代次数越多,结果越准确。

Case 1


视频详情

构建 Agent 集群,让 40 个不同身份的虚拟 persona 扮演产品评测团,对一个产品问题进行并行判断,然后实时汇总它们对 5 个 MVP 方向的偏好。


Case 2


Agent 并行实时构建大型可互动知识图谱

好用:高可靠工具调用与编排

Step 3.7 Flash 在多轮 Agent 工作流中稳定调用 API、浏览器、终端、Office 和外部系统,保持任务轨迹一致,降低跑偏和执行失败。已适配Claude Code、OpenClaw、Hermes Agent、Kilo Code等主流Agent框架,支持MCP/Skills等工具调用协议,同时支持个人工作站本地部署

基准 得分 说明
Toolathlon 49.5% 多工具协同
ClawEval-1.1 67.1% 真实环境自主任务执行
GDPval 45.8% 横跨44种职业
τ²-bench Telecom >98% 低/中/高三档推理难度



模型体验与部署

魔搭免费体验

在魔搭社区模型页面 APl-Inference 即可免费体验Step 3.7 Flash,无需配置环境:



API调用

Step 3.7 Flash兼容OpenAI接口,国内和海外平台使用不同的base_url:

import os
from openai import OpenAI
client = OpenAI(
    api_key=os.environ["STEP_API_KEY"],
    base_url="https://api.stepfun.com/v1",  # 海外请使用 https://api.stepfun.ai/v1
)
completion = client.chat.completions.create(
    model="step-3.7-flash",
    messages=[
        {"role": "system", "content": "You are an AI assistant provided by StepFun."},
        {"role": "user", "content": "Introduce StepFun's artificial intelligence capabilities."},
    ],
)
print(completion)
支持文本+图像多模态输入,在messages中传入
image_url
类型即可。

vLLM部署

推荐使用StepFun提供的预构建Docker镜像:

docker pull vllm/vllm-openai:stepfun37
VLLM_USE_MODELSCOPE=true vllm serve stepfun-ai/Step-3.7-Flash \
  --served-model-name step3p7-flash \
  --tensor-parallel-size 8 \
  --enable-expert-parallel \
  --reasoning-parser step3p5 \
  --enable-auto-tool-choice \
  --tool-call-parser step3p5 \
  --trust-remote-code
同时提供FP8和NVFP4量化版本,NVFP4版本可在4卡上运行。

SGLang部署

docker pull lmsysorg/sglang:dev-step-3.7-flash
sglang serve --model-path stepfun-ai/Step-3.7-Flash \
  --tp 8 \
  --reasoning-parser step3p5 \
  --tool-call-parser step3p5 \
  --enable-multimodal \
  --trust-remote-code \
  --host 0.0.0.0 --port 8000
支持EAGLE推测解码加速,添加
--speculative-algorithm EAGLE --speculative-num-steps 3
即可启用。

llama.cpp本地部署

提供Q4_K_S(111.5GB)、IQ4_XS(105GB)、Q3_K_L(102.5GB)三种GGUF量化版本,最低需要120GB统一内存(如Mac Studio、NVIDIA DGX Station)。

Transformers推理

from transformers import AutoProcessor, AutoModelForCausalLM
processor = AutoProcessor.from_pretrained(
    "stepfun-ai/Step-3.7-Flash", trust_remote_code=True
)
model = AutoModelForCausalLM.from_pretrained(
    "stepfun-ai/Step-3.7-Flash",
    device_map="auto", dtype="auto", trust_remote_code=True
)
messages = [{"role": "user", "content": [
    {"type": "image", "url": "https://example.com/photo.jpg"},
    {"type": "text", "text": "What is in this picture?"}
]}]
inputs = processor.apply_chat_template(
    messages, tokenize=True, add_generation_prompt=True,
    return_dict=True, return_tensors="pt"
).to(model.device)
output = model.generate(**inputs, max_new_tokens=128, do_sample=False)
print(processor.decode(output[0][inputs.input_ids.shape[1]:], skip_special_tokens=True))
注意:需要
transformers >= 5.0
。Transformers方式适合功能验证,生产环境推荐使用vLLM或SGLang。


目录
相关文章
|
3天前
|
SQL JSON 关系型数据库
企业级多模态分析计算引擎选型:阿里云 AnalyticDB MySQL 统一分析平台方案
阿里云AnalyticDB MySQL版是PB级云原生实时数据仓库,首创多模态统一分析引擎,单SQL原生支持SQL分析、向量检索、全文搜索与JSON分析,替代3–5套独立系统,综合成本降50%+,运维复杂度降80%,适用于AI+数据融合、多源异构统一查询等企业级场景。
117 17
企业级多模态分析计算引擎选型:阿里云 AnalyticDB MySQL 统一分析平台方案
|
6天前
|
数据采集 存储 算法
视频 RAG 中分块策略:基于停顿、滑动窗口与基于 LLM 的方法
本文探讨视频RAG中的核心挑战——如何为无时间结构的视频转录文本设计有效分块策略。对比传统文本分块,提出基于停顿、重叠窗口、递归切分及LLM驱动的主题分块四层方案,实现细粒度检索与全局理解兼顾,提升视频内容检索准确性与上下文完整性。
114 13
视频 RAG 中分块策略:基于停顿、滑动窗口与基于 LLM 的方法
|
6天前
|
人工智能 供应链 数据可视化
长江商学院CIO徐斌:AI时代,组织的进化逻辑与人才转型新思维
徐斌,长江商学院CIO、计算机博士,20年世界500强及上市公司高管经验,首创数字化“三驾马车”方法论(流程变革、IT固化、数字运营),成功主导得力集团全链路转型,助力其获评首批浙江省未来工厂。
|
3天前
|
API
阿里云微服务引擎 MSE 及 API 网关 2026 年 5 月产品动态
阿里云微服务引擎 MSE 及 API 网关 2026 年 5 月产品动态。
|
6天前
|
安全 JavaScript 前端开发
《ZAKU渗透论:卓伊凡的2026渗透工程》第四章:Web攻击原理(下)——XSS、CSRF、文件上传漏洞
本章详解XSS、CSRF与文件上传三大Web漏洞:XSS通过注入恶意脚本窃取Cookie;CSRF伪造已登录用户请求执行非自愿操作;文件上传漏洞则因校验缺失致服务器被控。三者共性——过度信任用户输入。(239字)
230 10
|
5天前
|
人工智能 自然语言处理 安全
医疗AI智能体:从数据到关怀人文设计:告别冰冷精准,构建有温度的诊疗交互.131
本文阐述医疗AI智能体的人文设计体系:以大模型为引擎,融合情绪识别、风险分级与伦理审核,构建“共情→分级→指引”三要素话术框架,破解技术冰冷难题。实践表明,人文优化使用户满意度从30%跃升至95%,实现精准医学与温暖交互的统一。
128 7
|
7天前
|
弹性计算 监控 Java
Maven 并行构建配置:-T 4C 提速 4 倍实战
本文深入讲解了 Maven 并行构建的核心原理和实战技巧,包含 -T 参数详解、模块并行化改造、性能监控与分析等企业级最佳实践。通过真实案例展示了如何将多模块项目的构建时间从 45 分钟缩短到 11 分钟(提升 4.1 倍),提供完整的性能测试脚本和优化检查清单。掌握这些技能,你将能够充分利用多核 CPU 加速 Maven 构建。适合 Java 开发者、架构师、DevOps 工程师阅读。
|
6天前
|
安全 人机交互 调度
《零基础搭建OpenClaw迁移训练环境指南》
智能体仿真完美、落地即崩的行业死结,根源从来不是仿真精度不足,而是传统Sim2Real始终困在视觉特征匹配的表层逻辑里。本文拆解OpenClaw颠覆性的虚实迁移方案,它彻底抛弃暴力域随机化的老路,构建了一套以跨感官因果认知为核心的迁移体系。通过阶梯式虚实过渡、动态经验权重调节、执行器在线自校准与虚实数据双向闭环,让智能体学习物理世界的本质规律而非表面特征。
|
7天前
|
人工智能 自然语言处理 安全
阿里云Coding Plan和Token Plan团队版有啥区别?百炼ai大模型平台如何选择?
阿里云百炼提供Coding Plan(个人向,按次计费、限频次、仅文本模型)与Token Plan团队版(企业向,按Credits计费、无频次限制、支持文本+图像多模态),适配不同场景与安全合规需求。免费领取7000万tokens:https://t.aliyun.com/U/fPVHqY
148 6
|
7天前
|
人工智能 缓存 自然语言处理
阿里云Token Plan是什么?看这一篇就够了,Credits计费、百炼支持模型、收费价格及使用方法
阿里云百炼Token Plan团队版是面向企业/团队的AI大模型订阅服务,以Credits统一计费,支持Qwen、GLM、Kimi、DeepSeek等20+文本与图像模型(如qwen-image-2.0、wan2.7-image),兼容Cursor、OpenClaw等主流AI工具。提供标准(198元/月/席)、高级(698元)、尊享(1398元)三档坐席,含25K–250K Credits额度,并可购共享用量包(5000元/62.5万Credits)。包月预算可控、数据不用于训练、多租户不排队。免费领千万tokens:https://t.aliyun.com/U/fPVHqY

热门文章

最新文章