阶跃开源 Step 3.7 Flash:面向生产级 Agent 的高效率 Flash 模型

简介: 阶跃星辰开源Step 3.7 Flash:面向Agent生产化的多模态Flash模型。采用稀疏MoE架构(总参196B+1.8B,激活仅11B),支持原生UI/图表/文档理解、联网视觉搜索、高可靠工具调用,并兼容Claude Code等主流Agent框架,最高生成速度400 Tokens/s,已上架魔搭社区。

阶跃星辰发布并开源Step 3.7 Flash,一款面向Agent生产化阶段的多模态Flash模型。采用稀疏MoE架构,总参数196B+1.8B(ViT),激活参数仅11B,最高生成速度400 Tokens/s。围绕Agent、Coding、Search与多模态工作流进行系统优化,支持云端和本地部署,已适配Claude Code、OpenClaw、Hermes Agent等主流Agent框架,现已上架魔搭社区。

开源地址:

  • ModelScope:

https://modelscope.cn/models/stepfun-ai/Step-3.7-Flash

  • GitHub:

https://github.com/stepfun-ai/Step-3.7-Flash

  • Model Page:

https://static.stepfun.com/blog/step-3.7-flash/


核心特性

下一阶段的模型竞争,不只是峰值智能,而是可规模化的高效智能。随着 Agent 从 Demo 走向真实生产环境,模型不只要回答问题,更要理解复杂输入、主动搜索信息、稳定调用工具,并在多轮任务中持续保持执行轨迹。

这对底层基础模型提出了完全不同的要求,同时,模型能力的关键指标正在发生变化。Step 3.7 Flash 正是为此而来。

面向生产级 Agent 优化的四大能力:

  • 原生多模态理解与执行:原生理解 UI、图表、文档、图片和应用界面,将复杂视觉信息转化为结构化结果、代码生成和可执行任务。
  • 联网与视觉搜索增强:强化联网检索与图像搜索,使模型在开放信息环境中跨文本与图像主动获取并交叉比对多源证据。
  • 高可靠工具调用与编排:在长程多轮 Agent 工作流中稳定调用 API、浏览器、终端、Office 工具和外部系统,保持任务轨迹一致,降低跑偏和执行失败。
  • Agent 生态兼容优化:针对主流 Agent 框架(Claude Code / KiloCode / RooCode / OpenCode / Hermes Agent / OpenClaw 等)、MCP/Skills 等工具调用协议和开发链路进行兼容优化,降低模型接入和工作流编排成本。

柱状图中左一为 Step 3.7 Flash、左二为 Step 3.5 Flash(Multimodal 除外)

同时,Step 3.7 Flash 也在适配 OpenRouter、ZenMux 等海外模型聚合与开发者平台,相关体验入口陆续开放。

多模:原生多模态理解与执行

Step 3.7 Flash 具备原生多模态理解与搜索能力,能够在真实环境中边看、边查、边验证信息。

模型支持理解 UI、图表、文档、图片与应用界面,并可将复杂视觉内容转化为结构化结果与可执行任务。在面对复杂视觉问题时,模型还能够自主裁剪、放大、重读图像,并在信息不确定时主动发起搜索进行交叉验证。

通过将视觉感知、搜索与推理过程深度结合,Step 3.7 Flash 在 SimpleVQA (Search)、V* (Python) 等复杂视觉任务 Benchmark 上,展现出媲美更大规模旗舰模型的能力表现。

Case 1

用户输入“如何起飞”指令后,模型可自动框选驾驶舱范围,识别仪表、按钮等视觉信息,理解驾驶舱中的关键信息与操作逻辑,并生成“如何起飞”的分步骤教程,展示复杂界面理解与任务引导能力(黄色鼠标及其行动为模型自动生成)。

Case 2

用户输入“怎么删除这个方块”指令,模型可自动框选 Photoshop 界面中,开始理解图层、工具栏与当前编辑状态,并给出删除画面中指定方块的具体操作步骤,展示对复杂专业软件界面与多步骤编辑任务的理解能力(黄色鼠标及其行动为模型自动生成)。


Case 3

用户输入“这些设计有什么有趣之处”指令,模型可自动框选应用界面,开始识别信息内容、理解不同图片设计,最终生成专业分析(黄色鼠标及其行动为模型自动生成)。

快速:单请求最高 400 TPS

Step 3.7 Flash 采用稀疏 MoE 架构,总参数 196B+1.8B(ViT)、激活参数仅 11B ,在模型能力、推理成本与执行效率之间实现更优平衡。

最高生成速度可达 400 Tokens/s,适合高频、多轮、低等待的 Agent 应用。 尤其适用于高频 Agent、Coding Agent、Search Agent、多模态 Agent 和企业知识工作 Agent。这意味着在同样单位时间内,Step 3.7 Flash 可以多看、多查、多想,迭代次数越多,结果越准确。

Case 1

视频详情

构建 Agent 集群,让 40 个不同身份的虚拟 persona 扮演产品评测团,对一个产品问题进行并行判断,然后实时汇总它们对 5 个 MVP 方向的偏好。


Case 2

Agent 并行实时构建大型可互动知识图谱

好用:高可靠工具调用与编排

Step 3.7 Flash 在多轮 Agent 工作流中稳定调用 API、浏览器、终端、Office 和外部系统,保持任务轨迹一致,降低跑偏和执行失败。已适配Claude Code、OpenClaw、Hermes Agent、Kilo Code等主流Agent框架,支持MCP/Skills等工具调用协议,同时支持个人工作站本地部署

基准 得分 说明
Toolathlon 49.5% 多工具协同
ClawEval-1.1 67.1% 真实环境自主任务执行
GDPval 45.8% 横跨44种职业
τ²-bench Telecom >98% 低/中/高三档推理难度



模型体验与部署

魔搭免费体验

在魔搭社区模型页面 APl-Inference 即可免费体验Step 3.7 Flash,无需配置环境:


API调用

Step 3.7 Flash兼容OpenAI接口,国内和海外平台使用不同的base_url:

import os
from openai import OpenAI
client = OpenAI(
    api_key=os.environ["STEP_API_KEY"],
    base_url="https://api.stepfun.com/v1",  # 海外请使用 https://api.stepfun.ai/v1
)
completion = client.chat.completions.create(
    model="step-3.7-flash",
    messages=[
        {"role": "system", "content": "You are an AI assistant provided by StepFun."},
        {"role": "user", "content": "Introduce StepFun's artificial intelligence capabilities."},
    ],
)
print(completion)
支持文本+图像多模态输入,在messages中传入
image_url
类型即可。

vLLM部署

推荐使用StepFun提供的预构建Docker镜像:

docker pull vllm/vllm-openai:stepfun37
VLLM_USE_MODELSCOPE=true vllm serve stepfun-ai/Step-3.7-Flash \
  --served-model-name step3p7-flash \
  --tensor-parallel-size 8 \
  --enable-expert-parallel \
  --reasoning-parser step3p5 \
  --enable-auto-tool-choice \
  --tool-call-parser step3p5 \
  --trust-remote-code
同时提供FP8和NVFP4量化版本,NVFP4版本可在4卡上运行。

SGLang部署

docker pull lmsysorg/sglang:dev-step-3.7-flash
sglang serve --model-path stepfun-ai/Step-3.7-Flash \
  --tp 8 \
  --reasoning-parser step3p5 \
  --tool-call-parser step3p5 \
  --enable-multimodal \
  --trust-remote-code \
  --host 0.0.0.0 --port 8000
支持EAGLE推测解码加速,添加
--speculative-algorithm EAGLE --speculative-num-steps 3
即可启用。

llama.cpp本地部署

提供Q4_K_S(111.5GB)、IQ4_XS(105GB)、Q3_K_L(102.5GB)三种GGUF量化版本,最低需要120GB统一内存(如Mac Studio、NVIDIA DGX Station)。

Transformers推理

from transformers import AutoProcessor, AutoModelForCausalLM
processor = AutoProcessor.from_pretrained(
    "stepfun-ai/Step-3.7-Flash", trust_remote_code=True
)
model = AutoModelForCausalLM.from_pretrained(
    "stepfun-ai/Step-3.7-Flash",
    device_map="auto", dtype="auto", trust_remote_code=True
)
messages = [{"role": "user", "content": [
    {"type": "image", "url": "https://example.com/photo.jpg"},
    {"type": "text", "text": "What is in this picture?"}
]}]
inputs = processor.apply_chat_template(
    messages, tokenize=True, add_generation_prompt=True,
    return_dict=True, return_tensors="pt"
).to(model.device)
output = model.generate(**inputs, max_new_tokens=128, do_sample=False)
print(processor.decode(output[0][inputs.input_ids.shape[1]:], skip_special_tokens=True))
注意:需要
transformers >= 5.0
。Transformers方式适合功能验证,生产环境推荐使用vLLM或SGLang。


目录
相关文章
|
15天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
5815 29
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
10天前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
1169 2
|
7天前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
946 1
|
17天前
|
人工智能 自然语言处理 供应链
|
8天前
|
人工智能 弹性计算 安全
阿里云618活动时间、活动入口、优惠活动详细解读
2026年阿里云618创新加速季已全面开启,作为年度力度最大的云产品促销活动,本次大促覆盖轻量应用服务器、ECS云服务器、GPU云服务器、数据库、AI算力、安全服务、CDN等全品类产品,推出5亿元算力补贴、新用户限时秒杀、普惠满减、企业专享、免费试用、云大使返佣等多重福利,个人开发者、中小企业、AI团队均可享受专属低价。本文将系统梳理2026年阿里云618活动的完整时间节点、官方参与入口、各类优惠细则、使用规则、热门产品推荐及实操代码,帮助用户精准参与、高效省钱,以最低成本完成上云部署。
742 4
|
23天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3834 15
|
8天前
|
运维
欢迎报名|2026 Agentic AICon—智能体基础设施与AgentOps专场,邀您参会
欢迎报名|2026 Agentic AICon—智能体基础设施与AgentOps专场,邀您参会
1427 0

热门文章

最新文章