Qwen 3.7 Plus 与 Max 实测：性价比与多模态能力差异解析（2026）-阿里云开发者社区

pull quote

2026 年 6 月 1 日，阿里悄无声息地发布了 Qwen 3.7 Plus，距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文，同样的 35 小时自治上限。但价格才是头条：Plus 是 $0.40/M 输入，Max 是 $2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”，而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。

TL;DR：这两个模型该怎么选？（30 秒答案）

Qwen 3.7 Max 是高端文本旗舰，Qwen 3.7 Plus 是同系列的价值版兄弟——输入、输出、缓存全部便宜约 6 倍，还多了视觉能力。两者共享 1M 上下文窗口和 35 小时自治运行上限。按场景选：

场景	选
默认工作负载（多数团队）	Qwen 3.7 Plus（便宜约 6 倍，同样的上限）
必须打满 SWE-Bench Pro 60.6%	Qwen 3.7 Max
Agent 要读 UI 截图或设计稿	Qwen 3.7 Plus（Max 读不了）
预算紧、输出量大	Qwen 3.7 Plus（$1.60/M 输出 vs Max 的 $7.50）
视频转写 + 推理	Qwen 3.7 Plus
纯文本场景里追极致延迟	Qwen 3.7 Max（冷启动快 7-15%）
缓存刷新型 prompt 最便宜	Qwen 3.7 Plus（$0.08/M 缓存 vs Max 的 $0.25）
35 小时自治 CLI agent	都行，上限一样

如果你必须在下一个季度只押一个模型，默认就是 Plus。Max 只有在你能拿出”我的具体任务集上 Max 明显更好”的实证时，才配得上 6 倍溢价——而对绝大多数代码、文档、agent 类工作负载来说，这种实证很难找到。

规格速览

两个模型都阿里云百炼平台和的 OpenAI 兼容 endpoint 提供。这张表是采购单上真正要填的字段：

字段	Qwen 3.7 Plus	Qwen 3.7 Max
发布日期	2026-06-01	2026-05-21
模态	文本 + 图片 + 视频	仅文本
上下文窗口	1,000,000 tokens	1,000,000 tokens
输入价格（文本）	$0.40 / M tokens	$2.50 / M tokens
输出价格	$1.60 / M tokens	$7.50 / M tokens
缓存输入	$0.08 / M tokens	$0.25 / M tokens
缓存写入	$0.50 / M tokens	（未单独列出）
图片输入	与文本同价 $0.40/M	不支持
自治运行上限	35 小时	35 小时
顺序工具调用	1000+	1000+
LM Arena（文本）排名	#15	#13
LM Arena（编码）排名	#12	#10
Vision Arena 排名	#16	不适用
SWE-Bench Pro	约 60%（文本路径）	60.6%
MCP-Atlas	76.4	76.4
可用渠道	百炼 +	百炼 +

多数规格表会埋两个真相。第一，价格差才是真正的故事：Plus 输入便宜约 6 倍，输出便宜约 4.7 倍，缓存读取便宜约 3.1 倍——同样的上下文窗口、同样的 agent 上限。第二，Vision Arena #16 的成绩，对一个上线没几天的模型来说，已经压过了不少老牌多模态旗舰——而这个能力是绑在 Plus 的文本价格上送给你的，没有额外收费。

编码 Benchmark：真实任务

赢 benchmark 的模型很少是赢你 sprint 的模型。我们的 API 用同一组 prompt 在两个模型上跑了三个真实工程任务，记录 token 用量、时钟时间、以及高级工程师给的 1-5 分质量评分。方法：每个任务 5 次，取中位数，temperature 0.2。

任务 1：把 1,200 行的 Python 服务重构成异步

把同步的 FastAPI 服务（requests + 阻塞 DB 调用）重构成 httpx + asyncpg，保留所有 endpoint，加上正确的取消逻辑，返回一份 unified diff。

指标	Qwen 3.7 Plus	Qwen 3.7 Max
输入 tokens	12,840	12,840
输出 tokens	4,210	3,980
时间（中位数）	47 秒	41 秒
质量（1-5）	4	4
diff 干净 apply	是	是

结论：质量打平，Max 在纯文本任务上快约 14%（Plus 每次请求都要”热身”多模态栈，即便你不发图，这个冷启动开销是真实存在的）。但成本反过来：按 Plus 的 $0.40/M 输入 + $1.60/M 输出，同样这个任务在 Plus 上约 $0.012，在 Max 上约 $0.062——同样一份 diff，Plus 便宜约 5 倍。

任务 2：从截图 + 堆栈跟踪里 debug flaky 测试

给一张 Jest 测试报告截图（两个断言失败）和一份 60 行的堆栈跟踪文本，要求找出根因并提出修复方案。

指标	Qwen 3.7 Plus	Qwen 3.7 Max
输入 tokens	8,420 + 1 张图	8,420（图片被丢弃）
输出 tokens	1,830	2,140
时间	12 秒	9 秒
质量（1-5）	5	2
找到真实根因	是	否（猜错了行）

结论：这就是 Plus 整个论点的浓缩版。Max 能看见文字，但漏掉了”测试报告高亮的是父组件，而非被测的子组件”这个视觉信号。Plus 读懂了高亮，第一次就修在了正确的那一行。只要你的 debug 循环里出现过粘贴的截图，能真的”看见”它的模型就赢。

任务 3：1000 步自治 CLI agent，Postgres 14 升 16 迁移

跑一个目标导向的 agent，规划迁移、执行 pg_dump、校验 schema、执行升级、写回滚脚本。我们让它各跑 4 小时无人值守（远未触及 35 小时上限）。

指标	Qwen 3.7 Plus	Qwen 3.7 Max
工具调用次数	342	351
错误恢复	5 中 4	5 中 5
计划完成度	96%	100%
总成本	$0.34	$1.71

结论：Max 在完成度质量上微胜（100% vs 96%，5/5 vs 4/5 错误恢复）。Plus 用 5 倍便宜的代价换来了那 4 个百分点的质量差。这 5 倍便宜值不值得，完全取决于失败的代价是什么——不可回滚的生产迁移，大概率是”该买 Max”；预发环境演练或可恢复的批处理任务，几乎一定是”把省下的钱拿走”。两个模型都没有逼近自治上限；跑完时各自都还有 30+ 小时余量。

三个任务揭示的规律是一致的。Plus 用约 5 倍更低的成本换来可比的质量；Max 用约 6 倍的 token 账单换来小幅 benchmark 领先和约 7-15% 更低的延迟。在视觉输入这条线上，Max 根本上不了场——它看不到图片。这不是某个 benchmark 的偏差。阿里官方就是把 Plus 定位成”省钱的多模态兄弟”，不是降级版。

多模态与视觉能力（Plus 的主场）

Qwen 3.7 Plus 是这次对比里唯一能吃像素的模型，所以这一节没有 Max 那一列；这里讲的是 Plus 实际解锁了什么。按我们在生产里见到的频率排序，分三档：

第一档：UI debug 与设计 QA。 Plus 读一张布局错乱的截图，找到肇事的 CSS 规则，提出修复方案。我们用这种模式跑了 20 个生产工单。Plus 仅凭截图就解决了 14 个。Max 解决了 0 个；它只能对”有人手工抄下来的文字”做反应。

第二档：PDF 与文档推理。 Plus 接收多页 PDF（发票、合同、研究论文），在文字和视觉布局上同时推理：表格单元、图注引用、脚注位置。这一档干掉了多数团队那条用 pdfplumber + 求佛胶水起来的 “PDF 转 markdown 再 prompt” 流水线。

第三档：带时间戳的视频总结。 Plus 接收视频输入，时长上限由百炼按 tier 限定。实战用法：扔进一段 15 分钟的录屏 standup，拿回一份带时间戳的 action item 清单。我们在三场录制的工程评审上测了，给出的 action item 准到我们已经停止手工记笔记了。

Vision Arena 排名 #16 是头条数字，但它低估了实战提升。Vision Arena 考核的是通用图像理解任务。Plus 在实战中真正有用的地方在于：它的视觉能力和 Max 一样共用同一套推理 + 工具调用底座。其他多模态模型（不点名）能描述一张图描述得不错，但拿到结果之后调不动工具。Plus 在同一个 agent 循环里完成”看截图 → 识别错误 → 跑 pytest -k foo → 报告”的链式调用——这个链式能力才是护城河。

Plus 的硬性”No”：它只能读图和视频，不能生成。如果你要文生图，还得另外接一个生成模型。

工具调用与 Agent 任务

两个模型共享阿里这一代最激进的 agent 数字：35 小时连续自治运行、单会话 1000+ 顺序工具调用。这两个数字来自阿里官方资料；我们独立复现了多小时无人值守运行（4+ 小时）没碰到天花板。

为什么这两个数字重要。多数”agent”框架活不过 100 个工具调用，因为模型在那之后会丢上下文一致性。一旦 agent 把 80% 的上下文烧在规划和工具 I/O 上，后续每个动作都开始退化。1M 上下文加上阿里专为长 agent trace 调教的状态管理启发式，让 Qwen 3.7 在小窗口模型已经开始”幻觉自己之前的工具输出”的地方还稳得住。

我们在两个模型上观察到的工具调用模式：

自纠错。 curl 返回 500 时，两个模型都会记录失败、等待、按退避重试。没有谁陷入死循环。
执行前多步规划。 都会把”部署到 staging”分解成 14-18 个有序子任务再开始动。规划在 trace 里可见，所以你可以在它开始烧钱前打断。
跨小时的状态记忆。 第 1 小时写的迁移脚本，到第 3 小时仍能正确引用。1M 上下文是这件事跑通的工程理由。

Plus 比 Max 多出的部分：基于视觉的工具调用。生产 trace 里见过的例子：

“看 Datadog dashboard 截图 → 找到红色的指标 → 用 Datadog API 查对应服务 → 写一份 runbook。”
“读 Figma 设计稿导出 → 生成 JSX → 截图渲染结果 → 与原图对比。”

这些循环在 Max 上根本跑不起来，因为 Max 吃不进截图和 Figma 导出。你当然可以拿（OCR 服务 + 图生文模型 + Max）拼一个替代栈，但那个栈的成本、延迟、失败面，都比 Plus 端到端跑差很多。

MCP-Atlas（多步工具使用 benchmark）两个模型都是 76.4；共用同一套工具调用引擎。所以选择两者的问题归结为两条轴：价格（Plus 便宜约 6 倍）和”你的工具会不会说图片”（只有 Plus 会）。对纯文本 agent 工作负载，问题变成”Max 那约 2 个百分点的 benchmark 领先和约 10% 的延迟优势，值不值 6 倍 token 账单”——多数团队诚实地回答都是”不值”。

价格实算：真实月账单

规格表写 $/M tokens，采购看的是月账单。下面是两个场景的真实算账，数字来自三个自上线起一直在跑这两个模型的团队的脱敏用量。

场景 A：5 人开发团队，纯文本编码 agent

每人每天 50 个编码任务，每月 21 工作日
任务中位数：6,000 输入 + 1,800 输出 tokens
30% 输入命中提示词缓存（刷新型 prompt 模板）

每个开发者每月 token 量：

输入：50 × 21 × 6,000 = 6.30M tokens；缓存 1.89M，未缓存 4.41M
输出：50 × 21 × 1,800 = 1.89M tokens

Qwen 3.7 Plus（$0.40/M 输入、$1.60/M 输出、$0.08/M 缓存）：

缓存输入：1.89M × $0.08 = $0.15
未缓存输入：4.41M × $0.40 = $1.76
输出：1.89M × $1.60 = $3.02
每个开发者：$4.93 → 5 人团队：$24.65 / 月

Qwen 3.7 Max（$2.50/M 输入、$7.50/M 输出、$0.25/M 缓存）：

缓存输入：1.89M × $0.25 = $0.47
未缓存输入：4.41M × $2.50 = $11.03
输出：1.89M × $7.50 = $14.18
每个开发者：$25.68 → 5 人团队：$128.40 / 月

同一份工作负载，Plus 便宜 5.2 倍。延迟代价（Plus 冷启动慢约 14%）每个任务大约多花 6 秒。按 $80/小时的综合人力成本算，这 6 秒 × 50 任务 × 21 天 × 5 人 ≈ $700/月的开发时间。净下来：即便把延迟全部按人力定价，Plus 还是每月省约 $600。

场景 B：5 人开发团队，视觉 debug agent

同样每人每天 50 个任务、21 工作日
60% 任务包含 1 张截图（只有 Plus 能用，Max 会丢弃图片）
图片中位数：约 1,280 image tokens，按与文本输入同样的 $0.40/M 计价
文本部分不变

Plus 每月每开发者成本：

文本输入 + 输出：$4.93（同场景 A）
图片：50 × 21 × 0.6 × 1,280 tokens × $0.40/M ≈ $0.32
每个开发者：约 $5.25 → 5 人团队：$26.25 / 月

同样工作负载放到 Max。Max 读不了截图，团队只能用人工转写来补这条视觉信号。手工 triage 一张截图约 4 分钟，按 $80/小时算，每个任务 $5.33 的人力。60% 任务带截图：50 × 21 × 0.6 × $5.33 = 每个开发者每月 $3,358 的隐性工程师时间。5 人团队：Max 上每月 $16,790 的”影子人力成本”（加上那 $128.40 token 账单）。

视觉 debug 工作负载的”每美元视觉力”指标：Plus 大约赢 640 倍。这就是让 Max 在任何沾到像素的 agent 场景里站不住的算账。

总原则。默认选 Plus。 纯文本成本上赢约 5 倍，多模态能力至多多花约 6%，上下文窗口和自治上限和 Max 一致。只有当你能指出一个明确的质量驱动理由——某条你在优化的 benchmark、对 14% 延迟容忍度极低的时延预算、或某个高层硬性要求”用顶级旗舰”——才选 Max。

什么时候选 Qwen 3.7 Plus

把 Qwen 3.7 Plus 设为默认。它在输入、输出、缓存读取三条线上都比 Max 便宜约 6 倍，同时保留 1M 上下文和 35 小时自治上限——并且免费送你视觉能力。具体的选择信号：

多数编码与 agent 工作负载。 “每个已解决任务的成本”比 Max 好约 5 倍，benchmark 上只差 2-4 个百分点。除非那个差距对你的具体场景关键，否则就是值。
视觉 debug 循环。 截图、图像形式的堆栈跟踪、布局 bug、设计稿 vs 实现差异。
文档智能化。 布局非平凡的 PDF（多栏论文、财报、合同）。Plus 读的是布局，不是只读字。
视频总结。 Standup 录像、课程内容、内部 demo。Plus 给出带时间戳的要点。
基于视觉的 agent。 “看了再做”型 agent：UI 测试机、设计 QA 机、截图驱动的 CI。
预算敏感、输出量大的生成场景。 $1.60/M 输出 vs Max 的 $7.50/M 是最大的单项节省。

如果你想保留”以后再加视觉能力”的可能性，又不想重新接线 endpoint，也选 Plus。Plus 在纯文本请求上和 Max API 兼容，今天可以纯文本起步，等你的产品需要时直接开始挂 image_url，没有迁移成本。

什么时候选 Qwen 3.7 Max

只有当你能明确说出约 6 倍的成本溢价能怎样把自己赚回来时再选 Qwen 3.7 Max。具体的选择信号：

你在专门优化 SWE-Bench Pro。 Max 的 60.6% 是当前闭源最高水位线——比 GPT-5.5 的 58.6% 高 2 个百分点。如果你的 roadmap 或 RFP 里明确写了 SWE-Bench Pro，那就上 Max。
延迟敏感的文本流水线。 Max 在纯文本冷启动路径上快 7-15%。对高并发实时生成、每秒都在复利的场景，Max 可以靠节省下来的开发时间把自己赚回来（看上面场景 A 的算账——盈亏平衡大致是开发时间按 $80/小时算超过 $600/月 / 5 人的位置）。
由 benchmark 驱动的决策方。 采购或技术评审明确把 benchmark 头条数据写进权重。Max 的 LM Arena 编码 #10 和 SWE-Bench Pro 60.6% 在这两项上都赢 Plus。
纯文本 CLI 编码 agent，且质量差距对你确实重要。 见 Qwen 3.7 Max 编码 Arena benchmark 和 Qwen 3.7 Max 开发者指南，那两篇里展开了 Max 的领先在哪里能真正显现的集成模式。

另外当你要和 GPT-5.5 或 Claude Opus 4.8 在纯编码任务上对标时也可以选 Max。Max 的 SWE-Bench Pro 60.6% 领先只在这一条 benchmark 上成立：GPT-5.5 在 SWE-Bench Verified 上反超，按你的代码库的实际任务分布去选 benchmark 加权。

对前一代的决策框架（同一逻辑，不同模型对）参考 Qwen 3.6 Plus vs DeepSeek V4 Pro 编码对比。

同时跑两个：10 行代码 A/B

单 key 的优势对这两个模型尤其关键。Plus 和 Max 在文本层共享相同的请求形态，所以最干净的 A/B 方式就是给同一条 prompt 打两个 endpoint，diff 输出。把两个模型都挂在 OpenAI 兼容 API 上：/models/bailian/qwen3.7-plus 和 /models/bailian/qwen3.7-max。API 模型 ID 是 bailian/qwen3.7-plus 和 bailian/qwen3.7-max。一个 API key、一条 base URL、换一个字符串。

Python——一个循环 A/B 两个模型

from openai import OpenAI

client = OpenAI(
 base_url="",
 api_key="sk--xxx",
)

prompt = "Refactor this FastAPI handler from sync to async, return a unified diff."

# 同一条 prompt，两个模型——只换 model 字符串。
for model in ("bailian/qwen3.7-max", "bailian/qwen3.7-plus"):
 resp = client.chat.completions.create(
 model=model,
 messages=[{"role": "user", "content": prompt}],
 temperature=0.2,
 max_tokens=2048,
 )
 print(f"\n=== {model} ===\n{resp.choices[0].message.content}")

Node——同样的形状

import OpenAI from "openai";

const client = new OpenAI({
 baseURL: "",
 apiKey: process.env.API_KEY,
});

const prompt = "Refactor this FastAPI handler from sync to async, return a unified diff.";

for (const model of ["bailian/qwen3.7-max", "bailian/qwen3.7-plus"]) {
 const resp = await client.chat.completions.create({
 model,
 messages: [{ role: "user", content: prompt }],
 temperature: 0.2,
 max_tokens: 2048,
 });
 console.log(`\n=== ${model} ===\n${resp.choices[0].message.content}`);
}

Plus 独有：挂一张截图

这是 Max 物理上跑不了的那种调用——Plus 读图，返回一份基于”它真的看见的东西”的修复方案。同样的 client、同样的 key，多挂一个 image_url 内容块：

import base64

with open("error.png", "rb") as f:
 image_b64 = base64.b64encode(f.read).decode

resp = client.chat.completions.create(
 model="bailian/qwen3.7-plus",
 messages=[{
 "role": "user",
 "content": [
 {"type": "text", "text": "Which assertion failed and why? Return the offending line."},
 {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_b64}"}},
 ],
 }],
 max_tokens=1024,
)
print(resp.choices[0].message.content)

我们在生产里真正会跑的路由模式：默认走 Plus，只有当请求显式 opt-in（比如代码路径里设了 model=premium 这种 flag）才路由到 Max。一行 router、便宜约 6 倍的基线、视觉能力就摆在那里——任何时候开始挂 image_url 都立即可用。

FAQ

Qwen 3.7 Plus 也支持 1M 上下文吗？
是。两者共享同样的 100 万 tokens 上下文窗口。Plus 的窗口会被图片和视频 tokens 占用（1080p 一帧大约 1,280 tokens），所以实际可用的文本余量会按视觉负载等比例缩减。

Qwen 3.7 Plus 写代码比 Qwen 3.7 Max 好吗？
论原始质量，纯文本编码上 Plus 微弱不如（LM Arena 编码 Max #10 vs Plus #12，SWE-Bench Pro 差约 2 个百分点）。论”每个已解决任务的成本”，Plus 便宜约 5 倍，因为 Plus 是 $0.40/$1.60 vs Max 的 $2.50/$7.50。论视觉编码（截图 debug、设计稿解读），Plus 是唯一选择——Max 根本看不到图。

Qwen 3.7 Plus 的价格相比 Qwen 3.7 Max 是多少？
Plus 是 $0.40/M 输入、$1.60/M 输出、$0.08/M 缓存。Max 是 $2.50/M 输入、$7.50/M 输出、$0.25/M 缓存。Plus 在每条上都便宜约 6 倍。Plus 的图片输入按文本输入同样的 $0.40/M 计价。

Qwen 3.7 Plus 能 35 小时自治运行吗？
能。阿里 Plus 的发布资料把自治迭代和工具调用列为核心能力。我们验证过 4 小时无人值守；没有亲自跑到 35 小时上限。

Qwen 3.7 Max 和 GPT-5.5 在 SWE-Bench Pro 上谁强？
Qwen 3.7 Max 60.6% vs GPT-5.5 58.6%，领先 2 个百分点，目前闭源最高水位线。

我该从 Qwen 3.7 Max 迁移到 Qwen 3.7 Plus 吗？
对多数工作负载是的——Plus 仅文本 tokens 就便宜约 6 倍，还免费送视觉。留在 Max 的唯一理由：你在自己的真实任务集上验证过质量差距，并确认这个差距值得 6 倍溢价；或者 Max 那 7-15% 的延迟优势确实影响某个业务指标。

Qwen 3.7 Plus 能生成图片吗？
不能。Plus 只读图和视频，不生成。文生图工作负载你还得另外接一个生成模型。

在哪能一次性试两个模型？
把两个都列在 /models/bailian/qwen3.7-plus 和 /models/bailian/qwen3.7-max，OpenAI 兼容 API、单 key 通用。

本次更新核实的来源

阿里 Qwen 团队 Qwen 3.7 Plus 发布报道，2026-06-02：https://www.marktechpost.com/2026/06/02/alibabas-qwen-team-launches-qwen3-7-plus-adding-vision-deep-reasoning-tool-invocation-and-autonomous-iteration-on-the-bailian-platform/
Qwen 3.7 Max benchmark 报告 OpenRouter 页面（2026-06-02 核实）：https://openrouter.ai/qwen/qwen3.7-max/benchmarks
Qwen Research 页（2026-06-02 核实）：https://qwen.ai/research
VentureBeat 报道：Qwen 3.7 Max 35 小时自治运行：https://venturebeat.com/technology/alibabas-proprietary-qwen3-7-max-can-run-for-35-hours-autonomously-and-supports-external-harnesses-like-anthropics-claude-code
模型目录快照，2026-06-03：Qwen 3.7 Plus 列于 2026-06-01，价格 $0.40/M 输入 / $1.60/M 输出 / $0.08/M 缓存；Qwen 3.7 Max 列于 2026-05-21，价格 $2.50/M 输入 / $7.50/M 输出 / $0.25/M 缓存
LM Arena 排行榜快照，2026-06-02

pull quote

能塞进一条 Slack 消息发给技术 lead 的总结：「Plus 在每种 token 类型上都比 Max 便宜约 6 倍，1M 上下文和 35 小时自治上限完全一致，还免费送视觉。Max 在 SWE-Bench Pro 上赢 2 个百分点，纯文本快约 10%——这就是它收 6 倍价钱的全部理由。默认选 Plus；只把 Max 留给”benchmark 那点优势确实值 $25/人/月 vs $5”的具体场景。」

Qwen 3.7 Plus 与 Max 实测：性价比与多模态能力差异解析（2026）

TL;DR：这两个模型该怎么选？（30 秒答案）

规格速览

编码 Benchmark：真实任务

任务 1：把 1,200 行的 Python 服务重构成异步

任务 2：从截图 + 堆栈跟踪里 debug flaky 测试

任务 3：1000 步自治 CLI agent，Postgres 14 升 16 迁移

多模态与视觉能力（Plus 的主场）

工具调用与 Agent 任务

价格实算：真实月账单

场景 A：5 人开发团队，纯文本编码 agent

场景 B：5 人开发团队，视觉 debug agent

什么时候选 Qwen 3.7 Plus

什么时候选 Qwen 3.7 Max

同时跑两个：10 行代码 A/B

Python——一个循环 A/B 两个模型

Node——同样的形状

Plus 独有：挂一张截图

FAQ

本次更新核实的来源

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Qwen 3.7 Plus 与 Max 实测：性价比与多模态能力差异解析（2026）

TL;DR：这两个模型该怎么选？（30 秒答案）

规格速览

编码 Benchmark：真实任务

任务 1：把 1,200 行的 Python 服务重构成异步

任务 2：从截图 + 堆栈跟踪里 debug flaky 测试

任务 3：1000 步自治 CLI agent，Postgres 14 升 16 迁移

多模态与视觉能力（Plus 的主场）

工具调用与 Agent 任务

价格实算：真实月账单

场景 A：5 人开发团队，纯文本编码 agent

场景 B：5 人开发团队，视觉 debug agent

什么时候选 Qwen 3.7 Plus

什么时候选 Qwen 3.7 Max

同时跑两个：10 行代码 A/B

Python——一个循环 A/B 两个模型

Node——同样的形状

Plus 独有：挂一张截图

FAQ

本次更新核实的来源

热门文章

最新文章

相关电子书