这不仅仅是一次常规的模型迭代,而是一次核心范式的转移。正如我们在杭州云栖峰会所说,大模型正在经历从“对齐人类偏好”到“对齐任务目标”的转变。过去的模型追求“说得好”,而 Qwen3.7-Max 的目标是“做得到”。
作为面向 Agentic 时代 的全能基座模型,Qwen3.7-Max 在编程、推理、工具调用及长周期任务执行上实现了质的飞跃。
📊 国产模型登顶,性能比肩国际顶尖
根据三方机构 Arena 全球大模型盲测总榜,Qwen3.7-Max 位列国产模型第一,其综合性能已接近 GPT、Claude 和 Gemini 的最强版本
在权威 benchmarks 上,它展现出极强的统治力:
推理能力:在 GPQA Diamond 测试中获得 92.4 分,超越 Claude Opus-4.6(91.3)。
编程智能体:SWE-Verified 得分 80.4,与业界顶尖水平持平。
通用智能体:MCP-Mark 得分 60.8,超越 GLM-5.1 等竞品。
🚀 核心亮点:不仅是助手,更是“长期主义者”
1.惊心动魄的 35 小时:完全自主的工程壮举
Qwen3.7-Max 最引人注目的能力,是它展现了前所未有的长周期自主执行能力。
在阿里云内部的“极限测试”中,我们向 Qwen3.7-Max 抛出了一个它从未接触过的命题:在一款全新的、未发布的平头哥“真武M890”芯片上优化 AI 推理内核。
模型仅凭一份硬件任务说明书,在没有人类干预、纠错的情况下:
连续工作 35 小时
进行了 1158 次工具调用
独立完成了 432 次内核评估与代码重构
最终,它将芯片的推理速度较官方原生版本提升了 10 倍。这证明了 Qwen3.7-Max 能够像一名顶级工程师一样,进行长程规划、试错、重构并最终交付成果。相比之下,前代模型在该任务中仅能达到 1.1 倍的加速比
2. 深度 Agent 化架构
Qwen3.7-Max 原生支持 MCP(模型上下文协议) 集成和多智能体协作。它经过深度优化,完美适配 Claude Code、OpenClaw、Qwen Code 等主流智能体框架。
无论是在复杂的多文件软件工程中编写代码,还是在自动化办公流中协调数十个微服务,它都能保持稳定的推理与执行。
🛠 技术前沿:双模式推理与全栈 Agent 化
为了帮助开发者平衡性能与成本,Qwen3.7-Max 引入了双推理模式:
Think 模式:适用于复杂任务,模型会进行深度推理和规划,类似于“系统二”思维。
No-Think 模式:适用于简单任务和快速响应,提供低延迟、高效率的反馈。
此外,阿里云已完成从底层芯片到上层云产品的全栈 Agent 化升级。这意味着云产品的“消费者”正从人变为智能体,未来的云服务将更像是一系列可供模型调用的“Skill(技能)
🌐 可用性与接入
Qwen3.7-Max 即将通过 阿里云百炼平台(Model Studio) 向全球开发者开放 API 接入。
同时,随着 “真武M890” AI 芯片和 128 卡超节点服务器 的发布,阿里云提供了业界性价比极高的推理算力支持