智谱给 GLM-5 写的 slogan 是 "From Vibe Coding to Agentic Engineering"。翻成大白话就是:GLM-5 不满足于帮你写几行代码,它想替你干整个工程。
听起来挺唬人的。但我对这类口号一直持观望态度。之前 Devin 也说自己是"AI 软件工程师",结果大家实测下来发现它经常在简单任务上翻车。
所以我决定自己试一试。
GLM-5 Agent 测试环境
我用 Claude Code 2.1.14 接入了 GLM-5 的 API(走 Z.ai 的 Coding Plan),连上了一个真实项目——我自己的一个 Node.js 后端服务,大约 1.2 万行代码,十几个模块。
要做的事情是把一个老旧的 Express 路由层迁移到新的中间件架构上。涉及到的改动大概有:重写 8 个路由文件、更新 3 个中间件、调整 2 个数据模型的字段、跑通所有现有测试。
这种活人工做的话,大概需要一个下午。
GLM-5 Agent 的执行过程
我给了它一个比较详细的 prompt,描述了目标架构、每个模块的职责、以及需要保留的兼容性约束。然后让它自己规划任务。
GLM-5 的第一步是列了一个执行计划。这个计划拆得挺合理的:先改数据模型,再改中间件,最后改路由层,每一步完成后跑一遍测试。
接下来它开始一个文件一个文件地改。
前 4 个路由文件改得很顺利,代码风格一致,错误处理也补全了。第 5 个文件出了点问题——它忘了一个旧接口需要保持向后兼容,直接把参数名改了。但紧接着它跑了测试,发现有 3 个用例失败,然后自己回去修了。
整个过程花了大约 40 分钟。中间我没有做任何干预。
最终结果:8 个路由文件全部迁移完成,所有测试通过。我人工 review 了一遍 diff,发现只有 2 处地方需要微调(一个是注释不够清楚,一个是多了一行空行)。
说实话,比我预期的好。
GLM-5 vs Claude Opus 4.5:编码 Agent 能力对比
在做这个测试之前,我用同样的任务跑过 Claude Opus 4.5。对比下来,几个差异比较明显。
规划能力。两个模型都能把任务拆成步骤,但 Claude 的拆解更细,每一步会提前说明可能的风险。GLM-5 的计划更"大纲式",粒度粗一些。
执行稳定性。Claude 在整个过程中几乎没有"偏航",而 GLM-5 有一次偏航(上面提到的向后兼容问题),但它自己纠正了。这一点算功过相抵。
Debug 能力。两个模型都能根据测试失败信息定位问题。但 Claude 在面对复杂的类型错误时更有章法,会先读堆栈、再缩小范围、最后定位。GLM-5 有时候会直接猜一个修复方案去试,运气好的时候一把过,运气不好的时候需要多试两轮。
速度。GLM-5 的 token 生成速度跟 Claude Opus 大致相当。但因为 GLM-5 偶尔需要多一轮修正,端到端时间在这个任务上大约多了 15%。
GLM-5 Agent Benchmark 成绩
看一下 GLM-5 在 Agent 相关 benchmark 上的表现:
| Benchmark | GLM-5 | Claude Opus 4.5 | DeepSeek-V3.2 |
|---|---|---|---|
| SWE-bench Verified | 77.8% | 80.9% | 73.1% |
| Terminal-Bench 2.0 (Terminus) | 56.2 | 59.3 | 39.3 |
| BrowseComp | 62.0 | 37.0 | 51.4 |
| τ²-Bench | 89.7 | 91.6 | 85.3 |
| Vending Bench 2 | $4,432 | $4,967 | $1,034 |
数字上看,GLM-5 跟 Claude Opus 4.5 的差距在 3-5 个点以内,但在 BrowseComp(网页浏览与搜索任务)上大幅领先。开源模型里则是断档第一。
Vending Bench 2 比较有意思。这个评测让模型经营一台虚拟自动售货机一整年。GLM-5 最终账户余额 4432 美元,接近 Claude 的 4967 美元。能在一年跨度的模拟经营里保持决策连贯性,说明长周期规划能力确实有改善。
Z Code:多 Agent 协同
智谱还推了一个叫 Z Code 的产品,定位是"Agentic 开发环境"。简单说就是一个 IDE,但你可以在里面同时开多个 Agent,让它们分头干活然后合并结果。
我还没有深入测,但概念上跟 Claude 的 Agent Teams(多智能体团队)是一个方向。区别在于 Z Code 似乎更强调本地化部署和远程控制——你可以在自己的服务器上跑 Agent 集群,然后通过 Web 界面协调。
这个方向我觉得挺对的。单 Agent 的能力上限在那,长周期任务迟早要拆成多 Agent 协同。
GLM-5 适合和不适合的 Agent 场景
根据我的测试和社区反馈,目前 GLM-5 做得比较好的 Agent 场景:
- 后端重构和迁移。模型对代码结构的理解不错,能在多文件之间保持一致性
- 文档和报告生成。GLM-5 可以直接输出 .docx、.pdf、.xlsx 文件,这个能力在国内的办公场景里需求很大
- 长周期运维任务。比如每天定时检查日志、生成报表、自动处理工单。Vending Bench 2 的成绩说明它在时间跨度长的决策链上表现不差
做得还不够好的场景:
- 前端 UI 开发。需要频繁看渲染结果做判断,目前的 Agent 交互链路还太慢
- 需要精确记忆大量上下文的任务。200K 窗口虽然大,但在窗口末尾的记忆质量会下降(这个后面另说)
- 需要联网实时搜索的任务。GLM-5 的 BrowseComp 分数虽然高,但实际使用中搜索结果的准确性还有波动
总结:GLM-5 的 Agent 能力到什么水平
"Agentic Engineering"这个定位,GLM-5 目前做到了七八成。在开源模型里确实是最好的,跟 Claude Opus 4.5 的差距已经缩小到了"可用"和"好用"之间。
但如果你期待它像一个真正的工程师那样完全自主地交付项目,现在还做不到。它更像是一个执行力很强的实习生——你给清楚的方向和约束,它能做得不错;但如果你丢一个模糊的需求过去,它有时候会跑偏。
不过话说回来,半年前这个级别的 Agent 能力还只有闭源模型才有。GLM-5 能以开源 + MIT 协议达到这个水平,值得认可。
常见问题
GLM-5 在 SWE-bench 上的得分是多少?
GLM-5 在 SWE-bench Verified 上得分 77.8%,在开源模型中排名第一。作为对比,Claude Opus 4.5 得分 80.9%,DeepSeek-V3.2 得分 73.1%。
GLM-5 能替代 Claude Opus 做编码 Agent 吗?
在后端重构、文档生成等结构化任务上,GLM-5 的表现接近 Claude Opus 4.5。但在面对模糊需求和复杂 debug 时,Claude 的表现仍然更稳。GLM-5 适合作为开源替代方案或成本更低的选择。
Z Code 是什么?
Z Code 是智谱推出的 Agentic 开发环境,支持在 IDE 中同时运行多个 GLM-5 Agent 并协同工作。可以本地部署或远程控制 Agent 集群。