拿 GLM-5 重构了一个真实项目，跟 Claude Opus 比了比-阿里云开发者社区

拿 GLM-5 重构了一个真实项目，跟 Claude Opus 比了比

2026-02-12 46

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： GLM-5 正式迈向“Agentic Engineering”：实测其Agent在1.2万行Node.js项目中完成Express路由迁移，8文件全改、测试全过，仅需微调2处；Benchmark紧追Claude Opus，开源模型第一。适合后端重构、文档生成与长周期运维，尚不擅前端与模糊需求。

智谱给 GLM-5 写的 slogan 是 "From Vibe Coding to Agentic Engineering"。翻成大白话就是：GLM-5 不满足于帮你写几行代码，它想替你干整个工程。

听起来挺唬人的。但我对这类口号一直持观望态度。之前 Devin 也说自己是"AI 软件工程师"，结果大家实测下来发现它经常在简单任务上翻车。

所以我决定自己试一试。

GLM-5 Agent 测试环境

我用 Claude Code 2.1.14 接入了 GLM-5 的 API（走 Z.ai 的 Coding Plan），连上了一个真实项目——我自己的一个 Node.js 后端服务，大约 1.2 万行代码，十几个模块。

要做的事情是把一个老旧的 Express 路由层迁移到新的中间件架构上。涉及到的改动大概有：重写 8 个路由文件、更新 3 个中间件、调整 2 个数据模型的字段、跑通所有现有测试。

这种活人工做的话，大概需要一个下午。

GLM-5 Agent 的执行过程

我给了它一个比较详细的 prompt，描述了目标架构、每个模块的职责、以及需要保留的兼容性约束。然后让它自己规划任务。

GLM-5 的第一步是列了一个执行计划。这个计划拆得挺合理的：先改数据模型，再改中间件，最后改路由层，每一步完成后跑一遍测试。

接下来它开始一个文件一个文件地改。

前 4 个路由文件改得很顺利，代码风格一致，错误处理也补全了。第 5 个文件出了点问题——它忘了一个旧接口需要保持向后兼容，直接把参数名改了。但紧接着它跑了测试，发现有 3 个用例失败，然后自己回去修了。

整个过程花了大约 40 分钟。中间我没有做任何干预。

最终结果：8 个路由文件全部迁移完成，所有测试通过。我人工 review 了一遍 diff，发现只有 2 处地方需要微调（一个是注释不够清楚，一个是多了一行空行）。

说实话，比我预期的好。

GLM-5 vs Claude Opus 4.5：编码 Agent 能力对比

在做这个测试之前，我用同样的任务跑过 Claude Opus 4.5。对比下来，几个差异比较明显。

规划能力。两个模型都能把任务拆成步骤，但 Claude 的拆解更细，每一步会提前说明可能的风险。GLM-5 的计划更"大纲式"，粒度粗一些。

执行稳定性。Claude 在整个过程中几乎没有"偏航"，而 GLM-5 有一次偏航（上面提到的向后兼容问题），但它自己纠正了。这一点算功过相抵。

Debug 能力。两个模型都能根据测试失败信息定位问题。但 Claude 在面对复杂的类型错误时更有章法，会先读堆栈、再缩小范围、最后定位。GLM-5 有时候会直接猜一个修复方案去试，运气好的时候一把过，运气不好的时候需要多试两轮。

速度。GLM-5 的 token 生成速度跟 Claude Opus 大致相当。但因为 GLM-5 偶尔需要多一轮修正，端到端时间在这个任务上大约多了 15%。

GLM-5 Agent Benchmark 成绩

看一下 GLM-5 在 Agent 相关 benchmark 上的表现：

Benchmark	GLM-5	Claude Opus 4.5	DeepSeek-V3.2
SWE-bench Verified	77.8%	80.9%	73.1%
Terminal-Bench 2.0 (Terminus)	56.2	59.3	39.3
BrowseComp	62.0	37.0	51.4
τ²-Bench	89.7	91.6	85.3
Vending Bench 2	$4,432	$4,967	$1,034

数字上看，GLM-5 跟 Claude Opus 4.5 的差距在 3-5 个点以内，但在 BrowseComp（网页浏览与搜索任务）上大幅领先。开源模型里则是断档第一。

Vending Bench 2 比较有意思。这个评测让模型经营一台虚拟自动售货机一整年。GLM-5 最终账户余额 4432 美元，接近 Claude 的 4967 美元。能在一年跨度的模拟经营里保持决策连贯性，说明长周期规划能力确实有改善。

Z Code：多 Agent 协同

智谱还推了一个叫 Z Code 的产品，定位是"Agentic 开发环境"。简单说就是一个 IDE，但你可以在里面同时开多个 Agent，让它们分头干活然后合并结果。

我还没有深入测，但概念上跟 Claude 的 Agent Teams（多智能体团队）是一个方向。区别在于 Z Code 似乎更强调本地化部署和远程控制——你可以在自己的服务器上跑 Agent 集群，然后通过 Web 界面协调。

这个方向我觉得挺对的。单 Agent 的能力上限在那，长周期任务迟早要拆成多 Agent 协同。

GLM-5 适合和不适合的 Agent 场景

根据我的测试和社区反馈，目前 GLM-5 做得比较好的 Agent 场景：

后端重构和迁移。模型对代码结构的理解不错，能在多文件之间保持一致性
文档和报告生成。GLM-5 可以直接输出 .docx、.pdf、.xlsx 文件，这个能力在国内的办公场景里需求很大
长周期运维任务。比如每天定时检查日志、生成报表、自动处理工单。Vending Bench 2 的成绩说明它在时间跨度长的决策链上表现不差

做得还不够好的场景：

前端 UI 开发。需要频繁看渲染结果做判断，目前的 Agent 交互链路还太慢
需要精确记忆大量上下文的任务。200K 窗口虽然大，但在窗口末尾的记忆质量会下降（这个后面另说）
需要联网实时搜索的任务。GLM-5 的 BrowseComp 分数虽然高，但实际使用中搜索结果的准确性还有波动

总结：GLM-5 的 Agent 能力到什么水平

"Agentic Engineering"这个定位，GLM-5 目前做到了七八成。在开源模型里确实是最好的，跟 Claude Opus 4.5 的差距已经缩小到了"可用"和"好用"之间。

但如果你期待它像一个真正的工程师那样完全自主地交付项目，现在还做不到。它更像是一个执行力很强的实习生——你给清楚的方向和约束，它能做得不错；但如果你丢一个模糊的需求过去，它有时候会跑偏。

不过话说回来，半年前这个级别的 Agent 能力还只有闭源模型才有。GLM-5 能以开源 + MIT 协议达到这个水平，值得认可。

常见问题

GLM-5 在 SWE-bench 上的得分是多少？
GLM-5 在 SWE-bench Verified 上得分 77.8%，在开源模型中排名第一。作为对比，Claude Opus 4.5 得分 80.9%，DeepSeek-V3.2 得分 73.1%。

GLM-5 能替代 Claude Opus 做编码 Agent 吗？
在后端重构、文档生成等结构化任务上，GLM-5 的表现接近 Claude Opus 4.5。但在面对模糊需求和复杂 debug 时，Claude 的表现仍然更稳。GLM-5 适合作为开源替代方案或成本更低的选择。

Z Code 是什么？
Z Code 是智谱推出的 Agentic 开发环境，支持在 IDE 中同时运行多个 GLM-5 Agent 并协同工作。可以本地部署或远程控制 Agent 集群。

拿 GLM-5 重构了一个真实项目，跟 Claude Opus 比了比

GLM-5 Agent 测试环境

GLM-5 Agent 的执行过程

GLM-5 vs Claude Opus 4.5：编码 Agent 能力对比

GLM-5 Agent Benchmark 成绩

Z Code：多 Agent 协同

GLM-5 适合和不适合的 Agent 场景

总结：GLM-5 的 Agent 能力到什么水平

常见问题

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

拿 GLM-5 重构了一个真实项目，跟 Claude Opus 比了比

GLM-5 Agent 测试环境

GLM-5 Agent 的执行过程

GLM-5 vs Claude Opus 4.5：编码 Agent 能力对比

GLM-5 Agent Benchmark 成绩

Z Code：多 Agent 协同

GLM-5 适合和不适合的 Agent 场景

总结：GLM-5 的 Agent 能力到什么水平

常见问题

热门文章

最新文章

相关电子书