拿 GLM-5 重构了一个真实项目,跟 Claude Opus 比了比

简介: GLM-5 正式迈向“Agentic Engineering”:实测其Agent在1.2万行Node.js项目中完成Express路由迁移,8文件全改、测试全过,仅需微调2处;Benchmark紧追Claude Opus,开源模型第一。适合后端重构、文档生成与长周期运维,尚不擅前端与模糊需求。

智谱给 GLM-5 写的 slogan 是 "From Vibe Coding to Agentic Engineering"。翻成大白话就是:GLM-5 不满足于帮你写几行代码,它想替你干整个工程。

听起来挺唬人的。但我对这类口号一直持观望态度。之前 Devin 也说自己是"AI 软件工程师",结果大家实测下来发现它经常在简单任务上翻车。

所以我决定自己试一试。

GLM-5 Agent 测试环境

我用 Claude Code 2.1.14 接入了 GLM-5 的 API(走 Z.ai 的 Coding Plan),连上了一个真实项目——我自己的一个 Node.js 后端服务,大约 1.2 万行代码,十几个模块。

要做的事情是把一个老旧的 Express 路由层迁移到新的中间件架构上。涉及到的改动大概有:重写 8 个路由文件、更新 3 个中间件、调整 2 个数据模型的字段、跑通所有现有测试。

这种活人工做的话,大概需要一个下午。

GLM-5 Agent 的执行过程

我给了它一个比较详细的 prompt,描述了目标架构、每个模块的职责、以及需要保留的兼容性约束。然后让它自己规划任务。

GLM-5 的第一步是列了一个执行计划。这个计划拆得挺合理的:先改数据模型,再改中间件,最后改路由层,每一步完成后跑一遍测试。

接下来它开始一个文件一个文件地改。

前 4 个路由文件改得很顺利,代码风格一致,错误处理也补全了。第 5 个文件出了点问题——它忘了一个旧接口需要保持向后兼容,直接把参数名改了。但紧接着它跑了测试,发现有 3 个用例失败,然后自己回去修了。

整个过程花了大约 40 分钟。中间我没有做任何干预。

最终结果:8 个路由文件全部迁移完成,所有测试通过。我人工 review 了一遍 diff,发现只有 2 处地方需要微调(一个是注释不够清楚,一个是多了一行空行)。

说实话,比我预期的好。

GLM-5 vs Claude Opus 4.5:编码 Agent 能力对比

在做这个测试之前,我用同样的任务跑过 Claude Opus 4.5。对比下来,几个差异比较明显。

规划能力。两个模型都能把任务拆成步骤,但 Claude 的拆解更细,每一步会提前说明可能的风险。GLM-5 的计划更"大纲式",粒度粗一些。

执行稳定性。Claude 在整个过程中几乎没有"偏航",而 GLM-5 有一次偏航(上面提到的向后兼容问题),但它自己纠正了。这一点算功过相抵。

Debug 能力。两个模型都能根据测试失败信息定位问题。但 Claude 在面对复杂的类型错误时更有章法,会先读堆栈、再缩小范围、最后定位。GLM-5 有时候会直接猜一个修复方案去试,运气好的时候一把过,运气不好的时候需要多试两轮。

速度。GLM-5 的 token 生成速度跟 Claude Opus 大致相当。但因为 GLM-5 偶尔需要多一轮修正,端到端时间在这个任务上大约多了 15%。

GLM-5 Agent Benchmark 成绩

看一下 GLM-5 在 Agent 相关 benchmark 上的表现:

Benchmark GLM-5 Claude Opus 4.5 DeepSeek-V3.2
SWE-bench Verified 77.8% 80.9% 73.1%
Terminal-Bench 2.0 (Terminus) 56.2 59.3 39.3
BrowseComp 62.0 37.0 51.4
τ²-Bench 89.7 91.6 85.3
Vending Bench 2 $4,432 $4,967 $1,034

数字上看,GLM-5 跟 Claude Opus 4.5 的差距在 3-5 个点以内,但在 BrowseComp(网页浏览与搜索任务)上大幅领先。开源模型里则是断档第一。

Vending Bench 2 比较有意思。这个评测让模型经营一台虚拟自动售货机一整年。GLM-5 最终账户余额 4432 美元,接近 Claude 的 4967 美元。能在一年跨度的模拟经营里保持决策连贯性,说明长周期规划能力确实有改善。

Z Code:多 Agent 协同

智谱还推了一个叫 Z Code 的产品,定位是"Agentic 开发环境"。简单说就是一个 IDE,但你可以在里面同时开多个 Agent,让它们分头干活然后合并结果。

我还没有深入测,但概念上跟 Claude 的 Agent Teams(多智能体团队)是一个方向。区别在于 Z Code 似乎更强调本地化部署和远程控制——你可以在自己的服务器上跑 Agent 集群,然后通过 Web 界面协调。

这个方向我觉得挺对的。单 Agent 的能力上限在那,长周期任务迟早要拆成多 Agent 协同。

GLM-5 适合和不适合的 Agent 场景

根据我的测试和社区反馈,目前 GLM-5 做得比较好的 Agent 场景:

  1. 后端重构和迁移。模型对代码结构的理解不错,能在多文件之间保持一致性
  2. 文档和报告生成。GLM-5 可以直接输出 .docx、.pdf、.xlsx 文件,这个能力在国内的办公场景里需求很大
  3. 长周期运维任务。比如每天定时检查日志、生成报表、自动处理工单。Vending Bench 2 的成绩说明它在时间跨度长的决策链上表现不差

做得还不够好的场景:

  1. 前端 UI 开发。需要频繁看渲染结果做判断,目前的 Agent 交互链路还太慢
  2. 需要精确记忆大量上下文的任务。200K 窗口虽然大,但在窗口末尾的记忆质量会下降(这个后面另说)
  3. 需要联网实时搜索的任务。GLM-5 的 BrowseComp 分数虽然高,但实际使用中搜索结果的准确性还有波动

总结:GLM-5 的 Agent 能力到什么水平

"Agentic Engineering"这个定位,GLM-5 目前做到了七八成。在开源模型里确实是最好的,跟 Claude Opus 4.5 的差距已经缩小到了"可用"和"好用"之间。

但如果你期待它像一个真正的工程师那样完全自主地交付项目,现在还做不到。它更像是一个执行力很强的实习生——你给清楚的方向和约束,它能做得不错;但如果你丢一个模糊的需求过去,它有时候会跑偏。

不过话说回来,半年前这个级别的 Agent 能力还只有闭源模型才有。GLM-5 能以开源 + MIT 协议达到这个水平,值得认可。

常见问题

GLM-5 在 SWE-bench 上的得分是多少?
GLM-5 在 SWE-bench Verified 上得分 77.8%,在开源模型中排名第一。作为对比,Claude Opus 4.5 得分 80.9%,DeepSeek-V3.2 得分 73.1%。

GLM-5 能替代 Claude Opus 做编码 Agent 吗?
在后端重构、文档生成等结构化任务上,GLM-5 的表现接近 Claude Opus 4.5。但在面对模糊需求和复杂 debug 时,Claude 的表现仍然更稳。GLM-5 适合作为开源替代方案或成本更低的选择。

Z Code 是什么?
Z Code 是智谱推出的 Agentic 开发环境,支持在 IDE 中同时运行多个 GLM-5 Agent 并协同工作。可以本地部署或远程控制 Agent 集群。

目录
相关文章
|
25天前
|
人工智能 运维 前端开发
GLM-5深夜官宣:Pony Alpha身份揭晓,编程能力逼近Claude Opus
刚发完DeepSeek V4,智谱又来搞事情。 今天是老金我写的 第三篇文章,手都快敲断了。 但这个消息不写不行——GLM-5 正式(偷摸地)发布了。 2月11日深夜,智谱AI官宣新一代旗舰大模型GLM-5。 之前在OpenRouter上神秘出现的"Pony Alpha",身份终于揭晓。 据DoNews报道:Pony Alpha就是GLM-5的低调测试版。 ![Image](https://u
431 25
|
1月前
|
人工智能 运维 API
AI编程大战白热化:Claude Opus 4.6和GPT-5.3-Codex同一天发布,谁才是真正的王者?
今日凌晨,Anthropic与OpenAI同日发布王牌模型:Claude Opus 4.6(100万token上下文、Agent Teams)与GPT-5.3-Codex(25%提速、AI自我构建)。二者硬刚编程与长文本能力,各擅胜场——选Claude重深度理解,选Codex重迭代速度。AI编程已入白热化时代。(239字)
|
13天前
|
机器学习/深度学习 人工智能 算法
GLM-5开源:迈向Agentic Engineering新范式,社区Day0 部署、推理实战来了!
智谱发布GLM-5:开源SOTA大模型,Coding与Agent能力双强,真实编程体验媲美Claude Opus 4.5;全球AI榜单排名第四、开源第一;MIT协议开源,支持复杂系统工程与长程Agent任务。
764 5
|
23天前
|
人工智能 运维 架构师
老金开源Agent Teams编排Skill:一句话自动组队,手动挡时代结束了
加我进AI讨论学习群,公众号右下角“联系方式” 文末有老金的 **开源知识库地址·全免费** --- 术语说明:"Swarm/蜂群"是多Agent协作的通用说法(OpenAI有官方项目叫Swarm),但 Claude Code的官方概念是Agent Teams。本文使用官方术语Agent Teams,保留"蜂群"作为通俗说明。 先说老金我昨儿开源了[老金开源10万字Claude Code中文
1638 10
老金开源Agent Teams编排Skill:一句话自动组队,手动挡时代结束了

热门文章

最新文章