拿 GLM-5 重构了一个真实项目,跟 Claude Opus 比了比

简介: GLM-5 正式迈向“Agentic Engineering”:实测其Agent在1.2万行Node.js项目中完成Express路由迁移,8文件全改、测试全过,仅需微调2处;Benchmark紧追Claude Opus,开源模型第一。适合后端重构、文档生成与长周期运维,尚不擅前端与模糊需求。

智谱给 GLM-5 写的 slogan 是 "From Vibe Coding to Agentic Engineering"。翻成大白话就是:GLM-5 不满足于帮你写几行代码,它想替你干整个工程。

听起来挺唬人的。但我对这类口号一直持观望态度。之前 Devin 也说自己是"AI 软件工程师",结果大家实测下来发现它经常在简单任务上翻车。

所以我决定自己试一试。

GLM-5 Agent 测试环境

我用 Claude Code 2.1.14 接入了 GLM-5 的 API(走 Z.ai 的 Coding Plan),连上了一个真实项目——我自己的一个 Node.js 后端服务,大约 1.2 万行代码,十几个模块。

要做的事情是把一个老旧的 Express 路由层迁移到新的中间件架构上。涉及到的改动大概有:重写 8 个路由文件、更新 3 个中间件、调整 2 个数据模型的字段、跑通所有现有测试。

这种活人工做的话,大概需要一个下午。

GLM-5 Agent 的执行过程

我给了它一个比较详细的 prompt,描述了目标架构、每个模块的职责、以及需要保留的兼容性约束。然后让它自己规划任务。

GLM-5 的第一步是列了一个执行计划。这个计划拆得挺合理的:先改数据模型,再改中间件,最后改路由层,每一步完成后跑一遍测试。

接下来它开始一个文件一个文件地改。

前 4 个路由文件改得很顺利,代码风格一致,错误处理也补全了。第 5 个文件出了点问题——它忘了一个旧接口需要保持向后兼容,直接把参数名改了。但紧接着它跑了测试,发现有 3 个用例失败,然后自己回去修了。

整个过程花了大约 40 分钟。中间我没有做任何干预。

最终结果:8 个路由文件全部迁移完成,所有测试通过。我人工 review 了一遍 diff,发现只有 2 处地方需要微调(一个是注释不够清楚,一个是多了一行空行)。

说实话,比我预期的好。

GLM-5 vs Claude Opus 4.5:编码 Agent 能力对比

在做这个测试之前,我用同样的任务跑过 Claude Opus 4.5。对比下来,几个差异比较明显。

规划能力。两个模型都能把任务拆成步骤,但 Claude 的拆解更细,每一步会提前说明可能的风险。GLM-5 的计划更"大纲式",粒度粗一些。

执行稳定性。Claude 在整个过程中几乎没有"偏航",而 GLM-5 有一次偏航(上面提到的向后兼容问题),但它自己纠正了。这一点算功过相抵。

Debug 能力。两个模型都能根据测试失败信息定位问题。但 Claude 在面对复杂的类型错误时更有章法,会先读堆栈、再缩小范围、最后定位。GLM-5 有时候会直接猜一个修复方案去试,运气好的时候一把过,运气不好的时候需要多试两轮。

速度。GLM-5 的 token 生成速度跟 Claude Opus 大致相当。但因为 GLM-5 偶尔需要多一轮修正,端到端时间在这个任务上大约多了 15%。

GLM-5 Agent Benchmark 成绩

看一下 GLM-5 在 Agent 相关 benchmark 上的表现:

Benchmark GLM-5 Claude Opus 4.5 DeepSeek-V3.2
SWE-bench Verified 77.8% 80.9% 73.1%
Terminal-Bench 2.0 (Terminus) 56.2 59.3 39.3
BrowseComp 62.0 37.0 51.4
τ²-Bench 89.7 91.6 85.3
Vending Bench 2 $4,432 $4,967 $1,034

数字上看,GLM-5 跟 Claude Opus 4.5 的差距在 3-5 个点以内,但在 BrowseComp(网页浏览与搜索任务)上大幅领先。开源模型里则是断档第一。

Vending Bench 2 比较有意思。这个评测让模型经营一台虚拟自动售货机一整年。GLM-5 最终账户余额 4432 美元,接近 Claude 的 4967 美元。能在一年跨度的模拟经营里保持决策连贯性,说明长周期规划能力确实有改善。

Z Code:多 Agent 协同

智谱还推了一个叫 Z Code 的产品,定位是"Agentic 开发环境"。简单说就是一个 IDE,但你可以在里面同时开多个 Agent,让它们分头干活然后合并结果。

我还没有深入测,但概念上跟 Claude 的 Agent Teams(多智能体团队)是一个方向。区别在于 Z Code 似乎更强调本地化部署和远程控制——你可以在自己的服务器上跑 Agent 集群,然后通过 Web 界面协调。

这个方向我觉得挺对的。单 Agent 的能力上限在那,长周期任务迟早要拆成多 Agent 协同。

GLM-5 适合和不适合的 Agent 场景

根据我的测试和社区反馈,目前 GLM-5 做得比较好的 Agent 场景:

  1. 后端重构和迁移。模型对代码结构的理解不错,能在多文件之间保持一致性
  2. 文档和报告生成。GLM-5 可以直接输出 .docx、.pdf、.xlsx 文件,这个能力在国内的办公场景里需求很大
  3. 长周期运维任务。比如每天定时检查日志、生成报表、自动处理工单。Vending Bench 2 的成绩说明它在时间跨度长的决策链上表现不差

做得还不够好的场景:

  1. 前端 UI 开发。需要频繁看渲染结果做判断,目前的 Agent 交互链路还太慢
  2. 需要精确记忆大量上下文的任务。200K 窗口虽然大,但在窗口末尾的记忆质量会下降(这个后面另说)
  3. 需要联网实时搜索的任务。GLM-5 的 BrowseComp 分数虽然高,但实际使用中搜索结果的准确性还有波动

总结:GLM-5 的 Agent 能力到什么水平

"Agentic Engineering"这个定位,GLM-5 目前做到了七八成。在开源模型里确实是最好的,跟 Claude Opus 4.5 的差距已经缩小到了"可用"和"好用"之间。

但如果你期待它像一个真正的工程师那样完全自主地交付项目,现在还做不到。它更像是一个执行力很强的实习生——你给清楚的方向和约束,它能做得不错;但如果你丢一个模糊的需求过去,它有时候会跑偏。

不过话说回来,半年前这个级别的 Agent 能力还只有闭源模型才有。GLM-5 能以开源 + MIT 协议达到这个水平,值得认可。

常见问题

GLM-5 在 SWE-bench 上的得分是多少?
GLM-5 在 SWE-bench Verified 上得分 77.8%,在开源模型中排名第一。作为对比,Claude Opus 4.5 得分 80.9%,DeepSeek-V3.2 得分 73.1%。

GLM-5 能替代 Claude Opus 做编码 Agent 吗?
在后端重构、文档生成等结构化任务上,GLM-5 的表现接近 Claude Opus 4.5。但在面对模糊需求和复杂 debug 时,Claude 的表现仍然更稳。GLM-5 适合作为开源替代方案或成本更低的选择。

Z Code 是什么?
Z Code 是智谱推出的 Agentic 开发环境,支持在 IDE 中同时运行多个 GLM-5 Agent 并协同工作。可以本地部署或远程控制 Agent 集群。

目录
相关文章
|
15天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
29714 102
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
5天前
|
应用服务中间件 API 网络安全
3分钟汉化OpenClaw,使用Docker快速部署启动OpenClaw(Clawdbot)教程
2026年全新推出的OpenClaw汉化版,是基于Claude API开发的智能对话系统本土化优化版本,解决了原版英文界面的使用壁垒,实现了界面、文档、指令的全中文适配。该版本采用Docker容器化部署方案,开箱即用,支持Linux、macOS、Windows全平台运行,适配个人、企业、生产等多种使用场景,同时具备灵活的配置选项和强大的扩展能力。本文将从项目简介、部署前准备、快速部署、详细配置、问题排查、监控维护等方面,提供完整的部署与使用指南,文中包含实操代码命令,确保不同技术水平的用户都能快速落地使用。
4235 0
|
11天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
5960 16
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
10天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
4246 9
|
12天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
5308 17
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
|
12天前
|
存储 人工智能 机器人
OpenClaw是什么?阿里云OpenClaw(原Clawdbot/Moltbot)一键部署官方教程参考
OpenClaw是什么?OpenClaw(原Clawdbot/Moltbot)是一款实用的个人AI助理,能够24小时响应指令并执行任务,如处理文件、查询信息、自动化协同等。阿里云推出的OpenClaw一键部署方案,简化了复杂配置流程,用户无需专业技术储备,即可快速在轻量应用服务器上启用该服务,打造专属AI助理。本文将详细拆解部署全流程、进阶功能配置及常见问题解决方案,确保不改变原意且无营销表述。
5798 5
|
14天前
|
人工智能 JavaScript 应用服务中间件
零门槛部署本地AI助手:Windows系统Moltbot(Clawdbot)保姆级教程
Moltbot(原Clawdbot)是一款功能全面的智能体AI助手,不仅能通过聊天互动响应需求,还具备“动手”和“跑腿”能力——“手”可读写本地文件、执行代码、操控命令行,“脚”能联网搜索、访问网页并分析内容,“大脑”则可接入Qwen、OpenAI等云端API,或利用本地GPU运行模型。本教程专为Windows系统用户打造,从环境搭建到问题排查,详细拆解全流程,即使无技术基础也能顺利部署本地AI助理。
7568 17
|
7天前
|
存储 人工智能 API
OpenClaw(Clawdbot)本地部署详细步骤与2026年OpenClaw一键部署官方教程参考
在AI办公自动化与智能代理工具日益普及的当下,OpenClaw作为原Clawdbot(曾用名Moltbot)迭代升级后的开源AI代理平台,凭借多渠道通信集成、大模型灵活调用及自动化任务执行等核心能力,成为个人处理日常事务与小型团队推进协作的得力助手。无论是追求数据自主可控的本地部署,还是倾向于7×24小时稳定运行的云端部署,用户都能找到适配的实现路径。2026年阿里云针对OpenClaw推出的预置镜像一键部署方案,更是大幅降低了云端使用门槛。本文将详细拆解OpenClaw的本地安装流程与阿里云快速部署步骤,同时补充注意事项与问题排查方法,助力不同需求的用户顺利搭建专属AI助手。
2334 1