智谱的 GLM 5.2 已经正式开放:Z.ai 的 Coding Plan API、Hugging Face 上的 MIT 开源权重、以及 20 多个第三方 coding 工具的支持,全部同步上线,不再是"下周见"。更关键的是这次发布带了真实跑分——不是 PPT 上的宣传,是能复现的 benchmark。
如果你之前因为"没有公开分数、权重还是占位仓库"而把它列进观望名单,现在可以把它划掉了。下面是接入路径:10 分钟跑通托管 API、Claude Code 一段配置切过去、以及想自托管时的本地部署实测数据。
30 秒决策表
| 项目 | 现状(2026 年 6 月) |
|---|---|
| API | 已上线。Z.ai Coding Plan,注册即用 |
| 开源权重 | 已上线。huggingface.co/zai-org/GLM-5.2,MIT 许可 |
| 参数 | 744B 总参 / 约 40B 激活(MoE),训练 28.5T tokens |
| 上下文 | 1M token;最大输出 131,072 token |
| 首次调用耗时 | 约 10 分钟(注册 → API key → CLI 配置 → smoke test) |
| 最低成本 | Lite 档约 $10/月;Pro 档约 $30/月(每周约 2,000 次 prompt) |
| 你需要 | 一个 Z.ai 账号 + 一个 OpenAI 兼容 coding 客户端(或任何支持自定义 base_url 的工具) |
跑分:这次有真实数字了
发布当天起,智谱公布了可复现的 coding benchmark(评测设置:temperature=0.7、top_p=0.95、max_new_tokens=16384、200K 上下文):
| benchmark | GLM 5.2 | GPT-5.5 | GLM 5.1 |
|---|---|---|---|
| SWE-bench Pro | 62.1 | 58.6 | 58.4 |
| FrontierSWE | 74.4% | 72.6% | — |
多家独立报道(VentureBeat 等)的结论一致:GLM 5.2 在多项长程(long-horizon)coding 任务上超过 GPT-5.5,而每 token 成本只有约六分之一。对"按任务付费"的 agentic coding 场景来说,这个性价比差距足以盖过几分的分数差。
需要提醒的是:SWE-bench Pro 和 FrontierSWE 是 coding 维度,不代表通用能力。如果你的活儿是长文写作、多模态或推理密集型,这两个分数参考价值有限,按你自己的 eval 跑一遍再决定。
GLM 5.2 适合你吗
适合的场景
- 你在 monolith 项目里做多文件重构,反复撞上其他 coding agent 的 200K 上下文上限——1M 窗口能一次容纳大多数 monorepo
- 合规团队要求开源、可审计的模型权重——MIT 是最宽松的开源许可之一,商用、修改、再分发都没有用量限制
- 你做 agentic coding,按任务付费,对每 token 成本敏感——这正是 GLM 5.2 性价比最突出的地方
不适合的场景
- 你已经付费在用 Sonnet / Opus 跑 Claude Code,且没有具体痛点。切换成本(工具配置、prompt 重调、eval 重跑)不会因为每月省点钱就划算——除非上下文窗口真的是瓶颈
- 你要的是通用能力榜首,而不是 coding 专项。GLM 5.2 的强项明确在 coding
- 你需要单一托管 endpoint 用一把 key 同时调 GLM、GPT、Claude——那看文末的替代方案
退出规则:如果你过去 30 天在真实任务里从没撞上 200K token 上下文上限,你大概率不需要专门切 GLM 5.2,先用你手上的就行。
系统要求
- 一个 Z.ai 账号,绑定付款方式(Coding Plan 按月计费,USD 或 RMB)
- 一个 OpenAI 兼容 coding CLI——Claude Code、Cline ≥ 3.x、OpenCode、Roo Code、Goose、Crush、OpenClaw、Kilo Code 之一,都支持自定义
base_url和模型名覆盖 - 能访问
api.z.ai——用curl -I https://api.z.ai/api/paas/v4/验证(应得到 HTTP 响应而不是连接错误) - 一个 repo 的 side branch 用于首次跑。长上下文 coding agent 在 prompt 含糊时会聪明到删掉它觉得无关的文件——第一天绝不要指向
main
分步配置(托管,约 10 分钟)
flowchart LR
A[注册 Z.ai] --> B[选 Coding Plan 档位]
B --> C[生成 API key]
C --> D[配置 CLI base_url + 模型名]
D --> E[首次 smoke test]
E --> F[接入 repo,跑真实任务]
第 1 步:注册 Z.ai Coding Plan
去 https://z.ai 创建账号,选一个档位:
| 档位 | 大约价格 | 配额 | 适合场景 |
|---|---|---|---|
| Lite | 约 $10/月 | 每周约 400 prompt | 个人折腾、轻量副项目 |
| Pro | 约 $30/月 | 每周约 2,000 prompt | 独立开发者、日常 coding agent |
| Max | 约 $80/月 | 每周约 8,000 prompt | 重度 agentic 重构、多小时自动跑 |
| Team | 按席位 | 组织内共享池 | 3 人以上团队共享配额 |
第 2 步:生成 API key
dashboard 里 API Keys → Create new key,范围限定到「Coding Plan」——Z.ai 还有通用 chat、视觉等付费 endpoint,共用钱包但不该共用同一把 key。
export ZAI_API_KEY="zai-..."
key 以 zai- 开头,完整值只显示一次,放进 shell 密钥文件或密码管理器。
第 3 步:配置 coding CLI
Z.ai 暴露两个兼容 endpoint,按客户端类型选。Claude Code 说 Anthropic 协议;其余客户端(Cline、OpenCode、Roo Code、Goose、Crush、OpenClaw、Kilo Code)说 OpenAI chat-completions 形态。
OpenAI 兼容客户端
export OPENAI_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export OPENAI_API_KEY="$ZAI_API_KEY"
export OPENAI_MODEL="glm-5.2" # 或 "glm-5.2[1m]" 启用 1M 上下文
重启 CLI 即生效。注意 Coding Plan 用的是专属 endpoint(/api/coding/paas/v4),跟 Z.ai 通用按 token 计费 API(/api/paas/v4)不同。
Python SDK smoke test
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.z.ai/api/coding/paas/v4",
api_key=os.environ["ZAI_API_KEY"],
)
resp = client.chat.completions.create(
model="glm-5.2[1m]",
messages=[{"role": "user", "content": "Refactor this function to async:\n\n" + open("handler.py").read}],
)
print(resp.choices[0].message.content)
短输入约 5 秒内返回;1M 上下文调用首 token 30–90 秒。
第 4 步:首次 smoke test
curl -s https://api.z.ai/api/coding/paas/v4/chat/completions \
-H "Authorization: Bearer $ZAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{"model":"glm-5.2[1m]","messages":[{"role":"user","content":"Reply with only OK if you are GLM 5.2."}],"max_tokens":16}' \
| jq -r '.choices[0].message.content'
预期返回 OK。如果拿到模型身份拒绝或别的模型名,配置有错——见下文常见报错。
Claude Code 一段配置切过去
Z.ai 上线了专门的 /api/anthropic endpoint,就是为了让一个 Claude Code 工作区只换一段环境变量就变成 GLM 5.2 工作区,不用重写项目设置。
把这段塞进 ~/.zshrc(或 ~/.claude/settings.json 的 "env" 块),开新 shell,重启 claude:
export ANTHROPIC_BASE_URL="https://api.z.ai/api/anthropic"
export ANTHROPIC_AUTH_TOKEN="$ZAI_API_KEY"
export ANTHROPIC_MODEL="glm-5.2[1m]" # 1M 上下文;去掉 [1m] 走默认
export API_TIMEOUT_MS="3000000" # 长上下文调用 30–90 秒,这个超时是必须的
Claude Code UI 还会显示「Sonnet」/「Opus」标签——客户端不感知模型——服务端 Z.ai 把请求路由到 GLM 5.2。你的 CLAUDE.md、项目记忆、slash command、subagent 继续原样工作。
哪些会变(提交前必读)
- 思考预设:GLM 5.2 只提供 High 和 Max 两档,没有 Claude 的
thinking_budget=auto等价物。要么明确选,要么接受 High 作为默认。 - tool-result 桥接:Z.ai 处理了 95%+ 的常见 pattern,但长 agentic loop 里偶尔会丢嵌套 content 块。如果看到 assistant 反复发同一个 tool call 而不是 ack,那就是这个故障——退路是切到 OpenAI 兼容 endpoint 用 Cline 或 OpenCode。
- 延迟:1M 上下文首 token 30–90 秒(Claude 同等大小约 5–15 秒)。上面的
API_TIMEOUT_MS必须设,否则 Claude Code 默认值会在长 Plan 调用时杀掉连接。 - 配额:你现在花的是 Coding Plan 配额。在 Claude 那边几小时榨干周配额的 bursty loop 同样会榨干 Lite 档,长期用预算 Pro 或 Max。
回退:unset ANTHROPIC_BASE_URL ANTHROPIC_AUTH_TOKEN ANTHROPIC_MODEL,重启 Claude Code,就回到 Anthropic 默认。整个切换只动 shell 环境,不碰项目状态。
配置时的常见报错
| 报错 | 可能原因 | 修复 |
|---|---|---|
401 invalid_api_key |
key 范围选错产品,或粘贴带了空白 | 重新生成「Coding Plan」范围的 key |
model not found |
model ID 写错 | 完整 1M 窗口用 glm-5.2[1m],默认上下文用纯 glm-5.2 |
工作几分钟后 429 |
Lite 档配额被 agent loop 烧光 | 升级 Pro,或减少 agent 迭代轮数 |
| 响应体为空、无报错 | 思考预算超过了 max_tokens |
把 max_tokens 提到 ≥ 4096 |
| tool-use 以 raw JSON 出现在文本里 | 请求没带 tools 字段,OpenAI 兼容层不自动解析 |
第一轮就传 tools 数组,或改用 Anthropic 兼容 endpoint |
| 多文件重构 504 / 超时 | 长上下文首 token 超过客户端默认超时 | 把 CLI 的 requestTimeoutMs 调到 600000 |
自托管:MIT 权重已经能下载
权重已经发到 huggingface.co/zai-org/GLM-5.2,MIT 许可——商用、修改、再分发、微调、fork 都可以,自托管后没有按 token 计费。
最省事的本地路径是社区 GGUF + Ollama 或 llama.cpp:
# Ollama(自动处理下载、显存分配、上下文管理)
ollama pull glm5
ollama run glm5
# 或直接拉社区 GGUF(unsloth 的动态量化)
huggingface-cli download unsloth/GLM-5-GGUF \
--local-dir GLM-5-GGUF \
--include "*UD-IQ2_XXS*"
量化档位和内存需求(744B MoE,按量化差异很大):
| 量化 | 磁盘 | 最低内存 | 典型配置 |
|---|---|---|---|
| UD-IQ2_XXS(2-bit 动态) | 241 GB | 256 GB 统一内存 | M4 Ultra Mac Studio;或 1×24GB GPU + 256GB RAM |
| Q2_K_XL(2-bit) | ~280 GB | 300 GB | 1×24GB GPU + 300GB 系统内存 |
| Q4_K_M(4-bit) | ~476 GB | 500 GB+ | 多卡(2×A100 80GB + 大内存) |
| FP8 | ~754 GB | 800 GB+ | 8×H200 SXM5 或等效 |
| FP16(全精度) | ~1.7 TB | 1.7 TB+ | 企业 GPU 集群 |
实测速度 3–9 tokens/秒,取决于硬件(有报告在 H200 上跑 Q2_K_XL 约 8.7 tok/s)。LM Studio 用户直接在模型库搜「GLM-5」,选匹配硬件的量化一键下载。
现实路径:除非你有现成的高显存机器,大多数团队更划算的做法是先用托管 Coding Plan,等社区把量化磨得更稳、单节点配置成熟后再评估自托管。
替代方案:用一把 key 管多个 coding 模型
如果你想要的是单一 OpenAI 兼容 endpoint 覆盖多个托管 coding 模型,不想按厂商分别注册、也不想自建 H100 集群, 上有几个现成的:
| 模型 | API ID | 优势 |
|---|---|---|
| DeepSeek V4 Pro | deepseek/deepseek-v4-pro |
coding 调优旗舰,公开 benchmark 完整 |
| Qwen3 Coder Next | bailian/qwen3-coder-next |
阿里最新 coding 专用档,多语言代码 |
| Kimi K2.6 | moonshotai/kimi-k2.6 |
长上下文召回稳定 |
接入形态和 GLM 5.2 一样,只换 base URL 和模型 ID:
export OPENAI_BASE_URL=""
export OPENAI_MODEL="deepseek/deepseek-v4-pro"
小结
这次 GLM 5.2 真正的看点有两个:一是它确实 live 了——API、MIT 权重、20 多个工具同时落地,不用再等;二是它带着可复现的跑分来,SWE-bench Pro 62.1、FrontierSWE 74.4%,在长程 coding 上超过 GPT-5.5,而成本只有约六分之一。
模型每隔几个月就被刷新一轮,谁强谁弱是动态的。但"开源权重 + 前沿 coding 能力 + 能自托管"这个组合,给所有按 token 付费的团队提供了一个实打实的议价筹码。先用托管版跑通你自己的 eval,再决定要不要把权重拉回自己机器上。