智谱大模型刷屏技术圈:GLM-4.7 是怎么一步步“能干活”的?

简介: GLM-4.7引爆技术圈,不止因性能跃升,更因其将大模型带入工程化落地新阶段。它聚焦编程与Agent任务,通过“交织式思考”、高效数据筛选、强化学习框架Slime等创新,实现从“答得对”到“做得完”的跨越。智谱不仅发布模型,更公开整套训练体系,推动AI从Demo走向真实生产。

过去一周,技术社区被一个名字反复刷屏:GLM-4.7。

不是发布会造势,也不是营销话术,而是实打实地在 Coding、Agent、前端审美、工程稳定性 等多个维度,把一堆榜单和开发者的预期同时点燃。

更关键的是—— 这一次,智谱 并不只是“发了个更强的模型”,而是把一整套「如何把模型练成能干活的工程体系」摊在了台面上。

3504c91b-26bd-4122-9dbe-67b5f4479108.png

一、不是“参数变大”,而是模型真的更会做事了
GLM-4.7 的核心变化,不在于参数规模,而在于目标发生了偏移:

从“答得对”,转向“做得完”。

它的主攻方向非常明确:编程任务 + Agent 式多步骤执行。

这也是为什么它在真实软件工程、终端操作、复杂项目理解这些场景里,明显更稳。

0731c5af-766f-4e22-ad97-4f010cd1c0cc.png

https://substackcdn.com/image/fetch/f_auto%2Cq_auto%3Agood%2Cfl_progressive%3Asteep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb0c08743-6000-455c-ad3a-12850617cefd_1600x1073.png

6c210f38-4fce-4ae7-81bf-03ecf16e21d5.png

智谱团队在 AMA 中说得很直白: 他们在后训练阶段做的事情,几乎都围绕一个目标——让模型在复杂任务中少跑偏。

二、训练思路的变化:不是猛堆数据,而是“先验证再上桌”
在模型性能跃迁这件事上,GLM-4.7 走的是一条偏工程化的路线。

核心策略可以总结为三点:

数据不是越多越好,而是越“有效”越好
不同领域(代码、数学、科学)使用不同清洗与筛选规则
每一类数据,都会先在同架构的小模型上做消融实验
换句话说:

进大模型训练的数据,必须先“证明自己有用”。

这种流程非常像严谨的软件工程:先小流量验证,再全量上线。

三、交织式思考:让模型“边想边做”,而不是一次性拍脑袋
GLM-4.7 在推理机制上有一个非常关键的变化,智谱给它起了个名字:

交织式思考(Interleaved Thinking)
保留式思考(Preserved Thinking)
轮级思考(Turn-level Thinking)
如果翻译成人话,其实很简单:

不再“一口气想完再执行”, 而是 每一步都先想清楚,再往下走。

5f71f42d-75cc-4a87-a6fe-c49926bea189.png

9bd56426-ebda-4ea3-b6f9-df7aff96d4c5.png

f0f75c99-c732-48c4-8611-38cd6278e550.png

caf16b3d-523f-4cae-8b02-e499871cf241.png

这对 Agent 任务非常重要。 因为一旦第一步规划错了,后面只会错得更彻底。

四、为什么它在 Agent 框架里表现更好?
一个容易被忽略的事实是:模型 ≠ 最终效果。

智谱在 AMA 中明确提到:

Agent 框架本身,对最终成功率的影响,可能占到 30% 左右。

因此,他们在 Agent 系统里重点打磨了三件事:

系统提示词结构
工具调用的层级设计
多 Agent 并行时的稳定性
这也是为什么 GLM-4.7 在复杂、多步骤任务中,更不容易“走着走着就散了”。

五、UI 审美突然开窍?其实是被“硬练”出来的
很多人惊讶:

“这代 GLM 怎么突然这么好看?”

答案一点都不玄学。

智谱给出的解释是: 他们单独组了一个前端与网页开发团队,专门做一件事——把审美当能力训练。

训练方式也很工程:

收集高质量网页与 UI 案例
使用视觉语言模型(VLM)参与数据筛选
强化布局、比例、动效、层级这些“非语义能力”

最终效果就是: 生成结果不再只是“能用”,而是接近可交付。

六、从小游戏到复杂交互:模型已经能“跑完整流程”
在实际演示中,GLM-4.7 已经可以:

一次性生成完整的前端小游戏
支持多轮自然语言修改规则
保持逻辑一致,不崩结构
这背后体现的不是“写代码能力”,而是对整体工程结构的理解能力。

换句话说: 它开始像一个“能配合的工程师”,而不只是代码生成器。

七、开源不是口号:智谱把 RL 框架也一并端了出来
这次发布中,一个被很多人低估但极其重要的东西是:

强化学习框架 Slime。

Slime 的目标很明确: 把强化学习从“实验室技巧”,变成可长期运转的工程流水线。

f6062571-0c85-4fba-be1d-8073ea459215.png

5fd4dd8e-694e-4a39-a908-a6598d9c2b34.png

它支持:

任务生成
执行与测试
自动反馈
持续迭代
真正解决的问题只有一个:怎么把模型练成“会干活的 Agent”。

八、接下来会发生什么?
关于版本节奏,智谱的态度很耐人寻味:

不排除直接跳过 4.8 / 4.9
GLM-5 可能直接登场
此外,还有两个明确的信号:

新一代 IDE Zcode 正在路上
模型 + 工具 + Agent,会一起打包推进
从方向上看,他们已经不太纠结“榜单第一”,而是更关注一件事:

模型如何真正进入生产,而不是停在 Demo。

写在最后
GLM-4.7 真正引爆技术圈的原因,并不只是“又一个更强模型”。

而是它释放了一个清晰信号:

大模型竞争,正在从“谁更聪明”, 进入“谁更工程化、谁更能落地”的阶段。

这场变化,才刚刚开始。

相关文章
|
2月前
|
人工智能 机器人 网络安全
2026年OpenClaw保姆级教程:OpenClaw(Clawdbot)部署+接入微信攻略
在2026年AI自动化办公与社交协同深度融合的浪潮中,OpenClaw(原Clawdbot,曾用名Moltbot)作为阿里云生态下开源的轻量级AI自动化代理工具,凭借自然语言交互、全场景任务自动化、插件化扩展的核心优势,成为个人办公提效、轻量团队协同、私域服务升级的优选工具。与传统聊天机器人不同,OpenClaw并非单纯的对话助手,而是能实现“需求解析-任务规划-工具调用-结果反馈”的完整自动化系统,可轻松完成文档生成、日程管理、网页抓取、多工具协同、信息汇总、私域客户响应等实操任务,真正实现解放双手、提升协作与服务效率的核心需求。
4294 1
|
5月前
|
机器学习/深度学习 人工智能 前端开发
终端里的 AI 编程助手:OpenCode 使用指南
OpenCode 是开源的终端 AI 编码助手,支持 Claude、GPT-4 等模型,可在命令行完成代码编写、Bug 修复、项目重构。提供原生终端界面和上下文感知能力,适合全栈开发者和终端用户使用。
44933 11
|
3月前
|
安全 测试技术 API
MiniMax 开源新评测集:定义Coding Agent 的生产级标准
Coding Agent常因“过程违规”遭诟病,如无视指令、破坏规范。MiniMax推出OctoCodingBench,首创面向工程可靠性的过程评估体系,揭示当前模型在多规则协同下成功率极低,呼吁行业关注“过程正确性”,推动Agent从能用走向可用。
560 5
|
3月前
|
运维 安全 算法
RAG 不是万能解,这些场景你一开始就不该用
RAG并非万能,默认滥用反致系统复杂、效果难测。它仅解决“信息获取”,不提升模型能力。最适合四类场景:动态知识更新、需答案溯源、长尾问题密集、需求尚不明确。慎用于强推理、隐性经验、高实时性及高确定性要求场景。核心判断:问题是“找不到信息”,还是“不会处理信息”?
|
人工智能 API
大模型生成短视频
这篇文章详细介绍了如何利用大模型生成短视频,包括配置环境、对接视频素材网站以及生成视频的具体步骤。
512 4
大模型生成短视频
|
Web App开发 JavaScript 前端开发
使用Node.js和Express框架构建Web服务器
使用Node.js和Express框架构建Web服务器
|
前端开发
react antd点击table行时加选中背景色
react antd点击table行时加选中背景色
403 5
|
人工智能 自然语言处理 Swift
"轻量级微调推理框架SWIFT:大模型时代的速度革命,让你秒变AI部署高手!"
【8月更文挑战第17天】随着AI技术的发展,大模型如GPT-3和BERT引领风潮,但其部署与推理速度面临挑战。为此,魔搭社区推出了SWIFT(Simple Weight-Integrated Fine-Tuning)框架,它采用轻量级微调技术,实现模型参数压缩与加速,确保大模型能在移动端和边缘设备上高效运行。SWIFT具备四大特点:创新微调方法减少训练参数;内置优化策略提高推理速度;跨平台支持便于部署;兼容主流预训练模型。通过示例可见,从加载预训练模型到模型的微调、评估及导出,SWIFT简化了工作流程,降低了大模型的应用门槛,促进了AI技术的实际应用。
1815 4