GLM-5.1开源:独立工作8小时,探索长程任务上限

简介: 智谱发布开源旗舰GLM-5.1,首次实现超8小时长程自主编程,支持从零构建Linux桌面、655轮向量库优化等工程级任务,在SWE-Bench Pro等基准中位列全球第三、开源模型第一。

今天凌晨,智谱最新开源旗舰 GLM-5.1 发布,这次直接把 AI 编程推到了"8小时长程任务"时代。从早期3分钟的 Vibe Coding,到30分钟的 Agentic Engineering,再到如今能连续独立工作超过8小时的 Long-Horizon Task,GLM-5.1 堪称智谱迄今最强的旗舰模型,也是当前全球最能打的开源模型之一。

GLM-5.1在代码能力上大幅跃升,尤其擅长长程任务——一次下发,模型即可自主规划、执行、自我迭代,全程无需人工接管,最终交付完整的工程级成果,把智能体从"助手"升级成了"工程师"。


开源链接

GitHub:https://github.com/zai-org/GLM-5

ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.1

官方API接入

  • BigModel开放平台:https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
  • Z.ai:https://docs.z.ai/guides/llm/glm-5.1

Blog

https://z.ai/blog/glm-5.1


代码能力是模型智能水平进一步提升的关键。下图是GLM-5.1分别在 SWE-Bench Pro、Terminal-Bench 2.0、NL2Repo基准中的表现,综合结果上,取得了全球模型第三、国产模型第一、开源模型第一的成绩。


在最接近真实软件开发的SWE-bench Pro基准测试中,GLM-5.1刷新全球最佳成绩,超过GPT-5.4、Claude Opus 4.6。


案例展示:模型上班的8小时

抛开Benchmark,本次 GLM-5.1 的官方展示重点,转向了:模型在长程任务中能否持续工作、持续优化,并完成完整的“执行、分析、修正”闭环。


在同等评估口径下,GLM-5.1 展现出较强的长时间自主工作能力。以下是官方提供的三个案例:


Case 1:8小时从零构建 Linux 桌面

在该任务中,模型被要求从零开始完成一个 Linux 桌面系统构建。


任务结果:

  • 持续执行 8 小时
  • 完成 1200+ 步操作
  • 约 20 分钟后产生首个有效结果
  • 最终产出包含桌面、窗口管理器、状态栏、应用程序、VPN 管理器、中文字体支持、游戏库等完整组件
  • 生成配套文件约 4.8MB


Case 2:655 次迭代优化向量数据库

在向量数据库优化任务中,GLM-5.1 通过持续迭代完成性能提升。


任务结果:

  • 655 轮迭代
  • 持续进行 Benchmark 运行、瓶颈定位与方案调整
  • 优化路径覆盖全库扫描、IVF 分桶召回、半精度压缩、量化粗排、两级路由、提前剪枝等
  • 查询吞吐从 3108 QPS 提升至 21472 QPS
  • 相比初始正式版本提升 6.9 倍


Case 3:1000 轮工具调用优化真实机器学习负载

在 KernelBench Level 3 基准上,GLM-5.1 针对 50 个真实机器学习计算负载进行持续优化。


任务结果:

  • 超过 24 小时不间断迭代
  • 完成多轮编译、测试、分析、重写循环
  • 支持 Triton Kernel、CUDA Kernel、cuBLASLt epilogue 融合、shared memory tiling、CUDA Graph 等优化方式
  • 几何平均加速比达到 3.6 倍
  • 对比 torch.compile max-autotune 模式的 1.49 倍,提升更明显


以上三个场景共同指向同一个核心变量:真正决定模型能力的,并不是运行时长本身,而是额外的运行时间是否仍然有效。GLM-5.1 相较 GLM-5 将这一有效工作窗口显著地向后延伸,而 KernelBench 上仍然存在的差距也说明,长程优化依旧是一片有待开拓的前沿。


前路仍有诸多挑战:如何在增量调优不再奏效时更早跳出局部最优,如何在跨越数千次工具调用的执行轨迹中保持连贯性,以及,也是最重要的,如何在没有数值指标的任务上建立可靠的自我评估机制。GLM-5.1 是智谱团队在这个方向上迈出的第一步,后续仍会持续推进。


模型实战指引

以下开源框架支持 GLM-5.1 的本地部署:

  • SGLang (v0.5.10+):

https://cookbook.sglang.io/autoregressive/GLM/GLM-5.1


  • vLLM (v0.19.0+):

https://github.com/vllm-project/recipes/blob/main/GLM/GLM5.md


  • xLLM (v0.8.0+):

https://github.com/zai-org/GLM-5/blob/main/example/ascend.md


  • Transformers (v0.5.3+) :

https://github.com/huggingface/transformers/blob/main/docs/source/en/model_doc/glm_moe_dsa.md


  • KTransformers (v0.5.3+) :

https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/kt-kernel/GLM-5.1-Tutorial.md


点击即可跳转模型合集

https://modelscope.cn/models/ZhipuAI/GLM-5.1


目录
相关文章
|
19天前
|
人工智能 程序员 测试技术
智谱GLM-5.1发布:国产大模型长程任务能力显著提升,生产力工具迎来新突破
智谱发布GLM-5.1:全球首个支持8小时自主工作的开源大模型,显著提升代码与长程任务能力,在SWE-Bench Pro等测试中超越Claude Opus 4.6,推动AI从“对话工具”迈向“工程级助手”。
|
30天前
|
人工智能 IDE API
阿里云百炼Coding Plan 显示售罄抢不到怎么办?GLM-5等模型是全参数满血版的吗?
阿里云百炼Coding Plan提供GLM-5、Qwen3.5-Plus等**满血原版模型**(非量化阉割),仅计费方式不同。抢购建议直选Pro版+卡准每日9:30补货。若求稳,推荐直接使用百炼平台——开通即用、新用户赠100万Tokens,模型一致、按量付费更灵活。
|
22天前
|
人工智能 测试技术 Apache
Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力
Google正式开源Gemma 4系列(Apache 2.0许可),含E2B/E4B(端侧多模态)、26B MoE与31B Dense四款模型。参数效率卓越:31B位列开放模型榜第3,26B第6;边缘模型支持128K上下文、原生音视频处理,单卡/手机均可高效运行。
947 12
Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力
|
5天前
|
机器学习/深度学习 缓存 测试技术
DeepSeek-V4开源:百万上下文,Agent能力比肩顶级闭源模型
DeepSeek-V4正式开源!含V4-Pro(1.6T参数)与V4-Flash(284B参数)双版本,均支持百万token上下文。首创混合注意力架构,Agent能力、世界知识与推理性能全面领先开源模型,数学/代码评测比肩顶级闭源模型。
1896 6
|
22天前
|
机器学习/深度学习 自然语言处理 算法
OpAgent开源:登顶 WebArena,蚂蚁集团开源全模态网页智能体
蚂蚁集团推出Web智能体OpAgent,仅凭自然语言指令即可在真实网站(如亚马逊)自主完成搜索、识别、加购等复杂操作。其采用视觉驱动理解、在线强化学习与模块化协作架构,在WebArena基准达71.6%任务成功率,刷新SOTA。已开源OpAgent-32B-INT4量化模型,显著降低推理门槛。
219 3
OpAgent开源:登顶 WebArena,蚂蚁集团开源全模态网页智能体
|
9天前
|
SQL 人工智能 API
零成本接入 GLM-5.1!Modal 平台免费不限量 API 对接 Claude Code
JeecgBoot AI专题研究 Modal 平台 GLM5.1 免费不限 Token 接入 Claude Code 起因:Claude Code 限流太烦周五下午赶重构任务,Claude Code 连续弹 429 Too Many Requests,Coding Plan 在高压场景下扛不住。
1062 1

热门文章

最新文章