智谱旗舰模型GLM-4.6开源发布,代码能力对齐Claude Sonnet 4

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 作为GLM系列的最新版本,GLM-4.6是系列最强的代码Coding模型(较GLM-4.5提升27%)

GLM,也来啦!就在今天,智谱AI开源发布了GLM-4.6。


作为GLM系列的最新版本,GLM-4.6是系列最强的代码Coding模型(较GLM-4.5提升27%)。在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升。如下:


  • 高级编码能力:在公开基准与真实编程任务中,GLM-4.6的代码能力对齐Claude Sonnet 4,是国内已知的最好的Coding模型;
  • 上下文长度:上下文窗口由128K→200K,适应更长的代码和智能体任务;
  • 推理能力:推理能力提升,并支持在推理过程中调用工具;
  • 搜索能力:增强模型的工具调用和搜索智能体,在智能体框架中表现更好;
  • 写作能力:在文风、可读性与角色扮演场景中更符合人类偏好。


GLM-4.6已上线智谱MaaS平台http://bigmodel.cn,已经在Hugging Face、ModelScope开源,遵循MIT协议。


代码仓库:

https://github.com/zai-org/GLM-4.5

模型链接:

https://www.modelscope.cn/models/ZhipuAI/GLM-4.6

技术博客:

https://z.ai/blog/glm-4.6



Coding能力创国产模型新高

1. 综合评测

8大权威基准:AIME 25、LCB v6、HLE、SWE-Bench Verified、BrowseComp、Terminal-Bench、τ^2-Bench、GPQA 模型通用能力的评估中,GLM-4.6在部分榜单表现对齐Claude Sonnet 4/Claude Sonnet 4.5,稳居国产模型首位。

2. 真实编程评测

为了测试模型在实际编程任务中的能力,我们在Claude Code环境下进行了74个真实场景编程任务测试。结果显示,GLM-4.6实测超过Claude Sonnet 4,超越其他国产模型。


在平均token消耗上,GLM-4.6比GLM-4.5节省30%以上,为同类模型最低。


为确保透明性与可信度,智谱已公开全部测试题目与Agent轨迹,供业界验证与复现。


数据集:

https://www.modelscope.cn/datasets/ZhipuAI/CC-Bench-trajectories


GLM-4.6的上一代模型GLM-4.5首次在单个模型中实现将推理、编码和智能体能力原生融合。GLM-4.5在代码能力上的突出表现让其取得一些成绩,在OpenRouter上稳居全球前十供应商,自发布后智谱MaaS平台API商业化实现10倍以上增长。


模型推理上,GLM-4.5 和 GLM-4.6 都使用相同的推理方法


GLM-4.6www.modelscope.cn/models/ZhipuAI/GLM-4.6

目录
相关文章
|
30天前
|
机器学习/深度学习 自然语言处理 前端开发
Ling-1T,智渊、思简
今天,我们正式发布Ling 2.0系列的第一款 旗舰非思考模型 - 拥有万亿参数的Ling-1T。推理,是智能的核心表达,更是通用智能体的认知基石。因此,我们持续扩展Ling 2.0 系列模型的自然语言推理能力。Ling-1T沿用 Li…
436 9
|
13天前
|
传感器 人工智能 API
仅100多元,他给视障人群装上AI“眼睛”
上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。
415 5
仅100多元,他给视障人群装上AI“眼睛”
|
1月前
|
运维 监控 异构计算
142_故障容错:冗余与回滚机制 - 配置多副本的独特健康检查
在大语言模型(LLM)的生产环境部署中,系统的可靠性和稳定性至关重要。随着LLM应用场景的不断扩展,从简单的文本生成到复杂的多模态交互,用户对服务可用性和响应质量的要求也日益提高。据2025年最新的AI服务可用性报告显示,顶级AI服务提供商的SLA(服务级别协议)承诺已达到99.99%,这意味着每年的计划外停机时间不得超过52.56分钟。
|
2月前
|
存储 人工智能 文字识别
PDF解析迎来技术革新!阿里新产品实现复杂文档端到端结构化处理
前言9月24日云栖大会现场,由阿里巴巴爱橙科技数据技术及产品团队自主研发的 PDF解析神器正式亮相并同步开源模型。这款基于Logics-Parsing模型构建的AI工具直指当前PDF解析领域的技术痛点,显著提升复杂文档的结构…
411 0
PDF解析迎来技术革新!阿里新产品实现复杂文档端到端结构化处理
|
26天前
|
机器学习/深度学习 人工智能 API
用Macbook微调Qwen3!手把手教你用微调给Qwen起一个新名字
本文介绍如何在MacBook上使用苹果MLX框架高效微调Qwen3大模型。借助MLX的高性能计算与统一内存架构,仅需2分钟即可完成训练,内存占用低至2GB,推理速度达400 Token/s,并支持快速部署为本地API服务,展现Mac轻薄本的强大AI生产力潜力。
629 16
用Macbook微调Qwen3!手把手教你用微调给Qwen起一个新名字
|
23天前
|
存储 人工智能 算法
ModelScope魔搭社区发布月报 -- 25年10月
2025年10月,ModelScope密集发布多模态与大模型更新,并上线国际站、科学智能专区及AIGC工具FlowBench,加速开源生态发展。
263 9

热门文章

最新文章