智谱旗舰模型GLM-4.6开源发布,代码能力对齐Claude Sonnet 4

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 作为GLM系列的最新版本,GLM-4.6是系列最强的代码Coding模型(较GLM-4.5提升27%)

GLM,也来啦!就在今天,智谱AI开源发布了GLM-4.6。


作为GLM系列的最新版本,GLM-4.6是系列最强的代码Coding模型(较GLM-4.5提升27%)。在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升。如下:


  • 高级编码能力:在公开基准与真实编程任务中,GLM-4.6的代码能力对齐Claude Sonnet 4,是国内已知的最好的Coding模型;
  • 上下文长度:上下文窗口由128K→200K,适应更长的代码和智能体任务;
  • 推理能力:推理能力提升,并支持在推理过程中调用工具;
  • 搜索能力:增强模型的工具调用和搜索智能体,在智能体框架中表现更好;
  • 写作能力:在文风、可读性与角色扮演场景中更符合人类偏好。


GLM-4.6已上线智谱MaaS平台http://bigmodel.cn,已经在Hugging Face、ModelScope开源,遵循MIT协议。


代码仓库:

https://github.com/zai-org/GLM-4.5

模型链接:

https://www.modelscope.cn/models/ZhipuAI/GLM-4.6

技术博客:

https://z.ai/blog/glm-4.6



Coding能力创国产模型新高

1. 综合评测

8大权威基准:AIME 25、LCB v6、HLE、SWE-Bench Verified、BrowseComp、Terminal-Bench、τ^2-Bench、GPQA 模型通用能力的评估中,GLM-4.6在部分榜单表现对齐Claude Sonnet 4/Claude Sonnet 4.5,稳居国产模型首位。

2. 真实编程评测

为了测试模型在实际编程任务中的能力,我们在Claude Code环境下进行了74个真实场景编程任务测试。结果显示,GLM-4.6实测超过Claude Sonnet 4,超越其他国产模型。


在平均token消耗上,GLM-4.6比GLM-4.5节省30%以上,为同类模型最低。


为确保透明性与可信度,智谱已公开全部测试题目与Agent轨迹,供业界验证与复现。


数据集:

https://www.modelscope.cn/datasets/ZhipuAI/CC-Bench-trajectories


GLM-4.6的上一代模型GLM-4.5首次在单个模型中实现将推理、编码和智能体能力原生融合。GLM-4.5在代码能力上的突出表现让其取得一些成绩,在OpenRouter上稳居全球前十供应商,自发布后智谱MaaS平台API商业化实现10倍以上增长。


模型推理上,GLM-4.5 和 GLM-4.6 都使用相同的推理方法


GLM-4.6www.modelscope.cn/models/ZhipuAI/GLM-4.6

目录
相关文章
|
11天前
|
存储 关系型数据库 分布式数据库
PostgreSQL 18 发布,快来 PolarDB 尝鲜!
PostgreSQL 18 发布,PolarDB for PostgreSQL 全面兼容。新版本支持异步I/O、UUIDv7、虚拟生成列、逻辑复制增强及OAuth认证,显著提升性能与安全。PolarDB-PG 18 支持存算分离架构,融合海量弹性存储与极致计算性能,搭配丰富插件生态,为企业提供高效、稳定、灵活的云数据库解决方案,助力企业数字化转型如虎添翼!
|
9天前
|
存储 人工智能 搜索推荐
终身学习型智能体
当前人工智能前沿研究的一个重要方向:构建能够自主学习、调用工具、积累经验的小型智能体(Agent)。 我们可以称这种系统为“终身学习型智能体”或“自适应认知代理”。它的设计理念就是: 不靠庞大的内置知识取胜,而是依靠高效的推理能力 + 动态获取知识的能力 + 经验积累机制。
342 130
|
9天前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
本文讲解 Prompt 基本概念与 10 个优化技巧,结合学术分析 AI 应用的需求分析、设计方案,介绍 Spring AI 中 ChatClient 及 Advisors 的使用。
429 130
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
|
3天前
|
存储 安全 前端开发
如何将加密和解密函数应用到实际项目中?
如何将加密和解密函数应用到实际项目中?
201 138
|
9天前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
385 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
3天前
|
存储 JSON 安全
加密和解密函数的具体实现代码
加密和解密函数的具体实现代码
202 136
|
21天前
|
弹性计算 关系型数据库 微服务
基于 Docker 与 Kubernetes(K3s)的微服务:阿里云生产环境扩容实践
在微服务架构中,如何实现“稳定扩容”与“成本可控”是企业面临的核心挑战。本文结合 Python FastAPI 微服务实战,详解如何基于阿里云基础设施,利用 Docker 封装服务、K3s 实现容器编排,构建生产级微服务架构。内容涵盖容器构建、集群部署、自动扩缩容、可观测性等关键环节,适配阿里云资源特性与服务生态,助力企业打造低成本、高可靠、易扩展的微服务解决方案。
1356 8
|
8天前
|
监控 JavaScript Java
基于大模型技术的反欺诈知识问答系统
随着互联网与金融科技发展,网络欺诈频发,构建高效反欺诈平台成为迫切需求。本文基于Java、Vue.js、Spring Boot与MySQL技术,设计实现集欺诈识别、宣传教育、用户互动于一体的反欺诈系统,提升公众防范意识,助力企业合规与用户权益保护。

热门文章

最新文章