刚发布的 Gemma4 12B 能打吗?三款最新顶流开源模型跑分全解读,堪比跟去年主流闭源模型

简介: Gemma4 12B(6月3日刚发布)、Gemma4 26B A4B、Qwen3.6-35B-A3B,三款近期开源模型在 MMLU-Pro、GPQA Diamond、AIME 等评测中全面对标 Claude Sonnet 4 和 GPT-4.1 这两款 2025 年中闭源旗舰 ,数学科学推理甚至大幅领先。一文看懂跑分、架构差异和使用场景。

Google DeepMind 在 6 月 3 日悄悄放出了 Gemma4 12B——一款 unified multimodal 架构、原生支持 Apple Silicon 的轻量模型。加上之前发布的 Gemma4 26B A4B(3月底)和阿里的 Qwen3.6-35B-A3B(4月中),最近两个月的开源大模型圈,连续出了三款硬货。

三款模型的共同特征是:参数看着不小,但跑起来不贵——靠 MoE 混合专家或极致压缩,在消费级硬件上就能跑出不错的推理能力。

那到底什么水平?为了让大家有个直观的感觉,我把三款开源模型跟 Claude Sonnet 4、GPT-4.1 做了个横向对比。需要说明的是:Sonnet 4 和 GPT-4.1 都是去年(2025年)年中发布的主力模型,现在已经过去一年,当前的一线大模型能力已经大幅超越了这两个版本。选它们作为参照,不是因为它们代表今天的最高水平,而是因为它们是大模型发展史上的重要标杆——用它们做"能力锚点",可以更直观地感受这代开源模型到底跑到了什么位置。

三位选手速览

Gemma4 12B(Google DeepMind)—— 6月3日刚发布

  • 架构:Dense 12B,统一多模态(文本+图像+音频+视频,无需独立编码器)
  • 定位:能跑在笔记本上的通用小钢炮,原生支持 Apple Silicon,功耗低、响应快
  • 独特优势:原生图文音视频全模态理解,不像大多数开源模型需要外挂视觉编码器。这意味着看图、听音频、看视频都是模型本身的能力,部署和维护更简单
  • 热度:刚发布,社区讨论度高,是截至目前最新一批开源模型

Gemma4 26B A4B(Google DeepMind)—— 3月31日发布

  • 架构:MoE 混合专家,总参数量 26B,每次推理激活 4B 参数
  • 定位:性能比 12B 版跃升一个台阶,但依然适合单张高端消费级 GPU

Qwen3.6-35B-A3B(阿里通义千问)—— 4月16日发布

  • 架构:MoE 混合专家,总参数量 35B,每次推理仅激活 3B 参数
  • 定位:开源本地部署里综合文本推理能力最突出,Apache 2.0 开源协议

评测项目说明

评测项目 测什么 难度感知
MMLU / MMLU-Pro 知识广度,覆盖57个学科(Pro版更难,题目更刁钻) 知识面考试
GPQA Diamond 研究生级物理/化学/生物推理题,博士出题 科学思维能力
AIME 美国数学邀请赛真题,高中奥数级 数学硬功夫
SWE-bench Verified 真实 GitHub Issue 修复,检验工程代码能力 编程实战力,但存在争议

特别提醒:Sonnet 4 和 GPT-4.1 的 MMLU 分数用的是标准版 MMLU,而三款开源模型是 MMLU-Pro(更难版本)。所以知识面这个维度不能简单横向比数字,要整体定性判断。

核心数据对比

模型 架构 MMLU-Pro GPQA Diamond AIME SWE-bench
Gemma4 12B Dense 12B 77.2 78.8 77.5
Gemma4 26B A4B MoE 26B/4B 82.6 82.3 88.3
Qwen3.6-35B-A3B MoE 35B/3B 85.2 86.0 92.7 73.4
Claude Sonnet 4 闭源 85.4(标准MMLU) 70.0 33.1 72.7
GPT-4.1 闭源 90.2(标准MMLU) 66.3 48.1(2024版) 54.6
注:Qwen3.6 分数引自社区独立评测,Gemma4 数据来自 Google 官方,Sonnet 4 数据来自 Anthropic,GPT-4.1 数据来自 OpenAI 及第三方。 Claude Sonnet4 和GPT-4.1的MMLU评测使用的是标准版,难度低于Pro版本。 GPT-4.1的AIME评测使用的是2024版本,难度低于其他。

几个值得注意的发现

发现一:数学推理上,开源模型大幅超出这两款去年的闭源旗舰。

AIME 数学竞赛题是同套题,是最直观的对比维度。Gemma4 26B 拿下 88.3,Qwen3.6-35B 更是冲到 92.7——反观 Sonnet 4 只有 33.1,GPT-4.1 用更简单的 2024 版试卷也才 48.1。差距是量级上的。

发现二:科学推理,三款开源模型全面超越两个去年闭源标杆。

GPQA Diamond 是研究生级硬核科学题,三款开源模型全部在 78-86 分之间,Sonnet 4(70.0)和 GPT-4.1(66.3)明显落后。在需要深度推理的场景里,这代开源模型已经跑到了前面。

发现三:代码工程,Qwen3.6-35B 是唯一公开 SWE-bench 的开源模型。

但 73.4 的成绩略高于 Sonnet 4(72.7),远超 GPT-4.1(54.6)。Gemma4 系列暂缺 SWE-bench 数据,可能是由于SWE-bench测评的争议。

发现四:刚发布的 Gemma4 12B,小身材咬得很紧。

12B 的 GPQA Diamond(78.8)虽然略低于 26B 版(82.3),但差距不大——12B dense 架构在科学推理上并不吃亏。更关键的是,12B 版支持原生图文音视频理解,在需要看图、听音频的场景里,比纯文本模型多一个维度。

使用场景推荐

场景 推荐模型 理由
笔记本日常使用/图文/音视频多模态处理 Gemma4 12B Dense 12B,原生 Apple Silicon,功耗低、响应快。原生统一多模态架构,无需外挂视觉/音频编码器,部署简单
数学/科学专项研究 Qwen3.6-35B-A3B AIME 92.7 + GPQA 86.0,文本推理双料最强
编程与工程开发 Qwen3.6-35B-A3B SWE-bench 73.4,开源工程能力靠前
既要推理又要多模态 Gemma4 26B A4B MoE 高效推理 + 原生多模态理解,综合最均衡
企业高并发推理 Qwen3.6-35B-A3B + Gemma4 26B 3-4B 激活参数,单卡高吞吐

怎么跑起来?

三个模型都支持 oMLX 格式——专门为 Apple 芯片(M系列)优化的推理引擎,能在 Mac 上充分利用 GPU 加速。但自己折腾下载、转格式、调配置,费时费力,而且国内从 HuggingFace 拉模型经常卡住。



相关文章
|
1天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
7644 32
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
1天前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
659 146
|
1天前
|
人工智能 缓存 自然语言处理
阿里Qwen3.7-Max评测:Agent能力显著提升,耗时与调用成本大幅下降
阿里云百炼推出面向智能体的旗舰大模型Qwen3.7-Max,具备长周期自主执行能力,显著提升编程、办公自动化等复杂任务处理水平;支持MCP集成与多框架兼容,并以限时5折+100万Tokens免费试用大幅降低使用门槛,助力企业高效落地AI应用。在阿里云百炼平台快速体验:https://t.aliyun.com/U/fPVHqY
|
1天前
|
人工智能 运维 JavaScript
阿里云Qoder CN(原通义灵码)全解析 产品形态、版本划分与技术适配说明
在AI辅助开发与智能办公工具持续普及的当下,阿里云旗下原通义灵码正式更名为Qoder CN,同时延伸出QoderWork CN、Qoder CN CLI、Qoder CN Mobile等多款配套产品,形成覆盖代码开发、日常办公、终端交互、移动端使用的完整工具矩阵。Qoder CN核心定位为AI智能编码助手,深度适配主流代码编辑器、集成开发环境以及终端场景;QoderWork CN则偏向桌面端综合办公辅助,二者面向不同使用场景,划分了多个版本档位,搭配差异化资源配额、功能权限与计费规则,同时兼容多款主流大模型。
424 4
|
1天前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
1271 2
|
1天前
|
JavaScript 定位技术 API
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
CodeGraph 是一款爆火的本地代码智能工具,通过 tree-sitter 解析 AST 构建结构化知识图谱(存于 SQLite),为编程 Agent 提前生成“代码地图”。它显著降低 Agent 在中大型项目中的探索成本——实测工具调用减少71%、Token 降57%、速度提升46%,支持19+语言及主流框架路由识别,完全离线、无需 API Key。
367 1
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
|
1天前
|
人工智能 弹性计算 运维
阿里云发布堡垒机智能运维Agent,运维交互进入自然语言新时代
支持自然语言运维,提升效率与安全双保障。
1175 1
|
1天前
|
存储 安全 Java
AgentScope Java 2.0:打造分布式、企业级智能体底座
AgentScope 2.0 面向分布式部署、稳定运行、权限安全等企业级需求全面升级,打造支持多租户隔离与长期稳定运行的企业级智能体底座。
|
1天前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
1323 4
|
1天前
|
人工智能 运维 API
2026年阿里云百炼通义千问Qwen3.7-plus深度介绍 功能特性、使用优势及618大促订阅方案指南
大模型技术的普及,让AI能力逐步融入个人办公、内容创作、代码编写、企业运营、教育培训等各类场景。不同定位的模型对应不同使用需求,旗舰级模型性能强劲但使用成本偏高,轻量化模型价格低廉却难以胜任复杂任务,而介于两者之间的中端主力模型,凭借均衡的能力、亲民的定价、广泛的场景适配性,成为绝大多数个人用户、小型团队、中小企业的首选。
517 1