Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力

简介: Google正式开源Gemma 4系列(Apache 2.0许可),含E2B/E4B(端侧多模态)、26B MoE与31B Dense四款模型。参数效率卓越:31B位列开放模型榜第3,26B第6;边缘模型支持128K上下文、原生音视频处理,单卡/手机均可高效运行。

近日,Google 正式开源 Gemma 4 系列,基于与 Gemini 3 相同的技术底座构建,采用 Apache 2.0 许可。本次发布包含四个规格:E2B、E4B、26B MoE 和 31B Dense,覆盖从端侧到服务器的多种部署场景。核心亮点在于参数效率极高——31B 模型在 Arena AI 文本排行榜位列开放模型第 3,26B 位列第 6,性能超越多个 20 倍参数量级的模型。在边缘侧,E2B 和 E4B 模型重新定义了设备端的实用性,它们优先考虑多模态能力、低延迟处理以及无缝的生态集成,而非单纯追求参数规模。

Gemma 4 全系列针对复杂推理和 Agentic 工作流做了重点优化,不再局限于简单对话场景。对开发者而言,这意味着可以用较低的硬件成本,在自有基础设施上运行接近前沿闭源模型水平的能力。

自初代发布以来,Gemma 生态已积累超 4 亿次下载和 10 万+ 衍生模型,社区基础成熟。

以下视频来自谷歌开发者

📎0bc3b4a7maab3malyo6o5ruvcd6d6yhqd5qa.f10002.mp4

模型特性

Gemma 4 之所以能成为Google迄今最强大的开放模型系列,归功于以下核心特质:

  • 高级推理: 能够进行多步规划和深度逻辑推理,Gemma 4 在需要此类能力的数学和指令遵循基准测试中表现出显著的提升。
  • 智能体工作流: 原生支持函数调用 (Function-calling)、结构化 JSON 输出和原生系统指令,构建能够与不同工具和 API 交互并稳定执行工作流的自主智能体。
  • 代码生成: Gemma 4 支持生成高质量的离线代码,能够将您的工作站转变为本地优先的 AI 代码助手。
  • 视觉与音频: 所有模型均原生支持视频与图像处理,支持可变分辨率,并在 OCR (光学字符识别) 和图表理解等视觉任务中表现出色。此外,E2B 和 E4B 模型还具备原生音频输入功能,可用于语音识别和理解。
  • 更长的上下文: 可无缝处理长文本内容。边缘模型支持 128K 上下文窗口,更大参数的模型则提供高达 256K 的支持,可以在单次提示中处理整个代码库或长篇文档。
  • 支持 140 多种语言: Gemma 4 经过 140 多种语言的原生训练,帮助开发者为全球用户构建包容、高性能的应用。


适配各类硬件灵活推理

Gemma 4 模型权重针对特定硬件和使用场景进行了量身定制,确保您随时随地都能获得顶尖的推理能力:

26B 和 31B 模型: 单卡可跑的前沿级推理模型

未经量化的 bfloat16 权重可以高效适配单个 80GB NVIDIA H100 GPU,为研究人员和开发者在常用硬件上提供顶尖的推理能力。对于本地配置,量化版本可在消费级 GPU 上原生运行,为  IDE、编程助手和智能体工作流提供动力。 26B 混合专家模型 (MoE) 专注于低延迟,推理时仅激活 38 亿参数,提供极快的每秒 Token 生成数;而 31B Dense 则追求极致的原始质量,为微调提供了强大的基础。

以上模型通过大量不同的数据集和指标进行了评估,以涵盖文本生成的各个方面。其他基准测试可前往请前往官方 Model Card 中查看

Model Card :

https://ai.google.dev/gemma/docs/core/model_card_4?hl=zh-cn


模型推理最佳实践可见模型详情:

  • gemma-4-31B:

https://www.modelscope.cn/models/google/gemma-4-31B

  • gemma-4-26B-A4B:

https://www.modelscope.cn/models/google/gemma-4-26B-A4B


E2B 和 E4B 模型: 面向端侧和 IoT 的轻量多模态模型

这些模型从底层开始构建,旨在实现计算和内存效率的最大化,在推理时分别激活 20 亿和 40 亿的有效参数,以节省内存和延长电池寿命。通过与 Google Pixel 团队以及高通、联发科等移动硬件领军企业的紧密合作,这些多模态模型可以在手机、树莓派、NVIDIA Jetson Orin Nano 等边缘设备上实现近乎零延迟的完全离线运行。Android 开发者现在即可在 AICore 开发者预览版中原型化智能体流程,实现与 Gemini Nano 4 的前向兼容。


模型推理最佳实践可见模型详情:


模型微调

ms-swift 第一时间支持了 Gemma4 系列模型的微调,包括文本、图像、语音和视频模态。ms-swift是魔搭社区官方提供的大模型训练框架,ms-swift开源地址:https://github.com/modelscope/ms-swift


环境准备:

# pip install git+https://github.com/modelscope/ms-swift.git
git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e .
pip install transformers -U

可直接运行训练脚本如下:

# 2 * 20GiB
NPROC_PER_NODE=2 \
CUDA_VISIBLE_DEVICES=0,1 \
swift sft \
    --model google/gemma-4-E2B-it \
    --dataset 'AI-ModelScope/LaTeX_OCR:human_handwrite
#2000
' \
    --load_from_cache_file true \
    --split_dataset_ratio 0.01 \
    --tuner_type lora \
    --torch_dtype bfloat16 \
    --num_train_epochs 1 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --learning_rate 1e-4 \
    --lora_rank 8 \
    --lora_alpha 32 \
    --target_modules all-linear \
    --freeze_vit true \
    --freeze_aligner true \
    --gradient_accumulation_steps 16 \
    --eval_steps 50 \
    --save_steps 50 \
    --save_total_limit 2 \
    --logging_steps 5 \
    --max_length 4096 \
    --output_dir output \
    --warmup_ratio 0.05 \
    --deepspeed zero2 \
    --dataset_num_proc 4 \
    --dataloader_num_workers 4

对验证集进行推理:

CUDA_VISIBLE_DEVICES=0 \
swift infer \
    --adapters output/vx-xxx/checkpoint-xxx \
    --stream true \
    --load_data_args true

如果您需要自定义数据集微调模型,你可以将数据准备成以下格式:

{"messages": [{"role": "user", "content": "浙江的省会在哪?"}, {"role": "assistant", "content": "浙江的省会在杭州。"}]}
{"messages": [{"role": "user", "content": "<image>两张图片有什么区别"}, {"role": "assistant", "content": "前一张是小猫,后一张是小狗"}], "images": ["/xxx/x.jpg"]}
{"messages": [{"role": "user", "content": "<audio>语音说了什么"}, {"role": "assistant", "content": "今天天气真好呀"}], "audios": ["/xxx/x.mp3"]}

推送微调后的模型到ModelScope:

swift export \
    --adapters output/vx-xxx/checkpoint-xxx \
    --push_to_hub true \
    --hub_model_id '<your-model-id>' \
    --hub_token '<your-sdk-token>'

点击直达模型合集

https://www.modelscope.cn/collections/google/Gemma-4

目录
相关文章
|
6天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
4357 17
|
17天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
16646 138
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
5天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
4819 8
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
7天前
|
人工智能 自然语言处理 数据挖掘
零基础30分钟搞定 Claude Code,这一步90%的人直接跳过了
本文直击Claude Code使用痛点,提供零基础30分钟上手指南:强调必须配置“工作上下文”(about-me.md+anti-ai-style.md)、采用Cowork/Code模式、建立标准文件结构、用提问式提示词驱动AI理解→规划→执行。附可复制模板与真实项目启动法,助你将Claude从聊天工具升级为高效执行系统。
|
6天前
|
人工智能 定位技术
Claude Code源码泄露:8大隐藏功能曝光
2026年3月,Anthropic因配置失误致Claude Code超51万行源码泄露,意外促成“被动开源”。代码中藏有8大未发布功能,揭示其向“超级智能体”演进的完整蓝图,引发AI编程领域震动。(239字)
2461 9

热门文章

最新文章