❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦
🎉 “谷歌放大招!Gemma 3 开源多模态 AI 模型来了:35+语言支持,高分辨率图像处理,单 GPU 也能起飞!”
大家好,我是蚝油菜花。你是否也遇到过——
- 👉 多模态任务处理复杂,模型难以兼顾文本、图像和视频?
- 👉 高分辨率图像处理速度慢,硬件资源消耗大?
- 👉 多语言支持不足,难以满足全球化需求?
今天要介绍的 Gemma 3,是谷歌最新推出的开源多模态 AI 模型,专为开发者设计,支持超过 35 种语言,具备文本、图像及短视频处理能力。它提供四种不同尺寸的模型(1B、4B、12B 和 27B),优化单 GPU 性能,显著提升推理速度。无论是图像问答、视频内容分析,还是多语言智能助手,Gemma 3 都能轻松应对。接下来,我们将深入解析它的核心功能和技术原理,带你全面了解这款 AI 神器!
🚀 快速阅读
Gemma 3 是谷歌最新推出的开源多模态 AI 模型,专为开发者设计。
- 核心功能:支持文本、图像及短视频处理,提供四种模型尺寸,优化单 GPU 性能。
- 技术原理:采用知识蒸馏、强化学习和模型合并技术,配备 ShieldGemma 2 图像安全分类器。
Gemma 3 是什么
Gemma 3 是谷歌最新推出的开源人工智能模型,专为开发者设计,支持多种设备上的人工智能应用开发。它支持超过 35 种语言,具备分析文本、图像及短视频的能力,提供四种不同尺寸的模型(1B、4B、12B 和 27B),满足不同硬件和性能需求。
Gemma 3 在单 GPU 或 TPU 上的性能优于其他同类模型,如 Llama、DeepSeek 和 OpenAI 的 o3-mini。它配备了 ShieldGemma 2 图像安全分类器,可检测和标记危险内容。开发者可以通过 Google AI Studio 快速体验,或从 Hugging Face、Kaggle 等平台下载模型进行微调和部署。
Gemma 3 的主要功能
- 多模态处理能力:支持文本、图像及短视频的混合输入,能够处理复杂的多模态任务,如图像问答、视频内容分析等。
- 高分辨率图像支持:引入动态图像切片技术和帧采样与光流分析结合方案,支持高分辨率和非方形图像,能在 20 秒内完成 1 小时视频的关键帧提取。
- 多语言支持:支持超过 140 种语言的预训练,直接支持超过 35 种语言。
- 单 GPU 优化:被称为“全球最强的单加速器模型”,在单 GPU 或 TPU 环境下表现显著优于其他同类模型。
- 推理速度提升:在处理短视频内容时,推理速度提升了 47%。
- 硬件适配:针对 Nvidia GPU 和 Google Cloud TPU 进行了深度优化,确保在不同硬件平台上的高效运行。
- 多种模型大小:提供 1B、4B、12B 和 27B 四种不同尺寸的模型,满足不同硬件和性能需求。
- 开发工具支持:支持 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch 等多种开发工具和框架。
- 部署选项多样:支持 Google AI Studio、Vertex AI、Cloud Run、本地环境等多种部署选项。
Gemma 3 的技术原理
- 图像安全分类器:配备 ShieldGemma 2 图像安全分类器,能检测和标记危险内容、色情内容和暴力内容,进一步提升了模型的安全性。
- 训练与微调:采用知识蒸馏、强化学习(包括人类反馈和机器反馈)以及模型合并等技术,提升了模型在数学、编码和指令跟随方面的能力。提供了更灵活的微调工具,方便开发者根据需求进行定制。
如何运行 Gemma 3
通过镜像一键部署
在这里特别感谢 UCloud
优云智算提供的 GPU 算力支持!让项目得到了快速的部署和调试运行。
UCloud 介绍
优云智算是 UCloud 优刻得的GPU算力租赁平台,专注于为用户提供灵活的算力资源。支持按天、按小时短期租赁及包月长期租赁,满足各类需求。
结合丰富的公共镜像社区,优云智算提供多种预配置的容器镜像,如LLamaFactory、SD-webUI 和 LLM 等,实现一键部署,5分钟就能快速上手 AI,助力用户快速启动和扩展项目。
1. 使用该镜像创建实例
Gemma 3 镜像优化:
- 镜像预先下载了 Gemma 3 尺寸为 1B、4B、12B 和 27B 的大模型,无需重复下载模型,加载模型快人一步!
- 基于 Ollama 可以快速部署 Gemma 3 不同尺寸的大模型,并安装了 Open-WebUI 以快速实现可视化聊天。
- 在
bashrc
中已设置export AIOHTTP_CLIENT_TIMEOUT_MODEL_LIST=5
,设置 Open-WebUI 在连接不上 API 只需要暂停加载 5 秒,默认是暂停 5 分钟。
Gemma 3全系列模型+Open-WebUI - 镜像发布页(神秘通道):https://www.compshare.cn/images-detail?ImageID=compshareImage-19gqcfwnxjde&referral_code=4sOb83sEXe4BLkKYqw9G4P&ytag=GPU_hych_Lcsdn_csdn_display
【算力福利速递】神秘通道秒领40枚算力金币解锁20小时顶配4090显卡试驾体验!学生党/职场人亮出大佬身份,立享永久VIP+额外金币补给包,快乐白嫖手慢无~
首先,在镜像发布页
可以查看到我制作完成并分享到平台的实例镜像,通过右侧的使用该镜像创建实例
可以快速创建一个实例。
2. 部署GPU实例
可按需选择配置后再立即部署
。
3. 启动实例
稍等片刻后,实例就会自动创建并启动,通过查看实例列表
可查看实例的运行状态,并支持随时关闭或启用。
实例同时提供了一个 JupyterLab
应用作为交互式开发环境,它提供了更现代化和灵活的用户界面,方便我们继续后续的步骤。
快速开始!
1. 启动 Ollama 服务和 Open-WebUI 服务
首先,新建一个终端,运行以下命令启动 Ollama 服务:
ollama serve
AI 代码解读
如图所示,成功启动 Ollama 后服务默认运行在 11434
端口:
注意不要关闭前一个终端窗口。下一步,另外新建一个终端,运行以下命令启动 Open-WebUI 服务:
open-webui serve
AI 代码解读
Open-WebUI 服务默认运行在 8080
端口,当出现以下输出信息时说明服务已经成功启动:
2. 打开可视化页面
成功启动 Ollama 服务和 Open-WebUI 服务后,通过本地浏览器访问实例外网ip:8080
,打开可视化页面并登录用户:
登录 Open-WebUI 默认的管理员邮箱是
root@root.com
,密码是root
。
3. 选择模型
默认使用gemma3:12b
模型,可以在页面的左上角切换其他尺寸的 Gemma 3 模型:
4. 开始对话
在对话框在输入问题后点击发送消息
按钮即可跟模型开始对话,模型的回复结果也会在对话历史记录中以流式输出进行展示:
因为模型初始化需要经过模型加载阶段、GPU 初始化与显存分配、模型参数初始化、并行化配置、服务端预热等过程,所以首次延迟是本地部署大模型的典型现象,后续推理速度会显著提升!
运行官方的代码示例
在/model/HuggingFace/google
下有gemma-3
所有的开源模型。其中,pt
结尾是预训练基座模型,it
结尾的是指令微调版本,建议使用it
结尾的模型来运行官方的代码示例:
python demo.py --model_id /model/HuggingFace/google/gemma-3-4b-it
AI 代码解读
运行这个代码示例试试让 Gemma-3-4b 模型描述以下图片中的细节:
输出结果如下:
资源
- 项目讯息:https://developers.googleblog.com/en/introducing-gemma3/
- HuggingFace 仓库:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦