一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: Gemma 3 是谷歌最新推出的开源多模态AI模型,支持超过35种语言,具备文本、图像及短视频处理能力,提供四种模型尺寸,优化单GPU性能,适用于多种AI应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎉 “谷歌放大招!Gemma 3 开源多模态 AI 模型来了:35+语言支持,高分辨率图像处理,单 GPU 也能起飞!”

大家好,我是蚝油菜花。你是否也遇到过——

  • 👉 多模态任务处理复杂,模型难以兼顾文本、图像和视频?
  • 👉 高分辨率图像处理速度慢,硬件资源消耗大?
  • 👉 多语言支持不足,难以满足全球化需求?

今天要介绍的 Gemma 3,是谷歌最新推出的开源多模态 AI 模型,专为开发者设计,支持超过 35 种语言,具备文本、图像及短视频处理能力。它提供四种不同尺寸的模型(1B、4B、12B 和 27B),优化单 GPU 性能,显著提升推理速度。无论是图像问答、视频内容分析,还是多语言智能助手,Gemma 3 都能轻松应对。接下来,我们将深入解析它的核心功能和技术原理,带你全面了解这款 AI 神器!

🚀 快速阅读

Gemma 3 是谷歌最新推出的开源多模态 AI 模型,专为开发者设计。

  1. 核心功能:支持文本、图像及短视频处理,提供四种模型尺寸,优化单 GPU 性能。
  2. 技术原理:采用知识蒸馏、强化学习和模型合并技术,配备 ShieldGemma 2 图像安全分类器。

Gemma 3 是什么

gemma-3-comparison-chart-gemma-models

Gemma 3 是谷歌最新推出的开源人工智能模型,专为开发者设计,支持多种设备上的人工智能应用开发。它支持超过 35 种语言,具备分析文本、图像及短视频的能力,提供四种不同尺寸的模型(1B、4B、12B 和 27B),满足不同硬件和性能需求。

gemma-3-model-performance-v-size-gemma-3.original

Gemma 3 在单 GPU 或 TPU 上的性能优于其他同类模型,如 Llama、DeepSeek 和 OpenAI 的 o3-mini。它配备了 ShieldGemma 2 图像安全分类器,可检测和标记危险内容。开发者可以通过 Google AI Studio 快速体验,或从 Hugging Face、Kaggle 等平台下载模型进行微调和部署。

Gemma 3 的主要功能

  • 多模态处理能力:支持文本、图像及短视频的混合输入,能够处理复杂的多模态任务,如图像问答、视频内容分析等。
  • 高分辨率图像支持:引入动态图像切片技术和帧采样与光流分析结合方案,支持高分辨率和非方形图像,能在 20 秒内完成 1 小时视频的关键帧提取。
  • 多语言支持:支持超过 140 种语言的预训练,直接支持超过 35 种语言。
  • 单 GPU 优化:被称为“全球最强的单加速器模型”,在单 GPU 或 TPU 环境下表现显著优于其他同类模型。
  • 推理速度提升:在处理短视频内容时,推理速度提升了 47%。
  • 硬件适配:针对 Nvidia GPU 和 Google Cloud TPU 进行了深度优化,确保在不同硬件平台上的高效运行。
  • 多种模型大小:提供 1B、4B、12B 和 27B 四种不同尺寸的模型,满足不同硬件和性能需求。
  • 开发工具支持:支持 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch 等多种开发工具和框架。
  • 部署选项多样:支持 Google AI Studio、Vertex AI、Cloud Run、本地环境等多种部署选项。

Gemma 3 的技术原理

  • 图像安全分类器:配备 ShieldGemma 2 图像安全分类器,能检测和标记危险内容、色情内容和暴力内容,进一步提升了模型的安全性。
  • 训练与微调:采用知识蒸馏、强化学习(包括人类反馈和机器反馈)以及模型合并等技术,提升了模型在数学、编码和指令跟随方面的能力。提供了更灵活的微调工具,方便开发者根据需求进行定制。

如何运行 Gemma 3

通过镜像一键部署

在这里特别感谢 UCloud 优云智算提供的 GPU 算力支持!让项目得到了快速的部署和调试运行。

UCloud 介绍

UCloud

优云智算是 UCloud 优刻得的GPU算力租赁平台,专注于为用户提供灵活的算力资源。支持按天、按小时短期租赁及包月长期租赁,满足各类需求。

结合丰富的公共镜像社区,优云智算提供多种预配置的容器镜像,如LLamaFactory、SD-webUI 和 LLM 等,实现一键部署,5分钟就能快速上手 AI,助力用户快速启动和扩展项目。

1. 使用该镜像创建实例

Gemma 3 镜像优化

  1. 镜像预先下载了 Gemma 3 尺寸为 1B、4B、12B 和 27B 的大模型,无需重复下载模型,加载模型快人一步!
  2. 基于 Ollama 可以快速部署 Gemma 3 不同尺寸的大模型,并安装了 Open-WebUI 以快速实现可视化聊天。
  3. bashrc中已设置export AIOHTTP_CLIENT_TIMEOUT_MODEL_LIST=5,设置 Open-WebUI 在连接不上 API 只需要暂停加载 5 秒,默认是暂停 5 分钟。

Gemma 3全系列模型+Open-WebUI - 镜像发布页(神秘通道)https://www.compshare.cn/images-detail?ImageID=compshareImage-19gqcfwnxjde&referral_code=4sOb83sEXe4BLkKYqw9G4P&ytag=GPU_hych_Lcsdn_csdn_display

【算力福利速递】神秘通道秒领40枚算力金币解锁20小时顶配4090显卡试驾体验!学生党/职场人亮出大佬身份,立享永久VIP+额外金币补给包,快乐白嫖手慢无~

首先,在镜像发布页可以查看到我制作完成并分享到平台的实例镜像,通过右侧的使用该镜像创建实例可以快速创建一个实例。

UCloud_use_mirror

2. 部署GPU实例

可按需选择配置后再立即部署

UCloud_mirror_ini

3. 启动实例

稍等片刻后,实例就会自动创建并启动,通过查看实例列表可查看实例的运行状态,并支持随时关闭或启用。

UCloud_contorl

实例同时提供了一个 JupyterLab 应用作为交互式开发环境,它提供了更现代化和灵活的用户界面,方便我们继续后续的步骤。

UCloud_JupyterLab

快速开始!

1. 启动 Ollama 服务和 Open-WebUI 服务

首先,新建一个终端,运行以下命令启动 Ollama 服务:

ollama serve
AI 代码解读

如图所示,成功启动 Ollama 后服务默认运行在 11434 端口:

Gemma_3-ollama

注意不要关闭前一个终端窗口。下一步,另外新建一个终端,运行以下命令启动 Open-WebUI 服务:

open-webui serve
AI 代码解读

Open-WebUI 服务默认运行在 8080 端口,当出现以下输出信息时说明服务已经成功启动:

Gemma_3-open-webui

2. 打开可视化页面

成功启动 Ollama 服务和 Open-WebUI 服务后,通过本地浏览器访问实例外网ip:8080,打开可视化页面并登录用户:

Gemma_3-open-webui-login

登录 Open-WebUI 默认的管理员邮箱是 root@root.com,密码是 root

3. 选择模型

默认使用gemma3:12b模型,可以在页面的左上角切换其他尺寸的 Gemma 3 模型:

Gemma_3-open-webui-models

4. 开始对话

在对话框在输入问题后点击发送消息按钮即可跟模型开始对话,模型的回复结果也会在对话历史记录中以流式输出进行展示:

Gemma_3-open-webui-chat

因为模型初始化需要经过模型加载阶段、GPU 初始化与显存分配、模型参数初始化、并行化配置、服务端预热等过程,所以首次延迟是本地部署大模型的典型现象,后续推理速度会显著提升!

运行官方的代码示例

/model/HuggingFace/google下有gemma-3所有的开源模型。其中,pt结尾是预训练基座模型,it结尾的是指令微调版本,建议使用it结尾的模型来运行官方的代码示例:

python demo.py --model_id /model/HuggingFace/google/gemma-3-4b-it
AI 代码解读

运行这个代码示例试试让 Gemma-3-4b 模型描述以下图片中的细节:

Gemma_3-open-webui-demo-bee

输出结果如下:

Gemma_3-open-webui-demo-bee-output

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
打赏
0
8
8
0
375
分享
相关文章
亚马逊推出AI语音模型新标杆!Nova Sonic:多语言识别错误率仅4.2%,碾压GPT-4o-transcribe
亚马逊推出的Nova Sonic是一款整合语音理解与生成能力的AI模型,支持多语言交互,在LibriSpeech基准测试中平均单词错误率低至4.2%,具备实时双向流式传输能力。
59 5
亚马逊推出AI语音模型新标杆!Nova Sonic:多语言识别错误率仅4.2%,碾压GPT-4o-transcribe
119K star!无需GPU轻松本地部署多款大模型,DeepSeek支持!这个开源神器绝了
"只需一行命令就能在本地运行Llama 3、DeepSeek-R1等前沿大模型,支持Windows/Mac/Linux全平台,这个开源项目让AI开发从未如此简单!"
OPPO联合港科大推出多模态推理优化框架 OThink-MR1:让AI学会『举一反三』,几何推理准确率暴增
OThink-MR1是OPPO与港科大联合研发的多模态优化框架,通过动态KL散度策略和奖励模型显著提升模型在视觉计数等复杂任务中的泛化能力。
70 20
OPPO联合港科大推出多模态推理优化框架 OThink-MR1:让AI学会『举一反三』,几何推理准确率暴增
AutoGLM沉思:智谱AI推出首个能"边想边干"的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式
AutoGLM沉思是由智谱AI推出的一款开创性AI智能体,它突破性地将深度研究能力与实际操作能力融为一体,实现了AI从被动响应到主动执行的跨越式发展。
142 16
AutoGLM沉思:智谱AI推出首个能"边想边干"的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式
FinGPT:华尔街颤抖!用股价训练AI,开源金融大模型预测股价准确率碾压分析师,量化交易新利器
FinGPT是基于Transformer架构的开源金融大模型,通过RLHF技术和实时数据处理能力,支持情感分析、市场预测等核心功能,其LoRA微调技术大幅降低训练成本。
95 12
FinGPT:华尔街颤抖!用股价训练AI,开源金融大模型预测股价准确率碾压分析师,量化交易新利器
OpenRouter 推出百万 token 上下文 AI 模型!Quasar Alpha:提供完全免费的 API 服务,同时支持联网搜索和多模态交互
Quasar Alpha 是 OpenRouter 推出的预发布 AI 模型,具备百万级 token 上下文处理能力,在代码生成、指令遵循和低延迟响应方面表现卓越,同时支持联网搜索和多模态交互。
117 1
OpenRouter 推出百万 token 上下文 AI 模型!Quasar Alpha:提供完全免费的 API 服务,同时支持联网搜索和多模态交互
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
近年来,多模态表示学习在人工智能领域取得显著进展,CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出,通过对比学习对齐图像与文本嵌入空间,具备强大零样本学习能力;SigLIP由Google开发,采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型(MLLMs)的发展,如LLaVA、BLIP-2和Flamingo等,实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界,还为医疗、教育等领域释放技术潜力,标志着多模态智能系统的重要进步。
121 13
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
AI智能体内战终结者!A2A:谷歌开源的首个标准智能体交互协议,让AI用同一种“语言”交流
A2A是谷歌推出的首个标准化智能体交互协议,通过统一通信规范实现不同框架AI智能体的安全协作,支持多模态交互和长时任务管理,已有50多家企业加入生态。
75 0
AI智能体内战终结者!A2A:谷歌开源的首个标准智能体交互协议,让AI用同一种“语言”交流
Meta开源多模态AI新王炸!Llama 4:MoE架构仅用17B参数碾压Gemma 3,支持1000万token上下文
Meta最新开源的Llama 4系列多模态AI模型,采用混合专家架构,支持200种语言处理,最高达2万亿参数规模,在语言理解、图像分析和代码生成等任务中展现突破性性能。
73 0
Meta开源多模态AI新王炸!Llama 4:MoE架构仅用17B参数碾压Gemma 3,支持1000万token上下文
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等