同等参数中最强,在苹果15Pro上也能运行!谷歌又“卷”出了端侧小模型 Gemma 2 2B...

简介: 在AI技术快速演进的背景下,谷歌推出的Gemma 2 2B模型以其小巧体积和卓越性能引起关注。这款仅20亿参数的轻量级语言模型通过知识蒸馏技术,展现出超越大型模型的能力,在Chatbot Arena测试中获得1130分,超过了GPT-3.5-Turbo等竞争对手。Gemma 2 2B不仅性能出众,还能在多种硬件上高效运行,特别适合本地设备。此外,它的开源特性及易于使用的特性降低了AI应用门槛。伴随Gemma 2 2B发布的还有ShieldGemma和Gemma Scope,前者用于过滤有害内容,后者则提高了模型的透明度和可解释性,共同推动AI技术的负责任发展。

在 AI 技术的快速发展下,语言模型的规模和能力也在不断壮大。从最初的几百万参数发展到如今动辄数十亿甚至数百亿参数的模型,每一次技术革新都伴随着巨大的计算资源需求——然而,高昂的成本和复杂的部署流程也因此成为了限制模型广泛应用的主要障碍。

在这样的背景下,今年 2 月谷歌发布了首批 Gemma 系列模型。不同于其旗舰产品 Gemini 模型,Gemma 的体积更小、完全开源、可免费使用,而 Gemini 系列模型体积更大且闭源,此外开发者需付费才能使用。

到了 6 月份,谷歌又开源了 Gemma 2,拥有 27B(270 亿)和 9B(90亿)两种参数规模,其中 27B 版本很快就在 LMSYS Chatbot Arena 排行榜上占据高位,在实际对话中甚至超越了参数规模是其两倍多的热门模型。

事实证明,在搞「小」模型这件事上,谷歌贯彻的路线似乎是“既然卷不死,就往死里卷”。

今日凌晨,谷歌再次最新推出了 Gemma 2 的 2B(20 亿)参数版本。据了解,这个 2B 模型在 LMSYS Chatbot Arena 测试中得分 1130,比 GPT-3.5-Turbo-0613的 1117 分和 Mixtral-8x7b 的1114 分都要高——Gemma 2 2B 几乎可谓是:同等参数规模中最强模型。

image.png

那么接下来,我们就来看看 Gemma 2 2B 究竟有何特点以及它可能会带来怎样的变化。

规模变小了,但 Gemma 2 2B 更强了

从谷歌的官方博客介绍来看,Gemma 2 2B 通过知识蒸馏技术(一种能将大规模深度学习模型的知识迁移到小规模模型中的方法),从更大规模的模型中学习,实现了超乎寻常的效果。

在 Chatbot Arena 上,Gemma 2 2B 得分超越了所有 GPT-3.5 系列模型,展现了其卓越的对话能力:

image.png

整体而言,作为一款轻量级 LLM,Gemma 2 2B 是谷歌专为在笔记本电脑和智能手机等本地设备上运行而设计的,故而其具备以下三个特点:

性能卓越:以其规模而言,它提供了同等模型中的最佳性能,也超越了同类中的其他开源模型。

灵活且经济的部署:Gemma 2 2B 可以在广泛的硬件上高效运行,从边缘设备、笔记本电脑,到依托 Vertex AI 和 Google Kubernetes Engine(GKE)的强大云部署环境。为了进一步提升速度,该模型利用 NVIDIA TensorRT-LLM 库进行了优化,并作为 NVIDIA NIM 提供。这种优化面向各种部署场景,包括数据中心、云端、本地工作站、PC 及边缘设备——利用 NVIDIA RTX、NVIDIA GeForce RTX GPU 或 NVIDIA Jetson 模块进行边缘 AI 处理。此外,Gemma 2 2B 无缝集成 Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp,并即将支持 MediaPipe,大幅简化了开发流程。

开源且易于使用:Gemma 2 2B 遵循商业友好的 Gemma 条款,适用于研究和商业应用。它体积小巧,足以在 Google Colab 的 T4 GPU 免费层上运行,让实验和开发变得更加容易。

除了 Chatbot Arena 得分,谷歌透露 Gemma 2 2B 在“大规模多任务语言理解”(Massive Multitask Language Understanding)基准测试中获得了 56.1 分,在“基本 Python 编程”(Mostly Basic Python Programming)测试中也获得了 36.6 分,相比早期 Gemma 模型得分均有所提高。

由于参数量较小,性能又很优越,相信 Gemma 2 2B 在本地运行和部署有着巨大的应用潜力——这不,苹果机器学习研究(MLR)团队研究成员 Awni Hannun 就试着在 iPhone 15 pro 上用 Gemma 2 2B 跑了一下,他的评价是:“运行得非常快。”

image.png

很显然,这些结果在一定程度上颠覆了过去 AI 领域“参数越大性能越好”的传统观点,反而证明:通过采用更复杂的训练技术、使用卓越的架构和更高质量的训练数据,就可能弥补参数数量较少的不足。

谷歌也提到,希望他们在 Gemma 2 2B 上所做的工作,能有助于推动 AI 公司开始转变,让他们不再追求建立越来越大的模型,而是专注于完善现有模型,使其表现更好,从而开发出更易于使用、对算力要求更低的 AI 模型。

据悉,即日起,开发者不仅可以从 Kaggle、Hugging Face 以及 Vertex AI Model Garden 下载 Gemma 2 的模型权重,还可以在 Google AI Studio 中体验其强大功能。

构建一个负责任的 AI 未来
除了 Gemma 2 2B,本次谷歌还发布了两种专业模型 ShieldGemma 和 Gemma Scope:

ShieldGemma:一套基于 Gemma 2 构建的安全内容过滤模型,用于过滤 AI 模型的输入和输出,确保用户安全。

Gemma Scope:一款全新的模型可解释性工具,可以前所未有的深度洞察模型内部运作。

实际上,ShieldGemma 是一组安全分类器的集合,旨在捕捉诸如仇恨言论、骚扰和性暗示内容等有害回应。ShieldGemma 建立在原始的 Gemma 2 模型之上,开发者可以用它来过滤那些诱导模型以不良方式回应的恶意提示。此外,它还可以用于过滤大型语言模型(LLMs)的实际回应。
image.png

至于 Gemma Scope 的推出,是为了给 Gemma 2 带来更大的透明度。通过聚焦 Gemma 2 模型的特定部分,Gemma Scope 可帮助开发者理解其内部工作机制:

“Gemma Scope由专门的神经网络组成,有助于我们解析 Gemma 2 处理的密集、复杂信息,并将其扩展为更易于分析和理解的形式。通过研究这些扩展视图,研究人员可以深入了解 Gemma 2 如何识别模式、处理信息并最终进行预测。”

通过发布如 Gemma 2 2B、ShieldGemma 和 Gemma Scope 这样的模型,谷歌希望能用不同的方式帮助开发者、研究人员和最终用户更好地理解和控制 AI 的行为,提供必要的工具和资源来推动 AI 技术的透明度和可解释性,构建一个 AI 能够惠及每一个人的未来。

目录
相关文章
|
7月前
|
人工智能 缓存 API
谷歌发布MediaPipe LLM Inference API,28亿参数模型本地跑
【2月更文挑战第24天】谷歌发布MediaPipe LLM Inference API,28亿参数模型本地跑
285 3
谷歌发布MediaPipe LLM Inference API,28亿参数模型本地跑
|
26天前
|
人工智能 自然语言处理
大模型在装傻!谷歌苹果最新发现:LLM知道但不告诉你,掌握知识比表现出来的多
在AI领域,大模型(LLM)展现出了惊人的进步,但在谷歌和苹果的最新研究中,发现这些模型有时会故意“装傻”,即使已知正确答案也不告知用户。这种“隐藏智慧”现象揭示了大模型可能具备超出表面表现的深层能力,对AI评估与应用提出了新挑战,同时也带来了设计更高效模型的新机遇。论文链接:https://arxiv.org/pdf/2410.02707
38 11
|
2月前
|
Shell Docker Python
LLM-02 大模型 本地部署运行 ChatGLM3-6B(13GB) 双卡2070Super8GB 环境配置 单机多卡 基于LLM-01章节 继续乘风破浪 为大模型微调做准备
LLM-02 大模型 本地部署运行 ChatGLM3-6B(13GB) 双卡2070Super8GB 环境配置 单机多卡 基于LLM-01章节 继续乘风破浪 为大模型微调做准备
74 1
|
4月前
|
人工智能 自然语言处理 测试技术
权重、代码、数据集全开源,性能超越Mistral-7B,苹果小模型来了
【8月更文挑战第12天】DCLM是由多家机构联合推出的全新测试平台,旨在通过优化数据集增强语言模型性能。其核心贡献包括一个含240万亿token的标准化语料库及有效的预训练方案。DCLM-BASELINE数据集成功训练出7B参数模型,在MMLU上5-shot准确率达64%,超越Mistral-7B,且计算成本降低40%。尽管存在局限,但该项目已全开源,为社区提供宝贵资源,推动语言模型发展。[论文链接](https://arxiv.org/pdf/2406.11794)
173 60
|
3月前
|
算法 测试技术 AI芯片
CPU反超NPU,llama.cpp生成速度翻5倍!LLM端侧部署新范式T-MAC开源
【9月更文挑战第7天】微软研究院提出了一种名为T-MAC的创新方法,旨在解决大型语言模型在资源受限的边缘设备上高效部署的问题。T-MAC通过查表法在CPU上实现低比特LLM的高效推理,支持混合精度矩阵乘法,无需解量化。其通过位级查表实现统一且可扩展的解决方案,优化数据布局和重用率,显著提升了单线程和多线程下的mpGEMV及mpGEMM性能,并在端到端推理吞吐量和能效方面表现出色。然而,表量化和快速聚合技术可能引入近似和数值误差,影响模型准确性。论文详见:[链接](https://www.arxiv.org/pdf/2407.00088)。
197 10
|
7月前
|
人工智能 自然语言处理
微软让MoE长出多个头,大幅提升专家激活率
【5月更文挑战第26天】微软研究团队为解决稀疏混合专家(SMoE)模型激活率低的问题,推出了多头混合专家(MH-MoE)模型。MH-MoE通过多头机制将输入数据划分并分配给多个专家,提高专家激活率,增强模型表达能力。实验显示,该模型在多项任务上性能显著提升,但复杂度增加可能影响训练和推理效率,且优化多头机制与专家分配仍是挑战。[链接](https://arxiv.org/pdf/2404.15045)
62 2
|
7月前
|
人工智能
苹果推出理解、转化模型ReALM,性能超GPT-4
【5月更文挑战第13天】苹果发布ReALM模型,将参考解析转化为语言建模,超越GPT-4。ReALM通过将非文本实体转为文本处理,解决了AI在处理特定问题时的局限。实验显示,ReALM在多种参考解析任务上优于GPT-3.5和GPT-4,尤其在屏幕实体参考解析上提升超5%。但模型可能因信息丢失和高计算需求带来挑战。[链接](https://arxiv.org/abs/2403.20329)
66 3
社区供稿 | XTuner发布LLaVA-Llama-3-8B,支持单卡推理,评测和微调
日前,XTuner 团队基于 meta 最新发布的 Llama-3-8B-Instruct 模型训练并发布了最新版多模态大模型 LLaVA-Llama-3-8B, 在多个评测数据集上取得显著提升。
|
7月前
|
测试技术
微软发布Phi-3,性能超Llama-3,可手机端运行
【5月更文挑战第8天】微软新发布的phi-3-mini是一款拥有38亿参数的语言模型,可在手机上运行,性能媲美GPT-3.5。通过扩展版筛选数据集和对齐训练提升效能,phi-3还包括70亿和140亿参数的变体,表现更优。此模型的出现标志了移动设备上部署大型语言模型的可能,但也面临计算资源限制和潜在偏见问题,需更多研究确保可靠性和公平性。[链接](https://arxiv.org/abs/2404.14219)
107 0
|
机器学习/深度学习 人工智能 安全
谷歌大模型云服务上线,代码生成、PaLM for Chat首次亮相
谷歌大模型云服务上线,代码生成、PaLM for Chat首次亮相
197 0
谷歌大模型云服务上线,代码生成、PaLM for Chat首次亮相

热门文章

最新文章