再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源

简介: 【2月更文挑战第15天】再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源

a2c3c4e98e48e27e4373303202f2df0a.jpeg
近年来,人工智能领域发展迅速,其中自然语言处理(NLP)技术的进步尤为引人注目。2017年提出的Transformer模型成为了NLP领域的重要技术,但其在处理长序列时存在效率问题,这激发了对更加高效的模型结构的探索。最近,Google DeepMind团队推出了两个新的模型:Griffin和Hawk,这两个模型在性能和资源效率上都取得了显著进步,为AI领域带来了新的希望和机遇。

Griffin和Hawk模型的提出是基于对Transformer模型的深入研究和改进。Transformer模型通过自注意力机制实现了对序列数据的高效处理,但在处理长序列时存在计算复杂度高的问题。为了解决这一问题,DeepMind的研究者们提出了一种新的门控线性循环层(RG-LRU),并设计了一个新的循环块来取代多查询注意力。Hawk模型混合了多层感知器和循环块,而Griffin模型则进一步混合了多层感知器、循环块和局部注意力机制。

Griffin和Hawk模型在性能测试中展现出了优异的表现。它们在多个NLP任务上超越了备受关注的Mamba模型,并且在资源消耗上更加高效。例如,在held-out损失和训练FLOPs之间,这两个新模型表现出了幂律缩放,最高可以达到7B参数。Griffin模型在所有模型规模上实现了比强大Transformer基线略低的held-out损失。在下游任务的性能上,Hawk-3B模型超越了Mamba-3B,尽管其训练的tokens数量只有后者的一半。Griffin-7B和Griffin-14B的性能与Llama-2相当,尽管训练的tokens数量只有后者的1/7。

Hawk和Griffin模型在TPU-v3上的训练效率与Transformers相当。在推理过程中,这两个模型实现了比MQA Transformer更高的吞吐量,并在采样长序列时实现了更低的延迟。当评估的序列比训练中观察到的更长时,Griffin的表现比Transformers更好,并且可以有效地从训练数据中学习复制和检索任务。

Griffin和Hawk模型在性能和资源效率上都取得了显著进步,为AI领域提供了新的研究方向和技术选择。这些新模型不仅在理论上具有创新性,而且在实际应用中也展现出了巨大的潜力。随着人工智能技术的不断发展,我们有理由期待这些模型将在未来为各种应用场景带来更加优秀的表现,推动人工智能技术的进一步发展。

目录
相关文章
|
人工智能 自然语言处理 API
Google Gemma 模型服务:开放的生成式 AI 模型服务
Google Gemma 模型服务:开放的生成式 AI 模型服务
589 4
|
定位技术 TensorFlow API
Google Earth Engine (GEE)——张量流水灾模型数据集(Sentinel-1)
Google Earth Engine (GEE)——张量流水灾模型数据集(Sentinel-1)
541 0
|
编解码 数据可视化 定位技术
Google Earth Engine(GEE)——NOAA海平面上升数字高程模型(DEMs)
Google Earth Engine(GEE)——NOAA海平面上升数字高程模型(DEMs)
309 1
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
830 0
|
9月前
|
存储 人工智能 前端开发
Google揭秘Agent架构三大核心:工具、模型与编排层实战指南
本文为Google发布的Agent白皮书全文翻译。本文揭示了智能体如何突破传统AI边界,通过模型、工具与编排层的三位一体架构,实现自主推理与现实交互。它不仅详解了ReAct、思维树等认知框架的运作逻辑,更通过航班预订、旅行规划等案例,展示了智能体如何调用Extensions、Functions和Data Stores,将抽象指令转化为真实世界操作。文中提出的“智能体链式组合”概念,预示了未来多智能体协作解决复杂问题的革命性潜力——这不仅是技术升级,更是AI赋能产业的范式颠覆。
2845 1
|
人工智能 边缘计算 自然语言处理
Google 发布其开源模型系列最新模型 Gemma 3
Google 发布了其开源模型系列的最新成员 Gemma 3,这是一款轻量级、高性能的 AI 模型,支持多语言和复杂任务。它具备 140+ 语言支持、128K-token 上下文窗口、增强的多模态分析能力以及函数调用功能,适用于聊天 AI、代码生成等多种场景。Gemma 3 在性能上超越 Llama 3-8B 和 Mistral 7B,且仅需单 GPU 即可运行,大幅降低计算成本。提供 1B 至 27B 不同参数规模版本,满足多样化需求,并优化了量化模型以适应边缘计算和移动设备。其多模态设计整合了 SigLIP 图像编码器,扩展上下文窗口至 128k token,显著提升了视觉和文本理解能力。
946 3
Google 发布其开源模型系列最新模型 Gemma 3
|
运维 监控 Serverless
一键开启 GPU 闲置模式,基于函数计算低成本部署 Google Gemma 模型服务
本文介绍如何使用函数计算 GPU 实例闲置模式低成本、快速的部署 Google Gemma 模型服务。
165378 58
|
人工智能 自然语言处理 机器人
[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建
探索谷歌最新的生成媒体模型:用于高分辨率视频生成的 Veo 和用于卓越文本生成图像能力的 Imagen 3。还可以了解使用 Music AI Sandbox 创作的新演示录音。
[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建
|
编解码 人工智能 算法
Google Earth Engine(GEE)——高度可扩展的时间自适应反射率融合模型(HISTARFM)数据库
Google Earth Engine(GEE)——高度可扩展的时间自适应反射率融合模型(HISTARFM)数据库
303 0
|
编解码
Google Earth Engine(GEE)——加拿大高分辨率数字高程模型(HRDEM)
Google Earth Engine(GEE)——加拿大高分辨率数字高程模型(HRDEM)
191 0

热门文章

最新文章

推荐镜像

更多