再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: 【2月更文挑战第15天】再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源

a2c3c4e98e48e27e4373303202f2df0a.jpeg
近年来,人工智能领域发展迅速,其中自然语言处理(NLP)技术的进步尤为引人注目。2017年提出的Transformer模型成为了NLP领域的重要技术,但其在处理长序列时存在效率问题,这激发了对更加高效的模型结构的探索。最近,Google DeepMind团队推出了两个新的模型:Griffin和Hawk,这两个模型在性能和资源效率上都取得了显著进步,为AI领域带来了新的希望和机遇。

Griffin和Hawk模型的提出是基于对Transformer模型的深入研究和改进。Transformer模型通过自注意力机制实现了对序列数据的高效处理,但在处理长序列时存在计算复杂度高的问题。为了解决这一问题,DeepMind的研究者们提出了一种新的门控线性循环层(RG-LRU),并设计了一个新的循环块来取代多查询注意力。Hawk模型混合了多层感知器和循环块,而Griffin模型则进一步混合了多层感知器、循环块和局部注意力机制。

Griffin和Hawk模型在性能测试中展现出了优异的表现。它们在多个NLP任务上超越了备受关注的Mamba模型,并且在资源消耗上更加高效。例如,在held-out损失和训练FLOPs之间,这两个新模型表现出了幂律缩放,最高可以达到7B参数。Griffin模型在所有模型规模上实现了比强大Transformer基线略低的held-out损失。在下游任务的性能上,Hawk-3B模型超越了Mamba-3B,尽管其训练的tokens数量只有后者的一半。Griffin-7B和Griffin-14B的性能与Llama-2相当,尽管训练的tokens数量只有后者的1/7。

Hawk和Griffin模型在TPU-v3上的训练效率与Transformers相当。在推理过程中,这两个模型实现了比MQA Transformer更高的吞吐量,并在采样长序列时实现了更低的延迟。当评估的序列比训练中观察到的更长时,Griffin的表现比Transformers更好,并且可以有效地从训练数据中学习复制和检索任务。

Griffin和Hawk模型在性能和资源效率上都取得了显著进步,为AI领域提供了新的研究方向和技术选择。这些新模型不仅在理论上具有创新性,而且在实际应用中也展现出了巨大的潜力。随着人工智能技术的不断发展,我们有理由期待这些模型将在未来为各种应用场景带来更加优秀的表现,推动人工智能技术的进一步发展。

目录
相关文章
|
6月前
|
人工智能 自然语言处理 API
Google Gemma 模型服务:开放的生成式 AI 模型服务
Google Gemma 模型服务:开放的生成式 AI 模型服务
206 4
|
6月前
|
定位技术 TensorFlow API
Google Earth Engine (GEE)——张量流水灾模型数据集(Sentinel-1)
Google Earth Engine (GEE)——张量流水灾模型数据集(Sentinel-1)
147 0
|
6月前
|
编解码 数据可视化 定位技术
Google Earth Engine(GEE)——NOAA海平面上升数字高程模型(DEMs)
Google Earth Engine(GEE)——NOAA海平面上升数字高程模型(DEMs)
117 1
|
6月前
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
217 0
|
5月前
|
人工智能 自然语言处理 机器人
[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建
探索谷歌最新的生成媒体模型:用于高分辨率视频生成的 Veo 和用于卓越文本生成图像能力的 Imagen 3。还可以了解使用 Music AI Sandbox 创作的新演示录音。
[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建
|
6月前
|
运维 监控 Serverless
一键开启 GPU 闲置模式,基于函数计算低成本部署 Google Gemma 模型服务
本文介绍如何使用函数计算 GPU 实例闲置模式低成本、快速的部署 Google Gemma 模型服务。
164978 58
|
6月前
|
编解码 人工智能 算法
Google Earth Engine(GEE)——高度可扩展的时间自适应反射率融合模型(HISTARFM)数据库
Google Earth Engine(GEE)——高度可扩展的时间自适应反射率融合模型(HISTARFM)数据库
98 0
|
6月前
|
编解码
Google Earth Engine(GEE)——加拿大高分辨率数字高程模型(HRDEM)
Google Earth Engine(GEE)——加拿大高分辨率数字高程模型(HRDEM)
65 0
|
6月前
|
API
Google Earth Engine(GEE)——全球哥白尼数字高程模型(GLO-30 DEM)
Google Earth Engine(GEE)——全球哥白尼数字高程模型(GLO-30 DEM)
284 0
|
6月前
|
JavaScript 前端开发 定位技术
如何正确学习GEE(Google Earth Engine)?含学习资源链接
如何正确学习GEE(Google Earth Engine)?含学习资源链接
586 0