再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源

简介: 【2月更文挑战第15天】再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源

a2c3c4e98e48e27e4373303202f2df0a.jpeg
近年来,人工智能领域发展迅速,其中自然语言处理(NLP)技术的进步尤为引人注目。2017年提出的Transformer模型成为了NLP领域的重要技术,但其在处理长序列时存在效率问题,这激发了对更加高效的模型结构的探索。最近,Google DeepMind团队推出了两个新的模型:Griffin和Hawk,这两个模型在性能和资源效率上都取得了显著进步,为AI领域带来了新的希望和机遇。

Griffin和Hawk模型的提出是基于对Transformer模型的深入研究和改进。Transformer模型通过自注意力机制实现了对序列数据的高效处理,但在处理长序列时存在计算复杂度高的问题。为了解决这一问题,DeepMind的研究者们提出了一种新的门控线性循环层(RG-LRU),并设计了一个新的循环块来取代多查询注意力。Hawk模型混合了多层感知器和循环块,而Griffin模型则进一步混合了多层感知器、循环块和局部注意力机制。

Griffin和Hawk模型在性能测试中展现出了优异的表现。它们在多个NLP任务上超越了备受关注的Mamba模型,并且在资源消耗上更加高效。例如,在held-out损失和训练FLOPs之间,这两个新模型表现出了幂律缩放,最高可以达到7B参数。Griffin模型在所有模型规模上实现了比强大Transformer基线略低的held-out损失。在下游任务的性能上,Hawk-3B模型超越了Mamba-3B,尽管其训练的tokens数量只有后者的一半。Griffin-7B和Griffin-14B的性能与Llama-2相当,尽管训练的tokens数量只有后者的1/7。

Hawk和Griffin模型在TPU-v3上的训练效率与Transformers相当。在推理过程中,这两个模型实现了比MQA Transformer更高的吞吐量,并在采样长序列时实现了更低的延迟。当评估的序列比训练中观察到的更长时,Griffin的表现比Transformers更好,并且可以有效地从训练数据中学习复制和检索任务。

Griffin和Hawk模型在性能和资源效率上都取得了显著进步,为AI领域提供了新的研究方向和技术选择。这些新模型不仅在理论上具有创新性,而且在实际应用中也展现出了巨大的潜力。随着人工智能技术的不断发展,我们有理由期待这些模型将在未来为各种应用场景带来更加优秀的表现,推动人工智能技术的进一步发展。

目录
相关文章
|
13天前
|
人工智能 自然语言处理 API
Google Gemma 模型服务:开放的生成式 AI 模型服务
Google Gemma 模型服务:开放的生成式 AI 模型服务
120 4
|
13天前
|
定位技术 TensorFlow API
Google Earth Engine (GEE)——张量流水灾模型数据集(Sentinel-1)
Google Earth Engine (GEE)——张量流水灾模型数据集(Sentinel-1)
68 0
|
13天前
|
编解码 数据可视化 定位技术
Google Earth Engine(GEE)——NOAA海平面上升数字高程模型(DEMs)
Google Earth Engine(GEE)——NOAA海平面上升数字高程模型(DEMs)
73 1
|
13天前
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
123 0
|
13天前
|
编解码 人工智能 算法
Google Earth Engine(GEE)——高度可扩展的时间自适应反射率融合模型(HISTARFM)数据库
Google Earth Engine(GEE)——高度可扩展的时间自适应反射率融合模型(HISTARFM)数据库
60 0
|
13天前
|
编解码
Google Earth Engine(GEE)——加拿大高分辨率数字高程模型(HRDEM)
Google Earth Engine(GEE)——加拿大高分辨率数字高程模型(HRDEM)
41 0
|
13天前
|
API
Google Earth Engine(GEE)——全球哥白尼数字高程模型(GLO-30 DEM)
Google Earth Engine(GEE)——全球哥白尼数字高程模型(GLO-30 DEM)
84 0
|
编解码 计算机视觉
详细解读 | Google与Waymo教你如何更好的训练目标检测模型!!!(附论文)(二)
详细解读 | Google与Waymo教你如何更好的训练目标检测模型!!!(附论文)(二)
83 0
|
编解码 计算机视觉 异构计算
详细解读 | Google与Waymo教你如何更好的训练目标检测模型!!!(附论文)(一)
详细解读 | Google与Waymo教你如何更好的训练目标检测模型!!!(附论文)(一)
141 0
|
机器学习/深度学习 编解码 计算机视觉
详细解读Google新作 | 教你How to train自己的Transfomer模型?
详细解读Google新作 | 教你How to train自己的Transfomer模型?
162 0

热门文章

最新文章