再超Transformer！Google提出两个新模型(Griffin、Hawk)，强于Mamba，更省资源-阿里云开发者社区

再超Transformer！Google提出两个新模型(Griffin、Hawk)，强于Mamba，更省资源

2024-03-06 268

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP 自学习平台，3个模型定制额度 1个月

NLP自然语言处理_高级版，每接口累计50万次

NLP自然语言处理_基础版，每接口每天50万次

简介： 【2月更文挑战第15天】再超Transformer！Google提出两个新模型(Griffin、Hawk)，强于Mamba，更省资源

近年来，人工智能领域发展迅速，其中自然语言处理（NLP）技术的进步尤为引人注目。2017年提出的Transformer模型成为了NLP领域的重要技术，但其在处理长序列时存在效率问题，这激发了对更加高效的模型结构的探索。最近，Google DeepMind团队推出了两个新的模型：Griffin和Hawk，这两个模型在性能和资源效率上都取得了显著进步，为AI领域带来了新的希望和机遇。

Griffin和Hawk模型的提出是基于对Transformer模型的深入研究和改进。Transformer模型通过自注意力机制实现了对序列数据的高效处理，但在处理长序列时存在计算复杂度高的问题。为了解决这一问题，DeepMind的研究者们提出了一种新的门控线性循环层（RG-LRU），并设计了一个新的循环块来取代多查询注意力。Hawk模型混合了多层感知器和循环块，而Griffin模型则进一步混合了多层感知器、循环块和局部注意力机制。

Griffin和Hawk模型在性能测试中展现出了优异的表现。它们在多个NLP任务上超越了备受关注的Mamba模型，并且在资源消耗上更加高效。例如，在held-out损失和训练FLOPs之间，这两个新模型表现出了幂律缩放，最高可以达到7B参数。Griffin模型在所有模型规模上实现了比强大Transformer基线略低的held-out损失。在下游任务的性能上，Hawk-3B模型超越了Mamba-3B，尽管其训练的tokens数量只有后者的一半。Griffin-7B和Griffin-14B的性能与Llama-2相当，尽管训练的tokens数量只有后者的1/7。

Hawk和Griffin模型在TPU-v3上的训练效率与Transformers相当。在推理过程中，这两个模型实现了比MQA Transformer更高的吞吐量，并在采样长序列时实现了更低的延迟。当评估的序列比训练中观察到的更长时，Griffin的表现比Transformers更好，并且可以有效地从训练数据中学习复制和检索任务。

Griffin和Hawk模型在性能和资源效率上都取得了显著进步，为AI领域提供了新的研究方向和技术选择。这些新模型不仅在理论上具有创新性，而且在实际应用中也展现出了巨大的潜力。随着人工智能技术的不断发展，我们有理由期待这些模型将在未来为各种应用场景带来更加优秀的表现，推动人工智能技术的进一步发展。

再超Transformer！Google提出两个新模型(Griffin、Hawk)，强于Mamba，更省资源

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

再超Transformer！Google提出两个新模型(Griffin、Hawk)，强于Mamba，更省资源

热门文章

最新文章

相关课程

相关电子书

相关实验场景