近年来,人工智能领域发展迅速,其中自然语言处理(NLP)技术的进步尤为引人注目。2017年提出的Transformer模型成为了NLP领域的重要技术,但其在处理长序列时存在效率问题,这激发了对更加高效的模型结构的探索。最近,Google DeepMind团队推出了两个新的模型:Griffin和Hawk,这两个模型在性能和资源效率上都取得了显著进步,为AI领域带来了新的希望和机遇。
Griffin和Hawk模型的提出是基于对Transformer模型的深入研究和改进。Transformer模型通过自注意力机制实现了对序列数据的高效处理,但在处理长序列时存在计算复杂度高的问题。为了解决这一问题,DeepMind的研究者们提出了一种新的门控线性循环层(RG-LRU),并设计了一个新的循环块来取代多查询注意力。Hawk模型混合了多层感知器和循环块,而Griffin模型则进一步混合了多层感知器、循环块和局部注意力机制。
Griffin和Hawk模型在性能测试中展现出了优异的表现。它们在多个NLP任务上超越了备受关注的Mamba模型,并且在资源消耗上更加高效。例如,在held-out损失和训练FLOPs之间,这两个新模型表现出了幂律缩放,最高可以达到7B参数。Griffin模型在所有模型规模上实现了比强大Transformer基线略低的held-out损失。在下游任务的性能上,Hawk-3B模型超越了Mamba-3B,尽管其训练的tokens数量只有后者的一半。Griffin-7B和Griffin-14B的性能与Llama-2相当,尽管训练的tokens数量只有后者的1/7。
Hawk和Griffin模型在TPU-v3上的训练效率与Transformers相当。在推理过程中,这两个模型实现了比MQA Transformer更高的吞吐量,并在采样长序列时实现了更低的延迟。当评估的序列比训练中观察到的更长时,Griffin的表现比Transformers更好,并且可以有效地从训练数据中学习复制和检索任务。
Griffin和Hawk模型在性能和资源效率上都取得了显著进步,为AI领域提供了新的研究方向和技术选择。这些新模型不仅在理论上具有创新性,而且在实际应用中也展现出了巨大的潜力。随着人工智能技术的不断发展,我们有理由期待这些模型将在未来为各种应用场景带来更加优秀的表现,推动人工智能技术的进一步发展。