Griffin模型的主要架构和特点

简介: 【2月更文挑战第16天】Griffin模型的主要架构和特点

c36118ce010014dba263f0c2e4f3c2dd.jpeg
去年 12 月,新架构 Mamba 引爆了 AI 圈,向屹立不倒的 Transformer 发起了挑战。如今,谷歌 DeepMind Hawk 和 Griffin 的推出为 AI 圈提供了新的选择。

Griffin模型是一种高效的语言模型,它结合了门控线性递归(Gated Linear Recurrences)和局部注意力(Local Attention)机制。这种混合模型旨在提高语言模型在处理长序列时的性能,同时保持与Transformer模型相当的硬件效率。

Griffin模型包含三个关键组件:残差块(Residual Block)、MLP块(MLP Block)和时间混合块(Temporal-Mixing Block)。其中,时间混合块是模型的核心部分,它聚合了序列中不同时间位置的隐藏层激活。Griffin模型采用了三种时间混合块:全局多查询注意力(Global Multi-Query Attention, MQA)、局部MQA和提出的递归块。递归块是Griffin模型的创新之处,它使用了Real-Gated Linear Recurrent Unit(RG-LRU)层,这是一种新型的递归层,受到线性递归单元(Linear Recurrent Unit, LRU)的启发。

RG-LRU层是Griffin模型的核心,它结合了简单的递归结构和门控机制,灵感来源于非线性RNN,特别是LSTM(Long Short-Term Memory)和GRU(Gated Recurrent Unit)。RG-LRU层的输出是递归权重的对角化形式,所有操作都是元素级的,这保证了模型的稳定性和高效性。该层的门控机制允许模型在保持历史信息的同时,减少无关输入的影响,从而实现超指数级记忆。

Griffin模型结合了局部注意力机制,这种机制允许每个位置只关注过去的固定数量的标记,从而降低了计算复杂度,并限制了KV缓存的大小。局部注意力与递归块的结合使得模型能够有效地处理长序列,同时保持了固定大小的隐藏状态。

Griffin模型在训练时与Transformer模型具有可比的硬件效率,尤其是在使用TPU-v3硬件时。为了提高训练效率,Griffin模型采用了特定的内核实现,最小化了内存传输。

在推理阶段,Griffin模型实现了比MQA Transformer更低的延迟和显著更高的吞吐量,尤其是在处理长序列时。Griffin模型在处理比训练时更长的序列时表现更好,能够有效地学习复制和检索任务。

Griffin模型能够扩展到14B(140亿)参数,这表明模型具有良好的扩展性。为了实现高效的分布式训练,Griffin模型支持模型分片(sharding)。

Griffin模型在下游任务上的表现与Llama-2模型相当,尽管训练时使用的标记数量大约只有Llama-2的七分之一。Griffin模型在处理长序列时能够外推,即在训练序列长度之外的序列上也能准确预测下一个标记。

Griffin模型的研究与Transformer架构、状态空间模型(SSMs)、线性注意力等现有技术有关,这些技术都在寻求提高语言模型在处理长序列时的效率和性能。

Griffin模型提供了一种强大且高效的替代Transformer模型的方法,特别是在处理长序列和保持硬件效率方面。Griffin模型的这些特点使其在语言建模领域具有潜在的应用价值,尤其是在需要处理长序列数据的场景中。通过结合门控线性递归和局部注意力,Griffin模型在保持模型性能的同时,显著提高了训练和推理的效率。

目录
相关文章
|
25天前
|
机器学习/深度学习 自然语言处理 分布式计算
大规模语言模型与生成模型:技术原理、架构与应用
本文深入探讨了大规模语言模型(LLMs)和生成模型的技术原理、经典架构及应用。介绍了LLMs的关键特点,如海量数据训练、深层架构和自监督学习,以及常见模型如GPT、BERT和T5。同时,文章详细解析了生成模型的工作原理,包括自回归模型、自编码器和GANs,并讨论了这些模型在自然语言生成、机器翻译、对话系统和数据增强等领域的应用。最后,文章展望了未来的发展趋势,如模型压缩、跨模态生成和多语言多任务学习。
101 3
|
2月前
|
存储 分布式计算 API
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
97 0
|
9天前
|
机器学习/深度学习 测试技术 定位技术
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
近期,一篇题为“OmniGen: Unified Image Generation”的论文介绍了一种新型扩散模型OmniGen,旨在统一图像生成任务。OmniGen架构简洁,无需额外模块即可处理多种任务,如文本到图像生成、图像编辑等。该模型通过修正流优化,展现出与现有模型相当或更优的性能,尤其在图像编辑和视觉条件生成方面表现突出。OmniGen仅含3.8亿参数,却能有效处理复杂任务,简化工作流程。尽管如此,OmniGen仍存在对文本提示敏感、文本渲染能力有限等问题,未来研究将继续优化其架构与功能。
38 16
|
1月前
|
机器学习/深度学习 自然语言处理 C++
TSMamba:基于Mamba架构的高效时间序列预测基础模型
TSMamba通过其创新的架构设计和训练策略,成功解决了传统时间序列预测模型面临的多个关键问题。
119 4
TSMamba:基于Mamba架构的高效时间序列预测基础模型
|
22天前
|
网络协议 网络架构
TCP/IP协议架构:四层模型详解
在网络通信的世界里,TCP/IP协议栈是构建现代互联网的基础。本文将深入探讨TCP/IP协议涉及的四层架构,以及每一层的关键功能和作用。
110 5
|
23天前
|
机器学习/深度学习 存储 人工智能
【AI系统】模型演进与经典架构
本文探讨了AI计算模式对AI芯片设计的重要性,通过分析经典模型结构设计与演进、模型量化与压缩等核心内容,揭示了神经网络模型的发展现状及优化方向。文章详细介绍了神经网络的基本组件、主流模型结构、以及模型量化和剪枝技术,强调了这些技术在提高模型效率、降低计算和存储需求方面的关键作用。基于此,提出了AI芯片设计应考虑支持神经网络计算逻辑、高维张量存储与计算、灵活的软件配置接口、不同bit位数的计算单元和存储格式等建议,以适应不断发展的AI技术需求。
30 5
|
2月前
|
机器学习/深度学习 网络架构 计算机视觉
目标检测笔记(一):不同模型的网络架构介绍和代码
这篇文章介绍了ShuffleNetV2网络架构及其代码实现,包括模型结构、代码细节和不同版本的模型。ShuffleNetV2是一个高效的卷积神经网络,适用于深度学习中的目标检测任务。
97 1
目标检测笔记(一):不同模型的网络架构介绍和代码
|
3月前
|
机器学习/深度学习
ACM MM24:复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它
【9月更文挑战第23天】复旦大学研究团队提出了ReToMe-VA,一种基于扩散模型的视频非限制性对抗攻击框架,通过时间步长对抗性潜在优化(TALO)与递归令牌合并(ReToMe)策略,实现了高转移性且难以察觉的对抗性视频生成。TALO优化去噪步骤扰动,提升空间难以察觉性及计算效率;ReToMe则确保时间一致性,增强帧间交互。实验表明,ReToMe-VA在攻击转移性上超越现有方法,但面临计算成本高、实时应用受限及隐私安全等挑战。[论文链接](http://arxiv.org/abs/2408.05479)
84 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
|
3月前
|
机器学习/深度学习 数据采集
详解Diffusion扩散模型:理论、架构与实现
【9月更文挑战第23天】扩散模型(Diffusion Models)是一类基于随机过程的深度学习模型,通过逐步加噪和去噪实现图像生成,在此领域表现优异。模型分正向扩散和反向生成两阶段:前者从真实数据加入噪声至完全噪音,后者则学习从噪声中恢复数据,经由反向过程逐步还原生成清晰图像。其主要架构采用U-net神经网络,实现过程中需数据预处理及高斯噪声添加等步骤,最终通过模型逆向扩散生成新数据,具有广泛应用前景。
115 0
下一篇
DataWorks