Griffin模型的主要架构和特点

简介: 【2月更文挑战第16天】Griffin模型的主要架构和特点

c36118ce010014dba263f0c2e4f3c2dd.jpeg
去年 12 月,新架构 Mamba 引爆了 AI 圈,向屹立不倒的 Transformer 发起了挑战。如今,谷歌 DeepMind Hawk 和 Griffin 的推出为 AI 圈提供了新的选择。

Griffin模型是一种高效的语言模型,它结合了门控线性递归(Gated Linear Recurrences)和局部注意力(Local Attention)机制。这种混合模型旨在提高语言模型在处理长序列时的性能,同时保持与Transformer模型相当的硬件效率。

Griffin模型包含三个关键组件:残差块(Residual Block)、MLP块(MLP Block)和时间混合块(Temporal-Mixing Block)。其中,时间混合块是模型的核心部分,它聚合了序列中不同时间位置的隐藏层激活。Griffin模型采用了三种时间混合块:全局多查询注意力(Global Multi-Query Attention, MQA)、局部MQA和提出的递归块。递归块是Griffin模型的创新之处,它使用了Real-Gated Linear Recurrent Unit(RG-LRU)层,这是一种新型的递归层,受到线性递归单元(Linear Recurrent Unit, LRU)的启发。

RG-LRU层是Griffin模型的核心,它结合了简单的递归结构和门控机制,灵感来源于非线性RNN,特别是LSTM(Long Short-Term Memory)和GRU(Gated Recurrent Unit)。RG-LRU层的输出是递归权重的对角化形式,所有操作都是元素级的,这保证了模型的稳定性和高效性。该层的门控机制允许模型在保持历史信息的同时,减少无关输入的影响,从而实现超指数级记忆。

Griffin模型结合了局部注意力机制,这种机制允许每个位置只关注过去的固定数量的标记,从而降低了计算复杂度,并限制了KV缓存的大小。局部注意力与递归块的结合使得模型能够有效地处理长序列,同时保持了固定大小的隐藏状态。

Griffin模型在训练时与Transformer模型具有可比的硬件效率,尤其是在使用TPU-v3硬件时。为了提高训练效率,Griffin模型采用了特定的内核实现,最小化了内存传输。

在推理阶段,Griffin模型实现了比MQA Transformer更低的延迟和显著更高的吞吐量,尤其是在处理长序列时。Griffin模型在处理比训练时更长的序列时表现更好,能够有效地学习复制和检索任务。

Griffin模型能够扩展到14B(140亿)参数,这表明模型具有良好的扩展性。为了实现高效的分布式训练,Griffin模型支持模型分片(sharding)。

Griffin模型在下游任务上的表现与Llama-2模型相当,尽管训练时使用的标记数量大约只有Llama-2的七分之一。Griffin模型在处理长序列时能够外推,即在训练序列长度之外的序列上也能准确预测下一个标记。

Griffin模型的研究与Transformer架构、状态空间模型(SSMs)、线性注意力等现有技术有关,这些技术都在寻求提高语言模型在处理长序列时的效率和性能。

Griffin模型提供了一种强大且高效的替代Transformer模型的方法,特别是在处理长序列和保持硬件效率方面。Griffin模型的这些特点使其在语言建模领域具有潜在的应用价值,尤其是在需要处理长序列数据的场景中。通过结合门控线性递归和局部注意力,Griffin模型在保持模型性能的同时,显著提高了训练和推理的效率。

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 监控
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
大型动作模型(LAMs)作为人工智能新架构,融合神经网络与符号逻辑,实现企业重复任务的自动化处理。通过神经符号集成、动作执行管道、模式学习、任务分解等核心技术,系统可高效解析用户意图并执行复杂操作,显著提升企业运营效率并降低人工成本。其自适应学习能力与上下文感知机制,使自动化流程更智能、灵活,为企业数字化转型提供坚实支撑。
177 0
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
|
3月前
|
存储 BI Shell
Doris基础-架构、数据模型、数据划分
Apache Doris 是一款高性能、实时分析型数据库,基于MPP架构,支持高并发查询与复杂分析。其前身是百度的Palo项目,现为Apache顶级项目。Doris适用于报表分析、数据仓库构建、日志检索等场景,具备存算一体与存算分离两种架构,灵活适应不同业务需求。它提供主键、明细和聚合三种数据模型,便于高效处理更新、存储与统计汇总操作,广泛应用于大数据分析领域。
383 2
|
17天前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
88 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
5月前
|
人工智能 负载均衡 API
长连接网关技术专题(十二):大模型时代多模型AI网关的架构设计与实现
随着 AI 技术快速发展,业务对 AI 能力的渴求日益增长。当 AI 服务面对处理大规模请求和高并发流量时,AI 网关从中扮演着至关重要的角色。AI 服务通常涉及大量的计算任务和设备资源占用,此时需要一个 AI 网关负责协调这些请求来确保系统的稳定性与高效性。因此,与传统微服务架构类似,我们将相关 API 管理的功能(如流量控制、用户鉴权、配额计费、负载均衡、API 路由等)集中放置在 AI 网关层,可以降低系统整体复杂度并提升可维护性。 本文要分享的是B站在大模型时代基于多模型AI的网关架构设计和实践总结,希望能带给你启发。
351 4
|
5月前
|
人工智能 缓存 自然语言处理
Bolt DIY架构揭秘:从模型初始化到响应生成的技术之旅
在使用Bolt DIY或类似的AI对话应用时,你是否曾好奇过从输入提示词到获得回答的整个过程是如何运作的?当你点击发送按钮那一刻,背后究竟发生了什么?本文将揭开这一过程的神秘面纱,深入浅出地解析AI对话系统的核心技术架构。
|
6月前
|
人工智能 算法 网络安全
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
|
5月前
|
机器学习/深度学习 人工智能 算法
大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
该研究系统梳理了大型多模态推理模型(LMRMs)的技术发展,从早期模块化架构到统一的语言中心框架,提出原生LMRMs(N-LMRMs)的前沿概念。论文划分三个技术演进阶段及一个前瞻性范式,深入探讨关键挑战与评估基准,为构建复杂动态环境中的稳健AI系统提供理论框架。未来方向聚焦全模态泛化、深度推理与智能体行为,推动跨模态融合与自主交互能力的发展。
297 13
大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
|
3月前
|
人工智能 监控 API
MCP中台,究竟如何实现多模型、多渠道、多环境的统一管控?如何以MCP为核心设计AI应用架构?
本文产品专家三桥君探讨了以 MCP 为核心的 AI 应用架构设计,从统一接入、数据管理、服务编排到部署策略等维度,系统化分析了 AI 落地的关键环节。重点介绍了 API 网关的多终端适配、数据异步处理流程、LLM 服务的灰度发布与 Fallback 机制,以及 MCP Server 作为核心枢纽的调度功能。同时对比了公有云 API、私有化 GPU 和无服务器部署的适用场景,强调通过全链路监控与智能告警保障系统稳定性。该架构为企业高效整合 AI 能力提供了实践路径,平衡性能、成本与灵活性需求。
198 0
|
4月前
|
存储 人工智能 前端开发
Google揭秘Agent架构三大核心:工具、模型与编排层实战指南
本文为Google发布的Agent白皮书全文翻译。本文揭示了智能体如何突破传统AI边界,通过模型、工具与编排层的三位一体架构,实现自主推理与现实交互。它不仅详解了ReAct、思维树等认知框架的运作逻辑,更通过航班预订、旅行规划等案例,展示了智能体如何调用Extensions、Functions和Data Stores,将抽象指令转化为真实世界操作。文中提出的“智能体链式组合”概念,预示了未来多智能体协作解决复杂问题的革命性潜力——这不仅是技术升级,更是AI赋能产业的范式颠覆。
1219 1
|
6月前
|
存储 人工智能 自然语言处理
Cursor这类编程Agent软件的模型架构与工作流程
编程Agent的核心是一个强大的大语言模型,负责理解用户意图并生成相应的代码和解决方案。这些模型通过海量文本和代码数据的训练,掌握了广泛的编程知识和语言理解能力。
495 1