鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

简介: 【7月更文挑战第26天】

最近,一篇论文引起了人工智能领域的广泛关注。这篇论文由鄂维南院士领衔,提出了一种全新的大模型记忆机制,被称为"Memory3"。该研究由上海人工智能实验室的先进算法研究中心和北京大学的机器学习研究中心共同完成。

在论文中,研究人员指出,当前的大模型(LLMs)在训练和推理过程中都面临着高昂的成本。这种成本主要来自于将原始数据转化为有意义的计算所需的知识转移。为了降低这一成本,他们提出了一种基于显式记忆(explicit memory)的方法。

显式记忆是一种比模型参数和基于检索的生成(RAG)更经济的记忆格式。通过将大部分知识外部化为显式记忆,LLMs可以享受更小的参数大小、更低的训练成本和推理成本,这些都与剩余的"抽象知识"量成正比。

为了证明这一概念,研究人员从头开始训练了一个2.4B参数的LLM,该模型在性能上超过了更大的LLMs和RAG模型,同时保持了比RAG更高的解码速度。这个模型被称为Memory3,因为它是LLMs中的第三种记忆形式,前两种分别是隐式记忆(模型参数)和工作记忆(上下文键值)。

Memory3通过将文本转换为显式记忆,然后在推理过程中回忆这些记忆来工作。这些显式记忆可以被视为可检索的模型参数、外部化的知识或稀疏激活的神经回路。这种设计使得大多数现有的基于Transformer的LLMs只需进行少量微调就可以适应显式记忆,从而成为一种通用的"模型放大器"。

研究人员还引入了一种记忆电路理论来支持知识的外部化,并提出了一种新颖的记忆稀疏化机制,使存储变得可行。此外,他们还提出了一种两阶段预训练方案,以促进记忆的形成。

在性能方面,Memory3在各种基准测试中都表现出色。特别是在专业任务上,Memory3通过高频检索显式记忆实现了更好的性能,而RAG模型则使用固定数量的5个参考。然而,需要注意的是,这只是一个初步的实验,研究人员还没有优化预训练数据的质量和推理管道的效率,因此结果可能无法与最先进的模型进行比较。

在肯定Memory3的潜力的同时,我们也应该意识到它可能面临的一些挑战。首先,将知识外部化为显式记忆可能会引入额外的复杂性和开销,这可能会影响模型的效率和可扩展性。其次,Memory3的训练和推理过程可能需要更复杂的算法和硬件支持,这可能会增加实现的难度和成本。最后,Memory3的性能和适用性可能受到预训练数据的质量和多样性的限制,这可能需要进一步的研究和优化。

论文地址:https://arxiv.org/pdf/2407.01178

目录
相关文章
|
16天前
|
机器学习/深度学习 人工智能 机器人
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。
38 6
|
3月前
|
机器学习/深度学习 编译器 TensorFlow
【ASPLOS2024】RECom:通过编译器技术加速推荐模型推理,论文中选并获得荣誉奖项!
2024年5月,关于推荐模型自动编译优化的论文《RECom: A Compiler Approach to Accelerate Recommendation Model Inference with Massive Embedding Columns》在系统领域顶会ASPLOS 2024上中选并进行了展示,并被授予了Distinguished Artifact Award 荣誉,以表彰RECom的易用性与结果的可复现性。
|
3月前
|
数据采集 自然语言处理 测试技术
CMU&清华新作:让LLM自己合成数据来学习,特定任务性能同样大幅提升
【8月更文挑战第24天】近期研究提出SELF-GUIDE,一种创新方法,旨在通过大型语言模型(LLMs)自动生成特定任务数据并用于自我微调,以克服其在特定任务上的性能局限。SELF-GUIDE分为三个阶段:数据合成、模型微调及性能评估。通过向目标LLM提供适当提示生成高质量合成数据,并用于微调以提升特定任务表现。实验证明,该方法在Natural Instructions V2等多个基准测试中显著提升了分类与生成任务性能。SELF-GUIDE不仅有效提高性能,还具备高数据效率,减少对外部数据依赖。然而,生成数据质量受限于LLM能力,且并非适用于所有任务。
63 4
|
6月前
|
机器学习/深度学习 自然语言处理
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
【4月更文挑战第17天】香港中文大学(深圳)研究团队发表综述论文,探讨大型语言模型(LLMs)与强化学习(RL)结合的四条技术路线:信息处理器、奖励设计者、决策制定者和生成器。LLMs提升RL在多任务学习和样本效率,但处理复杂环境时仍有挑战。它们能设计奖励函数,但预训练知识限制在专业任务中的应用。作为决策者和生成器,LLMs提高样本效率和行为解释,但计算开销是问题。
382 1
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
|
6月前
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
165 5
|
6月前
|
机器学习/深度学习 编解码 自然语言处理
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
77 0
|
机器学习/深度学习 算法
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
130 0
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(2)
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
225 0
|
人工智能 算法 网络架构
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(1)
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
198 0
|
存储 人工智能 自然语言处理
全方位分析大模型参数高效微调,清华研究登Nature子刊(3)
全方位分析大模型参数高效微调,清华研究登Nature子刊
226 0