鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

简介: 【7月更文挑战第26天】

最近,一篇论文引起了人工智能领域的广泛关注。这篇论文由鄂维南院士领衔,提出了一种全新的大模型记忆机制,被称为"Memory3"。该研究由上海人工智能实验室的先进算法研究中心和北京大学的机器学习研究中心共同完成。

在论文中,研究人员指出,当前的大模型(LLMs)在训练和推理过程中都面临着高昂的成本。这种成本主要来自于将原始数据转化为有意义的计算所需的知识转移。为了降低这一成本,他们提出了一种基于显式记忆(explicit memory)的方法。

显式记忆是一种比模型参数和基于检索的生成(RAG)更经济的记忆格式。通过将大部分知识外部化为显式记忆,LLMs可以享受更小的参数大小、更低的训练成本和推理成本,这些都与剩余的"抽象知识"量成正比。

为了证明这一概念,研究人员从头开始训练了一个2.4B参数的LLM,该模型在性能上超过了更大的LLMs和RAG模型,同时保持了比RAG更高的解码速度。这个模型被称为Memory3,因为它是LLMs中的第三种记忆形式,前两种分别是隐式记忆(模型参数)和工作记忆(上下文键值)。

Memory3通过将文本转换为显式记忆,然后在推理过程中回忆这些记忆来工作。这些显式记忆可以被视为可检索的模型参数、外部化的知识或稀疏激活的神经回路。这种设计使得大多数现有的基于Transformer的LLMs只需进行少量微调就可以适应显式记忆,从而成为一种通用的"模型放大器"。

研究人员还引入了一种记忆电路理论来支持知识的外部化,并提出了一种新颖的记忆稀疏化机制,使存储变得可行。此外,他们还提出了一种两阶段预训练方案,以促进记忆的形成。

在性能方面,Memory3在各种基准测试中都表现出色。特别是在专业任务上,Memory3通过高频检索显式记忆实现了更好的性能,而RAG模型则使用固定数量的5个参考。然而,需要注意的是,这只是一个初步的实验,研究人员还没有优化预训练数据的质量和推理管道的效率,因此结果可能无法与最先进的模型进行比较。

在肯定Memory3的潜力的同时,我们也应该意识到它可能面临的一些挑战。首先,将知识外部化为显式记忆可能会引入额外的复杂性和开销,这可能会影响模型的效率和可扩展性。其次,Memory3的训练和推理过程可能需要更复杂的算法和硬件支持,这可能会增加实现的难度和成本。最后,Memory3的性能和适用性可能受到预训练数据的质量和多样性的限制,这可能需要进一步的研究和优化。

论文地址:https://arxiv.org/pdf/2407.01178

目录
相关文章
|
8月前
|
机器学习/深度学习 人工智能 算法
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
【4月更文挑战第12天】斯坦福大学研究团队在Nature子刊发表论文,展示人工智能如何从300亿个分子中筛选出6种新型抗生素候选分子,为抗药性问题提供新解决方案。利用深度学习算法,AI模型考虑化学结构及合成可行性,发现独特化合物,加速药物研发。然而,成功应用还需临床试验验证及克服安全性和耐药性挑战。AI技术在药物设计中的角色引起关注,强调平衡使用与基础科学研究的重要性。
66 1
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
|
3月前
|
机器学习/深度学习 自然语言处理 测试技术
CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用
【10月更文挑战第17天】链式思维(CoT)曾被认为是大型语言模型(LLM)激发推理能力的关键方法,但最新研究显示,CoT仅在数学和符号推理任务中有效,其他任务中效果不明显。加州大学伯克利分校、斯坦福大学和卡内基梅隆大学的联合研究打破了CoT作为LLM标配的神话,为重新评估LLM的推理能力提供了新视角。
54 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
清华EconAgent获ACL 2024杰出论文:大模型智能体革新计算经济学研究范式
近年来,人工智能的迅猛发展推动了数据驱动建模在宏观经济学领域的应用。清华大学研究团队提出的EconAgent模型,基于大型语言模型,具备类似人类的决策能力,能更准确地模拟个体行为对宏观经济系统的影响。EconAgent在个体异质性、市场动态及宏观经济因素模拟方面表现出色,并具有更好的可解释性和灵活性。然而,其高计算复杂度和部分决策过程的不透明性仍需进一步解决。该成果已在ACL 2024会议上获得杰出论文奖。论文链接:https://arxiv.org/abs/2310.10436v4
117 3
|
2月前
|
人工智能 API
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。
45 0
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
|
3月前
|
机器学习/深度学习 自然语言处理
【绝技揭秘】模型微调与RAG神技合璧——看深度学习高手如何玩转数据,缔造预测传奇!
【10月更文挑战第5天】随着深度学习的发展,预训练模型因泛化能力和高效训练而备受关注。直接应用预训练模型常难达最佳效果,需进行微调以适应特定任务。本文介绍模型微调方法,并通过Hugging Face的Transformers库演示BERT微调过程。同时,文章探讨了检索增强生成(RAG)技术,该技术结合检索和生成模型,在开放域问答中表现出色。通过实际案例展示了RAG的工作原理及优势,提供了微调和RAG应用的深入理解。
113 0
|
5月前
|
传感器 人工智能
上交、智源、北大等提出空间大模型SpatialBot
【8月更文挑战第29天】近年来,人工智能技术迅猛发展,视觉语言模型(VLMs)在2D图像理解上取得显著成就,但在空间理解方面仍面临挑战。上交、智源、北大等机构的研究人员提出了结合RGB和深度图像的空间大模型SpatialBot,以提升空间理解精度。通过使用包含多层次深度信息的SpatialQA数据集进行训练,并基于全面评估基准SpatialBench测试,SpatialBot在多个任务中表现出色,显著提升了空间理解能力。然而,其应用仍受限于部署成本和数据集泛化能力等问题。论文链接: https://arxiv.org/abs/2406.13642
84 3
|
7月前
|
人工智能
拯救被掰弯的GPT-4!西交微软北大联合提出IN2训练治疗LLM中间迷失
【6月更文挑战第1天】研究人员为解决大型语言模型(LLM)的“中间迷失”问题,提出了IN2训练方法。此方法通过显式监督增强模型对长文本上下文的理解,改善了信息检索能力。应用IN2训练的FILM-7B模型在长文本任务上表现出色,尤其在NarrativeQA数据集上的F1分数提升了3.4。尽管面临数据合成和计算成本的挑战,IN2训练为LLM的进步开辟了新途径,预示着未来在长文本处理领域的潜力。论文链接:https://arxiv.org/pdf/2404.16811
100 5
|
8月前
|
机器学习/深度学习 存储 自然语言处理
视觉任务微调王道 | 国科大联合阿里巴巴提出Mona,让Adapter成为你的All Need
视觉任务微调王道 | 国科大联合阿里巴巴提出Mona,让Adapter成为你的All Need
198 1
|
8月前
|
机器学习/深度学习 编解码 自然语言处理
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
99 0
|
自然语言处理 物联网 异构计算
全方位分析大模型参数高效微调,清华研究登Nature子刊(2)
全方位分析大模型参数高效微调,清华研究登Nature子刊
251 0

热门文章

最新文章

下一篇
开通oss服务