具备实时数据更新能力的大语言模型——Larimar-阿里云开发者社区

具备实时数据更新能力的大语言模型——Larimar

2024-03-21 210

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【2月更文挑战第30天】Larimar是一种新型的人工智能研究，旨在解决大型语言模型的知识更新问题。通过引入分布式情景记忆机制，类似人脑海马体的功能，Larimar能动态更新知识而无需完全重训。在实验中，它在事实编辑基准测试中展现出高准确性和速度提升，比基础LLM快4到10倍。Larimar的精巧架构包含编码器、解码器和自适应记忆模块，能在多种场景下有效应用。该模型的记忆操作包括写入、读取和生成，且在序列事实编辑任务中表现出色，防止信息遗忘。

在人工智能的浪潮中，大型语言模型（LLMs）如同一艘巨轮，承载着人类智慧的结晶，驶向未知的海域。然而，随着时间的推移，这艘巨轮上的知识货物可能会变得陈旧，甚至出现错误。如何高效地更新这些宝贵的知识，确保巨轮继续稳健前行，成为了研究者们面临的重大挑战。最近，一项名为Larimar的研究成果，为我们提供了一种全新的思路，它试图通过引入分布式情景记忆机制，来增强LLMs的知识更新能力。

Larimar的核心创新在于其独特的记忆模块，这一模块能够实现知识的动态更新，而无需对整个模型进行耗时耗力的重新训练或微调。这种记忆模块的设计灵感，源自于人类大脑中的海马体，它在记忆形成和巩固过程中扮演着关键角色。Larimar通过将情景记忆模块作为当前事实更新的全局存储，并将这些记忆作为条件输入到LLM解码器中，从而实现了对新知识的快速适应和整合。

在实验中，Larimar展现出了令人瞩目的性能。它在多个事实编辑基准测试中，不仅达到了与最先进方法相当的准确性，而且在处理速度上也有了显著的提升，比基础LLM快了4到10倍。这一成果的背后，是Larimar简单而通用的架构设计，它不依赖于特定的LLM，因此具有广泛的适用性。研究者们还为Larimar配备了选择性事实遗忘和输入上下文长度泛化的机制，这些机制的有效性也得到了实验的验证。

Larimar的架构精巧而高效，它由一个编码器、一个解码器和一个自适应记忆模块组成。编码器负责输出潜在空间，而记忆模块则使用多行来存储编码的情景，并通过读写权重进行更新。在训练过程中，这三个模块联合训练并优化，共同实现对情景的有效压缩。

Larimar的实现基于BERT大型编码器与GPT2-large或GPTJ-6B解码器的结合，以及一个记忆矩阵。在测试中，Larimar-1.3B模型和Larimar-6B模型分别在WikiText样本上达到了14.6和15.9的困惑度，显示出添加记忆模块对模型性能的影响微乎其微。

Larimar的记忆操作包括写入、读取和生成三个基本操作，这些操作在编码层面上进行，并被视为生成模型中的推理过程。此外，Larimar还可选地使用范围检测机制来检测传入查询是否接近内存中写入的事实，这一机制在概念上类似于已有的SERAC。

在实际应用中，Larimar在CounterFact数据集上的单事实编辑性能比较中表现出色，并在ZsRE基准测试中展示了其有效的编辑能力和邻域特异性。此外，Larimar还成功地进行了序列事实编辑的评估，处理了在多次序列编辑后忘记之前编辑的问题，这一能力在实际应用中尤为重要。

论文地址：https://arxiv.org/abs/2403.11901

具备实时数据更新能力的大语言模型——Larimar

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

具备实时数据更新能力的大语言模型——Larimar

热门文章

最新文章

相关课程

相关电子书

相关实验场景