具备实时数据更新能力的大语言模型——Larimar

简介: 【2月更文挑战第30天】Larimar是一种新型的人工智能研究,旨在解决大型语言模型的知识更新问题。通过引入分布式情景记忆机制,类似人脑海马体的功能,Larimar能动态更新知识而无需完全重训。在实验中,它在事实编辑基准测试中展现出高准确性和速度提升,比基础LLM快4到10倍。Larimar的精巧架构包含编码器、解码器和自适应记忆模块,能在多种场景下有效应用。该模型的记忆操作包括写入、读取和生成,且在序列事实编辑任务中表现出色,防止信息遗忘。

13.jpg
在人工智能的浪潮中,大型语言模型(LLMs)如同一艘巨轮,承载着人类智慧的结晶,驶向未知的海域。然而,随着时间的推移,这艘巨轮上的知识货物可能会变得陈旧,甚至出现错误。如何高效地更新这些宝贵的知识,确保巨轮继续稳健前行,成为了研究者们面临的重大挑战。最近,一项名为Larimar的研究成果,为我们提供了一种全新的思路,它试图通过引入分布式情景记忆机制,来增强LLMs的知识更新能力。

Larimar的核心创新在于其独特的记忆模块,这一模块能够实现知识的动态更新,而无需对整个模型进行耗时耗力的重新训练或微调。这种记忆模块的设计灵感,源自于人类大脑中的海马体,它在记忆形成和巩固过程中扮演着关键角色。Larimar通过将情景记忆模块作为当前事实更新的全局存储,并将这些记忆作为条件输入到LLM解码器中,从而实现了对新知识的快速适应和整合。

在实验中,Larimar展现出了令人瞩目的性能。它在多个事实编辑基准测试中,不仅达到了与最先进方法相当的准确性,而且在处理速度上也有了显著的提升,比基础LLM快了4到10倍。这一成果的背后,是Larimar简单而通用的架构设计,它不依赖于特定的LLM,因此具有广泛的适用性。研究者们还为Larimar配备了选择性事实遗忘和输入上下文长度泛化的机制,这些机制的有效性也得到了实验的验证。

Larimar的架构精巧而高效,它由一个编码器、一个解码器和一个自适应记忆模块组成。编码器负责输出潜在空间,而记忆模块则使用多行来存储编码的情景,并通过读写权重进行更新。在训练过程中,这三个模块联合训练并优化,共同实现对情景的有效压缩。

Larimar的实现基于BERT大型编码器与GPT2-large或GPTJ-6B解码器的结合,以及一个记忆矩阵。在测试中,Larimar-1.3B模型和Larimar-6B模型分别在WikiText样本上达到了14.6和15.9的困惑度,显示出添加记忆模块对模型性能的影响微乎其微。

Larimar的记忆操作包括写入、读取和生成三个基本操作,这些操作在编码层面上进行,并被视为生成模型中的推理过程。此外,Larimar还可选地使用范围检测机制来检测传入查询是否接近内存中写入的事实,这一机制在概念上类似于已有的SERAC。

在实际应用中,Larimar在CounterFact数据集上的单事实编辑性能比较中表现出色,并在ZsRE基准测试中展示了其有效的编辑能力和邻域特异性。此外,Larimar还成功地进行了序列事实编辑的评估,处理了在多次序列编辑后忘记之前编辑的问题,这一能力在实际应用中尤为重要。

论文地址:https://arxiv.org/abs/2403.11901

目录
相关文章
|
人工智能
港科大等发布多模态图推理问答数据集GITQA
【2月更文挑战第14天】港科大等发布多模态图推理问答数据集GITQA
263 7
港科大等发布多模态图推理问答数据集GITQA
|
消息中间件 分布式计算 大数据
大数据面经 字节跳动 (整理)
大数据面经 字节跳动 (整理)
540 0
|
9月前
|
存储 人工智能 安全
面向法律场景的大模型 RAG 检索增强解决方案
检索增强生成模型结合了信息检索与生成式人工智能的优点,从而在特定场景下提供更为精准和相关的答案。以人工智能平台 PAI 为例,为您介绍在云上使用一站式白盒化大模型应用开发平台 PAI-LangStudio 构建面向法律场景的大模型 RAG 检索增强解决方案,应用构建更简便,开发环境更直观。此外,PAI 平台同样发布了面向医疗、金融和教育领域的 RAG 解决方案。
|
8月前
|
缓存 自然语言处理 安全
快速调用 Deepseek API!【超详细教程】
Deepseek 强大的功能,在本教程中,将指导您如何获取 DeepSeek API 密钥,并演示如何使用该密钥调用 DeepSeek API 以进行调试。
|
10月前
|
搜索推荐 物联网 PyTorch
Qwen2.5-7B-Instruct Lora 微调
本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。
10477 34
Qwen2.5-7B-Instruct Lora 微调
|
12月前
|
机器学习/深度学习 算法 物联网
大模型进阶微调篇(一):以定制化3B模型为例,各种微调方法对比-选LoRA还是PPO,所需显存内存资源为多少?
本文介绍了两种大模型微调方法——LoRA(低秩适应)和PPO(近端策略优化)。LoRA通过引入低秩矩阵微调部分权重,适合资源受限环境,具有资源节省和训练速度快的优势,适用于监督学习和简单交互场景。PPO基于策略优化,适合需要用户交互反馈的场景,能够适应复杂反馈并动态调整策略,适用于强化学习和复杂用户交互。文章还对比了两者的资源消耗和适用数据规模,帮助读者根据具体需求选择最合适的微调策略。
3206 5
|
8月前
|
机器学习/深度学习 弹性计算 网络安全
部署DeepSeek,你的GPU够用吗?
本文介绍如何将 DeepSeek-R1 开源模型部署到 GPU 云服务器,在 GPU 云服务器上安装与配置 Ollama 和 Open WebUI。
|
JSON JavaScript 前端开发
JavaScript实现字符串转json对象的方法
JavaScript实现字符串转json对象的方法
|
10月前
|
人工智能 弹性计算 监控
分布式大模型训练的性能建模与调优
阿里云智能集团弹性计算高级技术专家林立翔分享了分布式大模型训练的性能建模与调优。内容涵盖四大方面:1) 大模型对AI基础设施的性能挑战,强调规模增大带来的显存和算力需求;2) 大模型训练的性能分析和建模,介绍TOP-DOWN和bottom-up方法论及工具;3) 基于建模分析的性能优化,通过案例展示显存预估和流水线失衡优化;4) 宣传阿里云AI基础设施,提供高效算力集群、网络及软件支持,助力大模型训练与推理。
C#WPF 图片在显示时没有问题,但在运行时图片显示不出来的解决
选中项目,点击右上角的显示全部文件按钮,会将默认隐藏的文件显示出来,选中所需图片,右键,添加到项目,然后选择图片查看属性,生成操作选择resource。完毕。本人目前的解决方案。
877 41
C#WPF 图片在显示时没有问题,但在运行时图片显示不出来的解决