具备实时数据更新能力的大语言模型——Larimar

简介: 【2月更文挑战第30天】Larimar是一种新型的人工智能研究,旨在解决大型语言模型的知识更新问题。通过引入分布式情景记忆机制,类似人脑海马体的功能,Larimar能动态更新知识而无需完全重训。在实验中,它在事实编辑基准测试中展现出高准确性和速度提升,比基础LLM快4到10倍。Larimar的精巧架构包含编码器、解码器和自适应记忆模块,能在多种场景下有效应用。该模型的记忆操作包括写入、读取和生成,且在序列事实编辑任务中表现出色,防止信息遗忘。

13.jpg
在人工智能的浪潮中,大型语言模型(LLMs)如同一艘巨轮,承载着人类智慧的结晶,驶向未知的海域。然而,随着时间的推移,这艘巨轮上的知识货物可能会变得陈旧,甚至出现错误。如何高效地更新这些宝贵的知识,确保巨轮继续稳健前行,成为了研究者们面临的重大挑战。最近,一项名为Larimar的研究成果,为我们提供了一种全新的思路,它试图通过引入分布式情景记忆机制,来增强LLMs的知识更新能力。

Larimar的核心创新在于其独特的记忆模块,这一模块能够实现知识的动态更新,而无需对整个模型进行耗时耗力的重新训练或微调。这种记忆模块的设计灵感,源自于人类大脑中的海马体,它在记忆形成和巩固过程中扮演着关键角色。Larimar通过将情景记忆模块作为当前事实更新的全局存储,并将这些记忆作为条件输入到LLM解码器中,从而实现了对新知识的快速适应和整合。

在实验中,Larimar展现出了令人瞩目的性能。它在多个事实编辑基准测试中,不仅达到了与最先进方法相当的准确性,而且在处理速度上也有了显著的提升,比基础LLM快了4到10倍。这一成果的背后,是Larimar简单而通用的架构设计,它不依赖于特定的LLM,因此具有广泛的适用性。研究者们还为Larimar配备了选择性事实遗忘和输入上下文长度泛化的机制,这些机制的有效性也得到了实验的验证。

Larimar的架构精巧而高效,它由一个编码器、一个解码器和一个自适应记忆模块组成。编码器负责输出潜在空间,而记忆模块则使用多行来存储编码的情景,并通过读写权重进行更新。在训练过程中,这三个模块联合训练并优化,共同实现对情景的有效压缩。

Larimar的实现基于BERT大型编码器与GPT2-large或GPTJ-6B解码器的结合,以及一个记忆矩阵。在测试中,Larimar-1.3B模型和Larimar-6B模型分别在WikiText样本上达到了14.6和15.9的困惑度,显示出添加记忆模块对模型性能的影响微乎其微。

Larimar的记忆操作包括写入、读取和生成三个基本操作,这些操作在编码层面上进行,并被视为生成模型中的推理过程。此外,Larimar还可选地使用范围检测机制来检测传入查询是否接近内存中写入的事实,这一机制在概念上类似于已有的SERAC。

在实际应用中,Larimar在CounterFact数据集上的单事实编辑性能比较中表现出色,并在ZsRE基准测试中展示了其有效的编辑能力和邻域特异性。此外,Larimar还成功地进行了序列事实编辑的评估,处理了在多次序列编辑后忘记之前编辑的问题,这一能力在实际应用中尤为重要。

论文地址:https://arxiv.org/abs/2403.11901

目录
相关文章
|
14天前
|
数据挖掘 关系型数据库 Serverless
利用数据分析工具评估特定业务场景下扩缩容操作对性能的影响
通过以上数据分析工具的运用,可以深入挖掘数据背后的信息,准确评估特定业务场景下扩缩容操作对 PolarDB Serverless 性能的影响。同时,这些分析结果还可以为后续的优化和决策提供有力的支持,确保业务系统在不断变化的环境中保持良好的性能表现。
24 2
|
3月前
|
机器学习/深度学习 存储 数据挖掘
Hologres 与机器学习的融合:为实时分析添加预测性分析功能
【9月更文第1天】随着数据科学的发展,企业越来越依赖于从数据中获取洞察力来指导决策。传统的数据仓库主要用于存储和查询历史数据,而现代的数据仓库如 Hologres 不仅提供了高性能的查询能力,还能够支持实时数据分析。将 Hologres 与机器学习技术相结合,可以在实时数据流中引入预测性分析,为企业提供更深入的数据洞见。本文将探讨如何将 Hologres 与机器学习集成,以便实现实时的预测性分析。
92 4
|
4月前
|
存储 SQL 消息中间件
B端算法实践问题之设计一套实时平台能力如何解决
B端算法实践问题之设计一套实时平台能力如何解决
45 1
|
4月前
|
存储 SQL 算法
B端算法实践问题之Blink在实时业务场景下的优势如何解决
B端算法实践问题之Blink在实时业务场景下的优势如何解决
48 1
|
5月前
|
存储 数据可视化 数据挖掘
实时数据分析系统的构建与优化
【7月更文挑战第29天】实时数据分析系统的构建与优化是一个复杂而细致的过程,需要从需求分析、数据源确定、数据采集与传输、数据处理与分析、数据存储、数据可视化、系统部署与配置、监控与优化等多个方面进行综合考虑。通过选择合适的技术栈和优化策略,可以构建出高效、稳定的实时数据分析系统,为企业决策提供强有力的支持。
|
6月前
|
机器学习/深度学习 边缘计算 测试技术
MLOps模型部署的三种策略:批处理、实时、边缘计算
机器学习运维(MLOps)是一组用于自动化和简化机器学习(ML)工作流程和部署的实践。所选择的部署策略可以显著影响系统的性能和效用。所以需要根据用例和需求,采用不同的部署策略。在这篇文章中,我们将探讨三种常见的模型部署策略:批处理、实时和边缘计算。
114 4
|
7月前
|
存储 并行计算 数据挖掘
如何优化大规模数据处理的性能
在当今大数据时代,对于使用大规模数据处理技术进行数据分析和挖掘的企业和组织来说,优化数据处理性能已经成为一项关键任务。本文将介绍如何通过并行计算、数据分片、内存管理等技术手段,优化大规模数据处理的性能,以提高数据分析和挖掘的效率。
|
存储 人工智能 运维
多模态流式 AI 编排平台,大规模减少新应用开发成本
多模态流式 AI 编排平台,大规模减少新应用开发成本
727 0
|
人工智能 文字识别 API
FastDeploy完成实时扣图模型部署
FastDeploy完成实时扣图模型部署
601 0
FastDeploy完成实时扣图模型部署
|
存储 消息中间件 分布式计算
Lindorm在实时归因场景下的挑战与应用
关联文章 Streams -Lindorm实时数据同步的新篇章 1 什么是归因分析 归因分析说明 (Attribution Analysis)归因分析就是从客户的行为轨迹(Customer Journey)中去分析营销策略成功的原因(Attribution of Success)。举例来讲就是小明购买天猫精灵的消费行为是由哪些渠道广告促成的?这些渠道的贡献占比多少?
778 0