Memento:基于记忆无需微调即可让大语言模型智能体持续学习的框架

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,1000CU*H 3个月
简介: Memento是一种创新的LLM智能体框架,通过基于记忆的在线强化学习实现低成本持续适应,无需微调模型参数。其核心理念借鉴人类学习机制,利用情景记忆库中的历史轨迹指导决策,结合案例推理与工具调用,构建了适用于动态环境的自适应智能体系统。

大语言模型智能体(LLM Agent)是一类利用大语言模型通过交互、推理和决策来自主执行复杂任务的系统,通常具备访问外部工具、记忆系统或环境的能力。与被动响应单一提示的传统LLM不同,LLM智能体采用主动且迭代的运行模式,在明确目标的引导下执行任务。这类系统正被广泛部署为跨领域的自主问题解决器,OpenAI的Deep Research智能体便是典型代表。

当前LLM智能体的构建主要遵循两种学习范式,但是都存在根本性限制。第一种范式基于专门化框架构建智能体,采用固定工作流程和硬编码推理逻辑。虽然这种方法在特定任务上表现良好,但缺乏必要的灵活性,部署后智能体保持静态状态,无法整合在线信息或适应新出现的情况。

第二种范式专注于通过参数调优更新底层LLM本身,包括监督微调和强化学习等方法。这种方式虽然能够实现更灵活的行为模式,但需要承担高昂的计算成本。这两种构建自适应智能体的方法要么过于僵化,依赖静态的手工制作反思工作流程,要么计算密集,需要对LLM模型参数进行梯度更新。

Memento的核心理念

面对如何构建能够在动态环境中持续学习而无需承担微调成本的LLM智能体这一挑战,Memento提供了创新解决方案。该框架通过基于记忆的在线强化学习实现低成本持续适应,完全避免了对LLM的微调需求。

Memento的设计理念源于人类学习机制的模拟。人类在处理经验时会将每次经历情景轨迹,在巩固过程中将其提炼为抽象规则,通过多巴胺驱动的信用分配机制进行选择性强化,并在面临类似问题时通过基于案例或类比的推理进行检索。

基于这一观察,LLM智能体不再依赖微调基础模型,而是利用外部记忆存储包含成功和失败标签的历史轨迹,从类似的过往经验中汲取指导信息进行决策。这一机制的理论基础是基于案例的推理(Case-Based Reasoning, CBR),这是一种具有心理学基础的学习策略,有充分证据表明人类经常通过回忆类似情况来解决问题。

技术实现架构

Memento通过构建非参数化的即时框架来实现基于案例的推理,具体实例化为基于记忆的马尔可夫决策过程(Memory-based MDP)的规划器-执行器架构。该系统包含三个核心组件:规划器、工具增强执行器,以及用于存储历史轨迹作为情景记忆的动态案例库。

与标准马尔可夫决策过程不同,Memento将记忆直接整合到决策过程中。给定当前状态,CBR模块检索相关案例并通过LLM进行重用和适配,这一过程类似于典型的强化学习流程。基于案例的推理智能体根据当前状态和有限的历史案例记忆做出决策,使用案例检索策略为给定状态生成历史案例的概率分布,进而影响LLM的行动选择。CBR智能体的策略通过软Q学习算法进行学习和更新。

具体架构实现为规划器-执行器,在基于案例的规划(上面的阶段1)和基于工具的执行(阶段2)之间交替运行。规划器是一个由案例记忆模块增强的基于LLM的CBR智能体,该模块同时支持写入操作(记录新案例并在线优化Q函数)和读取操作(通过学习的检索策略检索案例以实现自适应案例选择)。执行器则是基于LLM的MCP客户端,通过MCP协议调用托管在MCP服务器上的外部工具。

在Deep Research场景,Memento通过M-MDP方法实现有状态的提示工程。智能体需要通过迭代式环境交互、外部工具调用、外部信息检索以及异构数据处理来解决复杂的长期任务,系统在基于案例的规划和基于工具的执行两个核心阶段间持续交替。

实验结果与性能评估


实验在四个基准数据集上进行全面评估。GAIA基准测试长期工具使用能力,DeepResearcher评估实时网络研究性能,SimpleQA检验事实准确性,HLE则专注于长尾学术推理能力。系统采用规划器-执行器架构,使用GPT-4.1作为规划器,o4-mini作为默认执行器(GAIA基准使用o3),并配备完整的工具支持。

实验结果显示Memento在GAIA验证集上取得第一名(87.88% Pass@3),在私有测试排行榜上达到79.40%的成绩。在DeepResearcher数据集上实现66.6% F1分数和80.4% PM指标,超越了当前最先进的基于训练的系统。基于案例的记忆机制在分布外任务上带来4.7到9.6个绝对百分点的提升,在SimpleQA基准上达到95.0% PM。

这一方法代表了LLM智能体基于案例持续学习的首次尝试,在GAIA基准上实现顶级性能,为Deep Research智能体的持续适应提供了具有原则性的框架支撑。

总结

Memento通过其基于记忆的学习范式实现了重要突破,支持自适应在线搜索而无需更新模型权重。该方法将深度研究智能体形式化为基于记忆的MDP,在规划器-执行器框架内实现,利用情景案例库记录和检索轨迹以实现持续策略改进。作为该领域的开创性工作,Memento为未来智能体系统的发展奠定了重要基础。

论文:https://avoid.overfit.cn/post/b6655a71ece747729890be10959e8855

作者: Mayur Jain

目录
相关文章
|
1月前
|
人工智能 算法 测试技术
轻量高效,8B 性能强劲书生科学多模态模型Intern-S1-mini开源
继 7 月 26 日开源『书生』科学多模态大模型 Intern-S1 之后,上海人工智能实验室(上海AI实验室)在8月23日推出了轻量化版本 Intern-S1-mini。
473 50
|
4月前
|
存储 人工智能 自然语言处理
构建智能AI记忆系统:多智能体系统记忆机制的设计与技术实现
本文探讨了多智能体系统中记忆机制的设计与实现,提出构建精细化记忆体系以模拟人类认知过程。文章分析了上下文窗口限制的技术挑战,并介绍了四种记忆类型:即时工作记忆、情节记忆、程序性记忆和语义知识系统。通过基于文件的工作上下文记忆、模型上下文协议的数据库集成以及RAG系统等技术方案,满足不同记忆需求。此外,高级技术如动态示例选择、记忆蒸馏和冲突解决机制进一步提升系统智能化水平。总结指出,这些技术推动智能体向更接近人类认知的复杂记忆处理机制发展,为人工智能开辟新路径。
395 5
构建智能AI记忆系统:多智能体系统记忆机制的设计与技术实现
|
26天前
|
机器学习/深度学习 算法 文件存储
神经架构搜索NAS详解:三种核心算法原理与Python实战代码
神经架构搜索(NAS)正被广泛应用于大模型及语言/视觉模型设计,如LangVision-LoRA-NAS、Jet-Nemotron等。本文回顾NAS核心技术,解析其自动化设计原理,探讨强化学习、进化算法与梯度方法的应用与差异,揭示NAS在大模型时代的潜力与挑战。
235 6
神经架构搜索NAS详解:三种核心算法原理与Python实战代码
|
28天前
|
存储 测试技术 开发者
NVFP4量化技术深度解析:4位精度下实现2.3倍推理加速
本文深入解析NVIDIA推出的NVFP4量化技术,探讨其在Blackwell GPU架构下的性能优势。通过对比主流4位量化方法,分析NVFP4在精度、内存和推理吞吐量方面的表现,结合LLM-Compressor与vLLM框架展示量化与部署实践,验证其在消费级与企业级应用中的高效性与实用性。
170 15
NVFP4量化技术深度解析:4位精度下实现2.3倍推理加速
|
27天前
|
人工智能 自然语言处理 安全
多智能体协作为什么这么难:系统频繁失败的原因分析与解决思路
在AI智能体架构设计中,单智能体与多智能体路径之争愈演愈烈。实践表明,多智能体系统虽看似强大,却因协调复杂、容错差、信息丢失等问题而表现脆弱。相比之下,具备完整上下文的单智能体在一致性、稳定性与可维护性上更具优势。本文深入分析多智能体系统的失败案例与技术局限,提出优先发展高性能单智能体、聚焦上下文工程的实践路径,为AI系统设计提供清晰方向。
103 4
多智能体协作为什么这么难:系统频繁失败的原因分析与解决思路
|
1月前
|
人工智能 监控 搜索推荐
使用LangGraph从零构建多智能体AI系统:实现智能协作的完整指南
本文将通过构建AI研究助手的完整案例,展示如何使用LangGraph框架实现这种架构转变,从理论基础到具体实现,帮助你掌握下一代AI系统的构建方法。
473 0
使用LangGraph从零构建多智能体AI系统:实现智能协作的完整指南
|
23天前
|
存储 人工智能 Serverless
FunctionAI 图像生成:简化从灵感到 API 调用的每一步
FunctionAI 图像生成服务助力企业突破AI图像应用的三大难题:高成本算力、复杂运维与工程化壁垒。基于Serverless架构,提供从项目开发到API调用的全生命周期管理,支持ComfyUI、Stable Diffusion等主流工具,实现“一键部署、秒级调试、快速上线”。弹性伸缩、按需付费,大幅降低成本;国内网络加速、模型缓存、安全隔离,保障高效与稳定。让创意从灵感到生产无缝转化,真正驱动业务增长。
|
23天前
|
算法 决策智能
多智能体一致性算法
多智能体一致性算法
215 126
|
19天前
|
存储 人工智能 监控
LangGraph实战:从零构建智能交易机器人,让多个AI智能体像投资团队一样协作
如今的量化交易已远超传统技术指标,迈向多智能体协作的新时代。本文介绍了一个基于 **LangGraph** 构建的多智能体交易系统,模拟真实投资机构的运作流程:数据分析师收集市场情报,研究员展开多空辩论,交易员制定策略,风险团队多角度评估,最终由投资组合经理做出决策。系统具备记忆学习能力,通过每次交易积累经验,持续优化决策质量。
122 8
LangGraph实战:从零构建智能交易机器人,让多个AI智能体像投资团队一样协作