从理解到落地:AI Agent 长期记忆系统的原理、框架与阿里云选型指南
如果说大模型是 Agent 的大脑,那么长期记忆系统就是它的硬盘与灵魂。本文深度解析 AI Agent 长期记忆的核心架构、主流方案、技术挑战与未来趋势。
一、为什么 AI Agent 需要长期记忆?
大语言模型(LLM)本质上是无状态的推理引擎——每次对话都从零开始。这意味着用户反复告诉 Agent "我偏好 TypeScript"、"我的项目用的 React",Agent 也会在下一次会话中遗忘一切。
长期记忆的出现,正是为了解决这个根本性约束。它让 AI Agent 从"金鱼脑"进化为能够跨会话记住用户偏好、历史交互和领域知识的智能实体。
长期记忆成为 Agent 必选项的四个关键原因
- LLM 无状态调用:Agent 在调用 LLM 时是无状态的,LLM 不会存储刚刚发生了什么,需要在上下文中体现
- 会话上下文有限:虽然 Agent 自身有本地上下文(短期记忆),但内存并非无限的,需要将关键信息持久化,以便在需要时按需查询
- 跨会话信息共享:在与 Agent 对话时可能会因为各种原因切换会话,但使用者还是同一个,对于一些关键信息需要跨会话共享
- "智能"的标志:对于使用者,会在使用 Agent 时"不经意间"透出一些使用习惯。Agent 需要识别并记录下来,给使用者更智能的体验
二、记忆的分层架构:短期、会话与长期
一个典型的 AI Agent 记忆系统包含三个层次,模拟了人类大脑处理信息的方式。

图:AI Agent 三层记忆架构示意——短期记忆、会话记忆与长期记忆的分层设计与数据流向
1. 短期记忆(Short-Term Memory)
短期记忆直接对应 LLM 的上下文窗口,是当前感知输入、活跃推理链条和短期子目标的暂存场所。
- 存储位置:Agent 的运行时状态(In-memory State),通常由 AgentState 对象维护
- 内容:当前对话轮次的消息历史(近期 N 条)、中间推理结果、临时变量和标志
- 特点:访问速度极快、容量有限(受限于 LLM 上下文窗口)、生命周期短
- 管理策略:上下文缩减(摘要/预览)、上下文卸载(外部存储引用)、上下文隔离(多 Agent 拆分)
2. 会话记忆(Session Memory)
会话记忆记住"发生过的事件",跨多轮任务仍然可用,但不是永久性的。
- 存储内容:对话摘要、近期关键信息/主题、特定会话的短期偏好
- 实现方式:关系型数据库、键值存储(Redis)、文件系统
- 价值:在保持上下文连贯性的同时,有效控制 LLM 的 Token 消耗
3. 长期记忆(Long-Term Memory)
长期记忆是形成"长期认知"的核心层,影响 Agent 未来的决策和行为风格。
- 存储内容:用户稳定偏好、固定事实(User Profile)、Agent 自身能力边界与经验总结
- 实现方式:向量数据库、知识图谱、Key-Value Memory、文本 + Embedding、显式 Memory Store
- 特点:持久化、写入受控、读取高度选择性
- 挑战:最难设计,也最容易"记坏"
三、长期记忆的核心流程:Record & Retrieve
长期记忆系统与短期记忆形成双向交互,核心可以归结为两个基本问题:如何维护长期记忆 和 如何使用长期记忆。

图:Record & Retrieve 循环——从对话中提取事实,通过语义检索注入上下文
Record(记录)流程
LLM 事实提取 → 信息向量化 → 向量存储 →(复杂关系存储)→ SQLite 操作日志
Agent 从短期记忆的会话消息中提取"事实"、"偏好"、"经验"等有效信息,通过 LLM 进行语义理解和抽取,向量化后存储到长期记忆中。
Retrieve(检索)流程
User Query 向量化 → 向量数据库语义检索 → 图数据库关系补充 →(Reranker)→ 结果注入上下文
根据当前用户查询,从长期记忆中检索相关信息,注入到短期记忆中作为上下文,辅助模型进行个性化推理。
长期记忆 vs RAG:关键区别
| 对比维度 | RAG | 长期记忆 |
|---|---|---|
| 主要目的 | 为大模型提供外部知识 | 为 Agent 记录并利用特定用户的历史交互 |
| 服务对象 | 全体用户或任务 | 特定用户或会话主体(高度个性化) |
| 知识来源 | 结构化/非结构化文档 | 用户与 Agent 的对话历史、行为日志 |
四、主流存储方案对比
当前主流的长期记忆存储方案不外乎三种技术路线,多数开源框架都是混合使用的。

图:向量数据库、知识图谱与 Markdown 文件三种存储方案的特性对比
1. 向量数据库(VectorStore)
向量数据库是当前长期记忆最主流的存储载体。将文本信息通过 Embedding 模型转换为高维向量,通过余弦相似度进行语义检索。
优势:语义相似即可命中,即便措辞完全不同也能找到对应记忆。
局限:擅长处理孤立事实,但对于实体间关系的表达能力较弱。
典型选型:Chroma(轻量级)、Qdrant(高性能)、Milvus、Pgvector、Pinecone(全托管)、Faiss(极致性能)。
2. 知识图谱(GraphStore)
图数据库将知识以节点(Node)和边(Edge)的形式组织,天然适合表达复杂的关联信息。
优势:可以直接沿边遍历,精确返回所有相关节点,不依赖语义相似度的模糊召回。适合处理"张三认识谁"、"谁参加了哪个会议"这类关系查询。
典型选型:Neo4j、Memgraph、Amazon Neptune、Kuzu(嵌入式)。
3. Markdown 文件(File-as-Source-of-Truth)
以 OpenClaw 为代表的"文件优先"哲学,拒绝将记忆黑盒化存入向量数据库,而是用本地 Markdown 文件作为真理来源。
核心设计:
MEMORY.md:长期持久知识层,存储筛选、压缩和固化的信息memory/YYYY-MM-DD.md:瞬时情境层,每日日志仅追加
优势:简单直接、可审计、可版本控制、无需额外基础设施。
五、典型框架与产品深度解析
5.1 Mem0:自适应更新与多级作用域
Mem0 几乎成为了开源长期记忆的事实标准,一天内获得 10000+ GitHub Star。
核心特性:
- 多层记忆:定义了 userId、agentId、runId 三个维度,支持不同粒度的记忆隔离
- 自适应个性化:在每次新增记忆时基于 RAG 召回已有记忆,由 LLM 进行内容提纯和记忆汰换
- 动态 CRUD:利用 LLM 执行四种原子操作——
ADD(新增)、UPDATE(修正)、DELETE(删除矛盾信息)、NOOP(忽略冗余) - 混合存储:向量数据库 + 键值数据库 + 图数据库的三管齐下
争议:Mem0 的基准测试数据曾被 Zep 和 Letta(MemGPT 团队)公开质疑数据造假,行业对其评测结果褒贬不一。
5.2 OpenViking:8 类记忆 + 三层索引
OpenViking 提供了一份工程级的记忆系统答案。
8 类记忆体系:
- 用户记忆:Profile、Preferences、Entities、Events
- Agent 记忆:Cases、Patterns
- 工具/技能记忆:Tools、Skills
三层索引架构(L0/L1/L2):
- L0(Abstract):一句话摘要,轻量级索引入口
- L1(Overview):结构化概览,中等粒度浏览
- L2(Detail):完整内容,深度检索目标
这种设计的核心价值在于Token 经济性——检索时先匹配 L0 摘要(几十个 token),再决定是否深入 L2 详情(可能几千个 token),避免一次性加载大量冗余内容。
5.3 OpenClaw:文件优先 + 混合检索
OpenClaw 代表了激进的"逆数据库"思潮。
双层记忆拓扑:
- 瞬时情境层:
memory/YYYY-MM-DD.md每日日志,仅追加 - 持久知识层:
MEMORY.md长期记忆,严格隐私门控
混合检索算法:
- 向量检索(70%权重):利用 sqlite-vec 进行余弦相似度计算
- 关键词检索(30%权重):利用 SQLite FTS5 精准匹配专有名词
- 摒弃 RRF(倒数排名融合),保留原始分数幅度信号
预压缩机制:当会话 Token 触及软阈值时,触发静默的"智能体回合",强制模型在遗忘前进行主动认知结晶。
5.4 Zep:时序知识图谱
Zep 采用了更为激进的时序知识图谱架构。
双时态性(Bi-temporality):为每个事实维护两个时间戳——有效时间(事实在现实世界中生效的时间)和记录时间(系统知晓该事实的时间),能正确处理"用户以前住在纽约,现在搬到了伦敦"这类状态变更。
性能优势:单次检索准确率高达 80.32%,比 Mem0 高 17%,检索速度快 60%。
六、记忆生命周期管理

图:记忆生命周期管理的四个核心环节——提取、存储、检索与更新
长期记忆的维护本质上是一个持续的 CRUD 过程,关键在于如何让记忆库保持准确、及时、不冗余。
6.1 记忆提取:从对话到知识
- LLM 驱动的结构化提取:将多轮消息格式化为结构化文本,调用 LLM 输出结构化 JSON
- 智能去重:先用 embedding 找到语义相似的已有记忆,缩小 LLM 决策范围
- 类别范围限定:搜索限制在同一类别下,避免跨类别误匹配
6.2 记忆更新:合并、淘汰与遗忘
- MERGE(合并):LLM 合并已有记忆和新内容
- DELETE(删除):删除过时或矛盾的记忆
- CREATE(创建):创建新的记忆条目
- SKIP(跳过):忽略冗余信息
6.3 冷热分离与归档
长期不被访问的记忆会被自动归档,减少检索时的 Token 消耗。通过热度评分(Hotness Score)机制,综合访问频率和时间衰减因子,实现记忆的自动冷热分类。
七、阿里云长期记忆实践方案对比
截至 2026 年,阿里云已推出四套定位各异的长期记忆方案。下面从核心差异出发做简要介绍和横向对比。
7.1 百炼长期记忆 API
百炼长期记忆开放接口是大模型服务平台百炼的一部分,面向已在百炼平台构建应用的开发者。其核心特色是内置了一套完整的用户画像(Profile)体系,涵盖个人信息、兴趣偏好、生活习惯、健康状况等 7 大类数十个子类,开箱即用。记忆以 userId 为维度自动挖掘,支持多模态(图片描述 + 地理坐标),可通过 prompt、topK、threshold 等参数精细控制。接入方式为 Java/Python 专有 SDK。
7.2 RDS PostgreSQL 长期记忆
RDS 长期记忆基于 RDS PostgreSQL 构建,在一个数据库实例中整合了 pgvector(向量检索)+ Apache AGE(图数据库,Cypher 查询)+ 原生关系型存储的"三位一体"架构。完全兼容 Mem0 SDK/API,可直接 pip install mem0ai 接入。独特优势是通过 enable_graph=true 实现向量 + 图的混合搜索。数据存储在用户自有 RDS 实例中,服务本身当前免费。
7.3 PolarDB Mem0
PolarDB Mem0 是全托管长期记忆服务,100% 兼容开源 Mem0 V1.0.1,已正式商业化。继承 Mem0 内置的 Graph Memory 能力(知识图谱),支持会话摘要 + 语义记忆两种策略类型,内置 qwen-plus + text-embedding-v4 + qwen3-rerank 全链路模型。按量付费:标准版 0.015 元/万条/小时,支持 30 QPS、最多 2000 万条记忆。
7.4 Polar Agent Memory
Polar Agent Memory 是部署在 PolarDB for AI 节点上的自研记忆引擎,目前灰度阶段。与 PolarDB Mem0 的核心区别在于:采用向量 + 知识图谱双模存储且支持事件关系推理(时序/因果/假设)——不仅记住"张三在阿里云工作",还能建立"用户先焦虑 → 尝试放松 → 效果不好"的因果链。记忆经 WorkingMemory 暂存验证后才融合到持久层,删除源对话时自动重建关联记忆。所有 AI 计算在私有节点内完成,数据不出集群。官方数据:响应时间降低 30%,Token 降低 20%,回答效果提升 40%。
7.5 四方案横向对比
| 对比维度 | 百炼长期记忆 API | RDS PostgreSQL 长期记忆 | PolarDB Mem0 | Polar Agent Memory |
|---|---|---|---|---|
| 定位 | 百炼平台内置 | 数据库原生(自建) | 全托管 SaaS | 数据库原生(深度推理) |
| Mem0 兼容 | 否(自有 API) | 兼容 | 100% 兼容 V1.0.1 | 否(自有 /polar-amem API) |
| 知识图谱 | 不支持 | Apache AGE(Cypher) | Mem0 Graph Memory | 实体/事件三元组 + 事件关系推理 |
| 检索方式 | 语义 + 阈值过滤 | 向量 + 图(enable_graph) | 向量 + Graph + ReRank | 多路召回 + 图谱关联 + Reranker |
| 数据主权 | 平台托管 | 用户自有 RDS | 平台托管 | 用户自有 PolarDB(完全隔离) |
| 运维复杂度 | 零 | 中等 | 低 | 中等 |
| 差异化能力 | 内置用户画像 + 多模态 | 向量+图+SQL 三合一 | 开箱即用 + Mem0 生态 | 事件推理 + 记忆融合验证 + 私有化 AI |
| 计费 | 含在百炼费用中 | 服务免费(仅实例+模型费) | 0.015 元/万条/小时 + Token 费 | 灰度中(PolarDB + AI 节点费) |
7.6 选型建议
- 百炼平台用户 → 百炼 API,零部署 + 内置画像模板
- Mem0 生态 + 数据可控 → RDS PostgreSQL,向量+图混合检索,数据在自有实例
- 快速上线 + 最小运维 → PolarDB Mem0,全托管按量付费
- 深度推理 + 数据隐私极致要求 → Polar Agent Memory,事件关系推理 + AI 完全私有(目前灰度)
小结:四个方案从"平台集成"到"Mem0 兼容自建"到"全托管"再到"深度推理",覆盖了不同阶段和需求的开发者。PolarDB 产品线同时提供了 Mem0(简单兼容)和 Agent Memory(深度推理)两条路线,按需选择即可。
八、技术挑战与未来趋势
当前核心挑战
- 准确性:记忆的建模需要完善强大的用户画像模型,记忆的更新需要智能的巩固、更新和遗忘机制
- 安全和隐私:记忆系统记住了大量用户隐私信息,如何防止数据中毒等恶意攻击是必须解决的问题
- 多模态记忆支持:文本记忆、视觉、语音仍被孤立处理,如何构建统一的"多模态记忆空间"仍是未解难题
- 记忆污染:Agent 失败 80% 是记忆污染导致的,错误的记忆比没有记忆更危险
未来演进方向
- 记忆即服务(MaaS):长期记忆正在从功能特性成长为独立的、智能化的子系统
- 强化学习驱动的记忆策略:如 AgeMem 框架,通过 RL 将记忆管理内化为智能体的本能,而非人为预设的规则
- 参数化记忆融合:突破 Transformer 架构限制,设计新型的 Internal Memory 机制,将非参数化记忆与模型参数深度融合
- 神经符号系统结合:将符号推理能力引入记忆检索过程,实现更精确的关系推理
- 边缘计算部署:优化记忆系统的资源占用效率,实现本地化、低延迟的记忆服务
九、总结:记忆的本质
Agent 的记忆不是"聊天记录",而是"可被检索、可被治理的认知资产"。
一个优秀的 AI Agent 长期记忆系统,本质是一个智能的、分层的知识管理系统。它通过将记忆分类、分层索引、按需检索,完美平衡了成本、准确性与体验。
AI Agent 的长期记忆设计,不是让它拥有无限记忆,而是让它像人一样:先记关键事实,再记重要情境,用的时候先看目录,必要时再翻原文。
记忆即"自我"——它让 Agent 不再是冷冰冰的应答机器,而是一个懂你、记得你、陪你成长的数字伙伴。
本文基于内网知识库(ATA、阿里云文档)与外网信息源深度调研生成,涵盖 Mem0、OpenViking、OpenClaw、Zep、AgeMem 等主流方案的技术实践与对比分析。