Agent六款开源记忆工具大横评——全都能本地跑,全都不花钱

简介: AI 编程助手每次开新会话就"失忆"?六款完全开源、免费、可本地部署的记忆扩展工具——agentmemory、QMD、Cognee、mem0、Zep、TencentDB Agent Memory,覆盖行为记忆、文档检索、知识图谱、时序感知四大能力。从零干预自动捕获到 Markdown 知识库搜索,再到多跳关系推理,帮你给 Hermes / OpenClaw 装上一套完整的持久记忆系统

你知道吗,让 Agent记住你的项目上下文、技术决策和工作习惯,这件事完全可以不花一分钱、不连任何云服务、数据全留在自己电脑上就做到。

每次打开 Hermes 或 OpenClaw 新建会话,你都得重新解释一遍项目用了什么框架、上次修 MCP 断线用的什么命令、为什么选 jose 而不是 jsonwebtoken。不是模型不够聪明,是上下文窗口本质上是"一次性"的——会话结束,记忆也跟着清零。

开源社区早就盯上了这个问题。过去一年里,至少有六款专门针对 Agent记忆扩展的开源工具冒了出来——全都开源免费、全都可以本地部署、而且功能一点不糊弄。

这篇文章就带你把这六款工具逐个看一遍:它们怎么工作的、怎么安装配置、各自有什么长处和短板、你的场景最适合哪个。

先搞清你需要哪种"记忆"

在聊具体工具之前,有一个关键区分要先说明白——AI 助手需要记的东西,其实分两种:

类型 问的问题 举例
行为/情节记忆 "我(Agent)上次怎么操作的?" "上次修复 MCP 断线用了什么命令?"
知识/文档记忆 "我知道什么资料?" "GEO 写作规范第三条怎么说的?"

前者记录 Agent 的操作历史,后者检索已有的文档知识库。两类需求适合不同的工具,最好的方案是搭配使用。

一、行为记忆类:让 Agent 记住"我做过什么"

1. agentmemory

GitHub:rohitg00/agentmemory(23,000+ Stars,MIT 协议)

agentmemory 是目前关注度最高的 AI 编程 Agent 持久记忆方案。它的核心卖点就一个词:零干预。Agent 执行工具调用时,它通过 Hook 机制自动静默捕获所有操作,你什么都不用管。

工作原理

每次 Agent(Hermes、Claude Code 等)调用工具时,agentmemory 捕获一条 Observation 记录:

{
  "toolName": "Write",
  "toolInput": { "file_path": "src/auth.ts" },
  "toolOutput": "OK",
  "sessionId": "ses_abc123",
  "project": "my-hermes-app",
  "cwd": "/Users/you/projects/my-hermes-app"
}

这些记录经过 iii-engine 压缩后存入本地 SQLite。下次新建会话时,agentmemory 自动检索相关历史上下文并注入进去。

检索机制:三流融合

这是 agentmemory 最值得细说的地方。它不是简单地做关键词搜索——它同时跑三路:BM25 全文检索、向量语义检索、知识图谱遍历,最后通过 RRF(Reciprocal Rank Fusion)融合排序。在 LongMemEval-S 基准测试上,召回率做到了 95.2%,而 mem0 只有 68.5%、Letta/MemGPT 是 83.2%。

典型使用场景
  • 记住项目里用了哪个库以及为什么选它("为什么用 jose 而不是 jsonwebtoken")
  • 跨会话继续上次没做完的任务
  • 自动规避曾经踩过的坑("这个 CORS 问题上次怎么解决的")
  • 多个 Agent 实例(Hermes + OpenClaw)共享同一份技术决策历史
安装配置
npm install -g @agentmemory/agentmemory
agentmemory connect hermes     # 接入 Hermes
agentmemory connect openclaw   # 接入 OpenClaw

在 ~/.hermes/config.yaml 中添加 MCP 服务配置即可。实时监控面板访问 http://localhost:3113,可以看到记忆构建过程、知识图谱和 Session Replay。

优点
  • 零干预,完全自动捕获,不需要手动维护任何文件
  • 零外部依赖,纯 SQLite,不需要 Docker 或额外服务
  • 多 Agent 共享,一个服务同时服务多个 Agent 实例
  • MIT 协议,完全本地运行,不连任何外部 LLM
  • 召回精度在同类工具中最高(95.2% R@5)
❌   缺点
  • 仅对接 Coding Agent,不适合通用 LLM 应用的用户画像场景
  • 默认 Embedding 模型(all-MiniLM-L6-v2,80MB)对中文支持一般,中文项目建议替换为 Qwen3-Embedding
  • 依赖 iii-engine 版本锁定(v0.11.2),升级需谨慎

值得注意的是,agentmemory 的记忆写入和检索均不调用任何 LLM,完全本地计算。这是它和 mem0 最大的区别之一。

2. mem0

GitHub:mem0ai/mem0(41,000+ Stars,Apache 2.0)

mem0 和 agentmemory 定位不同。它面向的是 LLM 应用(聊天机器人、个性化助手),从对话内容中自动提取结构化用户事实——偏好、习惯、身份信息——构建用户画像。

工作原理

每次对话结束后,mem0 调用 LLM 分析对话内容,提取出类似"这个用户喜欢 TypeScript、不喜欢冗余注释"的事实,写入向量数据库。下次对话时检索注入,实现个性化。

典型使用场景
  • 记住用户的编码风格偏好("喜欢函数式风格,不用 class")
  • 跨会话保持用户画像("这个用户在做 Electron 项目")
  • 构建面向终端用户的个性化 AI 产品
本地部署
docker run -p 6333:6333 qdrant/qdrant  # 需要本地向量数据库
pip install mem0ai
from mem0 import Memory
config = {
    "llm": {"provider": "ollama", "config": {"model": "qwen3:14b"}},
    "embedder": {"provider": "ollama", "config": {"model": "qwen3-embedding"}},
    "vector_store": {"provider": "qdrant", "config": {"host": "localhost"}}
}
m = Memory.from_config(config)
优点
  • 自动从对话提取事实,无需手动总结
  • 支持 MCP 接入,可集成到 Hermes/OpenClaw
  • 生态最成熟(YC 投资,14M+ 下载)
❌   缺点
  • 部署较重:需要 Qdrant 或 Chroma 等向量数据库(额外 Docker 服务)
  • 每次写入记忆时必须调用 LLM 提取事实(支持本地 Ollama/oMLX)
  • 与 agentmemory 定位不同,不适合替代后者

二、知识检索类:让 Agent 找到"我存了什么"

3. QMD

GitHub:Shopify CEO Tobi Lütke 发起,OpenClaw 生态核心工具(MIT 协议)

QMD(Quick Markdown Database)是专为 OpenClaw / Hermes 设计的本地 Markdown 知识库搜索引擎。它解决的问题不是"上次怎么做的",而是"我的笔记里写了什么"。

工作原理

QMD 对你 workspace 目录下的所有 Markdown 文件建立双索引——BM25 倒排索引加向量索引——查询时两路打分,再经 Reranker 融合排序,返回最相关的文本段落。三个本地模型自动下载,总共约 2.3GB:

模型角色 默认模型 大小
Embedding jina-embeddings-v3 (GGUF) 330 MB
Reranker jina-reranker-v2-base-multilingual (GGUF) 640 MB
Query Expansion 内置小 LLM 1.3 GB

中文项目可替换为 Qwen3-Embedding GGUF 以优化检索效果。

典型使用场景
  • 搜索技术笔记、架构设计文档("这个接口的设计原则")
  • 检索 GEO 写作规范("SEO 关键词密度要求")
  • 查找已有代码片段的说明("Aliyun OSS 签名上传的备注")
  • 作为 NotebookLM 的本地替代方案
安装配置
brew install qmd  # macOS
# 或 go install github.com/tobi-lmd/qmd@latest
# 建立索引
qmd embed ~/knowledge-base
# 作为 MCP 服务启动
qmd serve --port 7333
优点
  • 专为 Markdown 优化,OpenClaw 生态原生支持
  • 三模型管线检索质量高(BM25 + 向量 + Reranker)
  • 完全离线,模型下载一次后永久缓存
  • 支持多 Collection,不同项目知识库互相隔离
❌   缺点
  • 需要手动维护 Markdown 文件,不自动捕获 Agent 行为
  • 首次 qmd embed 下载约 2.3GB 模型
  • 对代码库和非 Markdown 文件支持有限

Query Expansion 阶段会调用内置小 LLM,增加查询延迟约 300ms,无需额外配置。

4. Cognee

GitHub:topoteretes/cognee(Apache 2.0)

Cognee 从根本上区别于 QMD:它不做文档相似度检索,而是从文档中提取知识图谱,回答"A 和 B 有什么关系"这类推理性问题。

工作原理:ECL 三阶段
  1. Extract:识别文档中的实体(模块、人员、概念、技术名词)
  2. Cognify:用 LLM 推断实体间关系(依赖/影响/属于),构建三元组
  3. Load:写入本地图数据库(默认 NetworkX 内存图,可换 Neo4j)

查询时通过图遍历而非向量相似度,能实现多跳推理。比如" MCP 断线 → 影响哪些 Agent → 这些 Agent 依赖哪些服务"——这种问题 QMD 是答不了的。

典型使用场景
  • 理解代码库中模块之间的依赖关系
  • 推断"A 功能崩溃会影响哪些下游"
  • 从多篇文档中综合出共同结论
  • 分析系统架构的影响链路
安装配置
pip install cognee
import cognee
cognee.config.set_llm_config({
    "provider": "ollama",
    "model": "qwen3:14b",
    "endpoint": "http://localhost:11434"  # 本地 oMLX/Ollama
})
await cognee.add("docs/")
await cognee.cognify()  # 提取知识图谱(慢,但只需一次)
results = await cognee.search("Hermes 和 MCP 的依赖关系")
优点
  • 独特的关系推理能力,是 QMD 做不到的
  • 内置图谱可视化 UI,直观看到知识关系网络
  • 支持 PDF、DOCX、音频、图片等多种格式
  • 答案相关性在关系推理类问题上达到 92.5%
❌   缺点
  • 索引速度慢,每篇文档都要跑 LLM 提取实体,约比 QMD 慢 5–10 倍
  • 查询延迟较高(图遍历 200ms–2s)
  • 对简单的文档检索需求属于"杀鸡用牛刀"

实体提取是 Cognee 的核心步骤,必须调用 LLM,但支持本地 Ollama/oMLX,完全免费。

三、时序与用户画像类

5. Zep(Community Edition)

GitHub:getzep/zep(Apache 2.0)

Zep 专注于时序感知记忆——它不仅记住"说了什么",还记住"什么时候说的、这条信息是否已被更新覆盖"。2026 年与 LangGraph 深度整合后关注度大增。

典型使用场景
  • "上周我说用 Redis,这周改成了 SQLite,以最新的为准"
  • 追踪项目决策的演化历史(某个技术方案经历了几次变更)
  • 需要时间线推理的复杂对话系统
本地部署
docker compose up  # 拉起 Postgres + pgvector + Zep 服务

LOCOMO 基准测试得分 75.14%,低于 agentmemory,但时序推理是其独有优势。

优点
  • 时序追踪是独特能力,其他工具都没有
  • 2026 年 LangGraph 官方集成,生态好
  • 企业级设计,支持大规模部署
❌   缺点
  • 需要 Postgres + pgvector,部署比较重
  • 对纯 Coding Agent 场景价值有限(agentmemory 更合适)


对比总览

功能与技术对比

工具 定位 写入方式 检索方式 本地依赖 需要 LLM 开源协议
agentmemory Coding Agent 行为记忆 自动 Hook BM25+向量+图谱 SQLite(零依赖) 不需要 MIT
mem0 用户画像/个性化 自动提取 向量检索 需要 Qdrant 需要 Apache 2.0
QMD Markdown 文档检索 手动写文件 BM25+向量+Reranker 本地 GGUF Query Expansion MIT
Cognee 知识图谱/关系推理 自动提取三元组 图遍历 本地(需 LLM) 必须 Apache 2.0
Zep CE 时序感知记忆 自动提取 向量+时序索引 Postgres+pgvector 需要 Apache 2.0

本地部署友好度

工具 磁盘占用 额外服务 部署难度
agentmemory ~80–600 MB(Embedding) 极简
QMD ~2.3 GB(3个GGUF模型) 极简
Cognee ~500 MB SDK + LLM 已有 Ollama/oMLX 简单
mem0 ~1 GB Qdrant(Docker) 中等
Zep CE ~2 GB Postgres + pgvector(Docker) 较复杂

检索精度对比

工具 评测得分 备注
agentmemory 95.2%(LongMemEval-S R@5) 三流融合检索
Letta/MemGPT 83.2% 供参考
mem0 68.5% 不同场景设计,不完全可比
Zep 75.14%(LOCOMO) 不同基准,侧重时序推理

各工具使用不同评测基准,数字不可直接横向比较,仅供参考。

怎么选?场景决策树

怎么选?场景决策树

推荐的组合方案

对于 OpenClaw / Hermes 的个人开发者,仙踪问道团队在实际部署中验证了一个三层搭配方案:

第一层用 agentmemory,自动捕获 Agent 行为历史,零干预,关掉不管它,它默默在后台记录所有的技术决策和操作。

第二层用 QMD,把重要的技术笔记、项目规范写成 Markdown,Agent 就能随时检索这些知识库。两个工具都作为 MCP Server 挂载,互不干扰,一个管"做过什么",一个管"知道什么"。

项目复杂度上去之后——代码库有好几个微服务、模块之间依赖关系复杂——再加 Cognee,引入图谱推理能力。三层就齐了:行为记忆 + 文档检索 + 关系推理。

# ~/.hermes/config.yaml
mcp_servers:
  agentmemory:
    command: "npx"
    args: ["@agentmemory/mcp"]
  qmd_search:
    command: "qmd"
    args: ["serve", "--port", "7333"]

归根结底,Agent的"失忆症"不是技术做不到,而是缺少一个中间层——一个能在会话之外持久化知识、跨会话注入上下文的记忆系统。开源社区给的这六款工具,就是在补这一层。它们全部开源免费、全都可以本地运行、数据留在自己的机器上。


附录:关键术语

  • MCP(Model Context Protocol):Anthropic 推出的开放协议,允许 LLM 通过标准接口调用外部工具和服务。agentmemory、QMD 等工具均提供 MCP Server,可直接挂载到 Hermes/OpenClaw
  • BM25:经典全文检索算法,基于词频和逆文档频率打分,速度快
  • 向量检索:将文本转化为高维数字向量,基于语义相似度检索
  • Reranker:对初步检索结果重新打分排序的模型
  • 知识图谱:以节点(实体)和边(关系)表示知识的图结构,支持多跳推理
  • LongMemEval-S:专门评测 AI Agent 跨会话长期记忆能力的标准基准测试集
相关文章
|
11天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
|
12天前
|
JavaScript 定位技术 API
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
CodeGraph 是一款爆火的本地代码智能工具,通过 tree-sitter 解析 AST 构建结构化知识图谱(存于 SQLite),为编程 Agent 提前生成“代码地图”。它显著降低 Agent 在中大型项目中的探索成本——实测工具调用减少71%、Token 降57%、速度提升46%,支持19+语言及主流框架路由识别,完全离线、无需 API Key。
847 11
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
|
12天前
|
人工智能 运维 JavaScript
阿里云Qoder CN(原通义灵码)全解析 产品形态、版本划分与技术适配说明
在AI辅助开发与智能办公工具持续普及的当下,阿里云旗下原通义灵码正式更名为Qoder CN,同时延伸出QoderWork CN、Qoder CN CLI、Qoder CN Mobile等多款配套产品,形成覆盖代码开发、日常办公、终端交互、移动端使用的完整工具矩阵。Qoder CN核心定位为AI智能编码助手,深度适配主流代码编辑器、集成开发环境以及终端场景;QoderWork CN则偏向桌面端综合办公辅助,二者面向不同使用场景,划分了多个版本档位,搭配差异化资源配额、功能权限与计费规则,同时兼容多款主流大模型。
860 8
|
12天前
|
存储 安全 Java
AgentScope Java 2.0:打造分布式、企业级智能体底座
AgentScope 2.0 面向分布式部署、稳定运行、权限安全等企业级需求全面升级,打造支持多租户隔离与长期稳定运行的企业级智能体底座。
|
12天前
|
JSON 缓存 安全
通过 CC Switch 本地路由让 Codex CLI 接入 DeepSeek 等第三方模型
CC Switch 通过本地路由(`127.0.0.1:15721`)实现协议转换:将 Codex 的 Responses API 请求自动映射为 DeepSeek 等厂商的 Chat Completions 接口,兼容流式响应与工具调用,无需修改 Codex 源码,安全隔离 API Key。(239字)
2327 6
通过 CC Switch 本地路由让 Codex CLI 接入 DeepSeek 等第三方模型
|
12天前
|
人工智能 弹性计算 安全
阿里云618活动时间、活动入口、优惠活动详细解读
2026年阿里云618创新加速季已全面开启,作为年度力度最大的云产品促销活动,本次大促覆盖轻量应用服务器、ECS云服务器、GPU云服务器、数据库、AI算力、安全服务、CDN等全品类产品,推出5亿元算力补贴、新用户限时秒杀、普惠满减、企业专享、免费试用、云大使返佣等多重福利,个人开发者、中小企业、AI团队均可享受专属低价。本文将系统梳理2026年阿里云618活动的完整时间节点、官方参与入口、各类优惠细则、使用规则、热门产品推荐及实操代码,帮助用户精准参与、高效省钱,以最低成本完成上云部署。
1886 6
|
12天前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
785 151
|
12天前
|
人工智能 运维 自然语言处理
阿里云百炼Qwen3.7-Max模型详解:综合能力、核心优势与订阅计划参考指南
2026年,大模型技术持续向通用化、高性能、场景化方向迭代,阿里云百炼作为一站式大模型服务平台,持续推出迭代升级的模型产品,Qwen3.7-Max便是当前主力旗舰级大模型之一。该模型依托深度优化的底层架构与大规模训练数据,在文本理解、逻辑推理、多模态交互、代码生成、长文本处理等多个维度实现能力升级,同时搭配灵活的订阅计划体系,能够适配个人开发者、中小企业、大型企业、政企机构等不同类型用户的使用需求。
633 2