您好,我是长期使用贵司产品的开发者。
我自行研究并设计了一套 AI 外挂式长期记忆中间件架构,纯技术方案,无任何投诉和建议诉求,仅作为行业技术交流,发给贵司技术团队参考。
方案包含四层架构、三层索引、四级记忆分层、本地检索、Token 可控、记忆生命周期治理等完整工程设计,可直接落地集成到 AI 助手、IDE 编程工具中,供你们内部架构研究和后续版本优化借鉴。
1 行业现有方案技术短板
超大上下文窗口
无法长期沉淀跨月 / 跨年知识,全量灌入 Token 成本极高,冗余信息干扰模型注意力,推理效率下降。
LLM 原生记忆方案
依赖大模型做摘要、检索、写入,每轮对话额外消耗 Token;记忆规则黑盒,易产生记忆漂移、事实错乱,不可控。
向量数据库记忆
依赖云端部署、有网络延迟与运维成本;敏感代码 / 业务数据必须上云,隐私合规风险高;轻量本地 IDE 场景太重、冗余。
现有产品简易记忆
仅固定条数存储,无分层、无索引、无生命周期治理;检索逻辑简陋,无结构化分类,长期使用快速失效。
2 整体技术架构(四层模块化)
整体采用外挂中间件模式,不侵入大模型、不改造现有 AI 产品内核,可插拔接入任意模型 / IDE。
应用接入层
统一适配:AI 对话客户端、IDE 编程助手、第三方插件、私有化部署场景。
语义提取层(无 LLM 规则引擎)
完全不调用大模型,纯本地算法实现:
停用词过滤 + TF-IDF 关键词权重提取
正则实体匹配:函数名、类名、文件路径、技术栈、项目标识
会话窗口上下文高频词提取
显性记忆指令规则识别
输出:标准化关键词、领域标签、当前会话意图,供给索引层检索。
三层索引检索层(核心技术)
借鉴字典检索逻辑,三级索引逐级命中,检索全程零 LLM 调用、零 Token 消耗:
索引 A:倒排索引 → 关键词精准匹配,毫秒级最高优先级命中
索引 B:分类标签树 → 按项目 / 领域 / 场景做归类召回
索引 C:BM25 轻量全文检索 → 前两级未命中时兜底检索,低频次触发
结构化存储层
采用三级空间隔离 + 标准化记忆卡片:
空间层级:Wing (全局 / 项目 / 用户) → Hall (事实 / 事件 / 设定) → Room (业务模块)
存储介质:JSON/SQLite 本地文件,无云端依赖
卡片结构:唯一 ID、记忆层级、标签集、内容、时间戳、访问频次、关联卡片链路
3 记忆四级分层 & Prompt 注入策略
按优先级分级管控,按需动态注入,严格控制 Token 开销:
L0 用户基础层:编码风格、技术偏好、常用工具 → 常驻轻量注入
L1 项目基准层:架构选型、技术栈、目录规范、协作约定 → 常驻基础注入
L2 会话过程层:模块决策、接口定义、Bug 根因、历史方案 → 索引命中后按需注入
L3 归档沉淀层:跨项目跨年历史经验 → 仅兜底场景触发,常态不注入
技术指标:单次对话记忆额外 Token 稳定控制在 130~330,远优于向量检索、全量上下文方案。
4 记忆卡片标准化结构
统一结构化字段,支持版本追溯、关联检索、生命周期管理:
唯一编号、记忆层级、所属空间、分类标签、正文内容、创建时间、最后访问时间、访问次数、关联记忆 ID 列表。
5 记忆生命周期治理技术逻辑
解决记忆过期、冲突、污染三大工程问题:
时间衰减降级:长期未访问卡片自动从 L2 降级至 L3,减少无效召回
事实版本覆盖:同场景新事实迭代旧记录,保留历史版本可回滚
内容冲突检测:同领域新旧事实自动比对,规避矛盾记忆注入
人工可控运维:支持手动增删改、导出备份、跨环境迁移、重置清空
6 方案技术优势
模型无感兼容:不绑定任何大模型,通用适配闭源 / 开源 / 本地小模型
检索零推理开销:索引纯本地算法,不消耗 LLM Token 与接口调用
轻量易落地:模块化中间件,无需重构现有产品架构,可叠加式升级
本地隐私可控:全量数据落地本地,不上云,满足私有化与合规要求
知识资产化:个人编码习惯、团队架构规范、历史技术决策可长期结构化沉淀
低资源占用:无需向量库、无需额外服务器,适配 IDE、客户端轻量部署
7 适用落地场景
AI 编程助手(Trae、Cursor 等)原生记忆架构升级
通用大模型客户端长期记忆中间件集成
企业团队专属技术记忆库,沉淀架构规范与踩坑经验
本地私有化 AI 部署标配长期记忆模块
跨平台用户记忆资产迁移,解除厂商生态锁定
8 说明
本方案为个人原创工程化架构设计,已完成逻辑原型闭环,属纯技术探索方案,无商业诉求、无情绪吐槽,仅向行业各技术团队提供架构参考、技术交流与落地思路借鉴。