论文标题
StreamMeCo:面向高效流式视频理解的长期智能体记忆压缩
作者信息
- 王骏熙:上海交通大学、复旦大学
- 孙特:上海交通大学
- 张林枫:上海交通大学(通讯作者)
研究背景
- 流式视频理解需求激增:直播、实时监控、自动驾驶等场景对连续视频流的实时理解与推理需求快速增长,流式视频理解仅能依赖问题到达前观测到的有限信息,处理持续视觉信息成为核心挑战。
- 现有方法存在局限:主流方法聚焦视觉令牌压缩与KV缓存压缩,在超长视频场景下易丢失关键视觉信息,难以保持人物等实体的长期一致性。
- 智能体记忆方法瓶颈:M3-Agent等基于智能体记忆的方法将视频信息组织为记忆图,虽能保留信息完整性与实体一致性,但随记忆图规模扩大,存储与检索效率急剧下降,检索延迟过高,无法满足实时问答需求。
- 记忆压缩研究空白:工业级流式视频智能体的记忆压缩框架尚未出现,缺乏针对记忆图结构的高效压缩与检索优化方案。
研究目的
- 解决流式视频理解中智能体记忆图规模过大导致的存储成本高、检索速度慢、实时性差的问题。
- 设计无需训练的高效记忆压缩框架,在大幅压缩记忆图的同时,维持甚至提升模型理解精度。
- 提出适配压缩后记忆图的检索机制,缓解压缩带来的性能下降,实现记忆的高效、精准检索。
- 为工业级流式视频智能体提供可落地的记忆压缩与检索解决方案。
本文核心贡献
- 提出双分支记忆压缩策略:针对孤立文本节点设计无边极值采样(EMsampling)模块,针对关联文本节点设计边感知权重剪枝(EWpruning)模块,基于记忆图连通性高效剔除冗余节点,保留关键信息。
- 创新时间衰减记忆检索(TMR)机制:模拟人类记忆遗忘规律,动态分配不同时段记忆节点检索数量,优先获取近期关键信息,显著缓解压缩带来的精度损失。
- 实现记忆压缩与性能双赢:在70%记忆图压缩率下,记忆检索速度提升1.87倍,平均精度提升1.0%,首次实现工业级流式视频智能体的有效记忆压缩。
- 方法具备强通用性:可直接迁移至Mem0等其他图结构智能体记忆框架,拓展了记忆压缩技术的应用范围。
研究方法
1. 整体框架
StreamMeCo为无需训练的流式视频智能体长期记忆压缩框架,核心包含双分支压缩模块与时间衰减检索机制两部分。
2. 文本记忆压缩(双分支策略)
- 无边极值采样(EMsampling)—— 处理孤立文本节点
- 采用球形KMeans对孤立文本节点嵌入向量聚类;
- 按预设保留比例,在每个聚类内执行极值采样:先选聚类中心最近节点,再迭代选取距已选节点最远节点,直至满足保留数量。
- 边感知权重剪枝(EWpruning)—— 处理关联文本节点
- 构建文本节点与人脸/语音实体节点的权重边矩阵,计算节点实体重要性;
- 计算文本节点嵌入相似度矩阵,得到节点多样性得分;
- 融合实体重要性与嵌入相似度得到综合得分,保留高分节点,剪枝冗余节点。
3. 时间衰减记忆检索(TMR)
- 按时间戳将记忆节点划分为连续时段;
- 计算各时段与查询的整体相似度,作为时段相关性得分;
- 引入指数时间衰减函数,模拟人类记忆遗忘,弱化早期记忆权重;
- 按衰减后权重动态分配各时段检索节点数量,优先检索近期高相关记忆。
4. 实验设置
- 数据集:M3-Bench-robot、M3-Bench-web、Video-MME-Long三个流式/长视频基准数据集;
- 基线模型:Gemini-1.5-Pro、GPT-4o、Qwen2.5系列、MovieChat、M3-Agent等13种模型;
- 实验环境:2块NVIDIA A100(80G)GPU,参数设置:聚类比例a=0.05、平衡系数b=0.1、衰减系数λ=0.1;
- 对比方法:随机压缩、传统聚类、DART、TimeChat-Memory、MemoryLLM。
研究结果
- 压缩与精度表现
- 70%记忆图压缩率下,平均精度较未压缩M3-Agent提升1.0%;
- 30%压缩率时,M3-Bench-robot精度达34.6%,M3-Bench-web达50.7%,显著优于随机、聚类等压缩方法。
- 效率提升
- 70%压缩率下,记忆检索速度实现1.87倍加速;
- TMR机制减少检索迭代次数,降低总检索耗时,解决压缩后检索轮次增多的问题。
- 模块有效性
- 消融实验验证EMsampling、实体重要性、嵌入相似度三模块协同效果最优;
- 指数衰减优于线性、分段衰减,λ=0.1时性能最佳。
- 通用性验证
- 迁移至Mem0图记忆框架仍保持最优性能,证明方法适配多种图结构记忆系统。
总结与展望
本文提出的StreamMeCo是首个面向工业级流式视频智能体的长期记忆压缩框架,通过双分支结构压缩与时间衰减检索,在大幅缩减记忆图规模的同时,提升检索效率与模型精度,有效解决了流式视频理解中智能体记忆膨胀的核心痛点,为实时视频理解系统提供了高效记忆管理方案。
局限性
- 记忆图生成需频繁调用Gemini-2.5-Pro与text-embedding-3-large API,成本与时间开销较大;
- 实验仅验证3个基准数据集,测试范围有限。
未来展望
- 针对孤立节点与关联节点设计差异化自适应压缩策略;
- 开展事件节点与语义节点的差异化压缩研究,保留关键事件与稳定语义信息;
- 系统研究记忆冗余、冲突与投毒问题,提升记忆图鲁棒性;
- 优化记忆图构建流程,降低前期时间与算力开销。