StreamMeCo: Long-Term Agent Memory Compression for Efficient Streaming Video Understanding

简介: 本文提出的StreamMeCo是首个面向工业级流式视频智能体的长期记忆压缩框架,通过双分支结构压缩与时间衰减检索,在大幅缩减记忆图规模的同时,提升检索效率与模型精度,有效解决了流式视频理解中智能体记忆膨胀的核心痛点,为实时视频理解系统提供了高效记忆管理方案。

论文标题

StreamMeCo:面向高效流式视频理解的长期智能体记忆压缩

作者信息

  1. 王骏熙:上海交通大学、复旦大学
  2. 孙特:上海交通大学
  3. 张林枫:上海交通大学(通讯作者)

研究背景

  1. 流式视频理解需求激增:直播、实时监控、自动驾驶等场景对连续视频流的实时理解与推理需求快速增长,流式视频理解仅能依赖问题到达前观测到的有限信息,处理持续视觉信息成为核心挑战。
  2. 现有方法存在局限:主流方法聚焦视觉令牌压缩与KV缓存压缩,在超长视频场景下易丢失关键视觉信息,难以保持人物等实体的长期一致性。
  3. 智能体记忆方法瓶颈:M3-Agent等基于智能体记忆的方法将视频信息组织为记忆图,虽能保留信息完整性与实体一致性,但随记忆图规模扩大,存储与检索效率急剧下降,检索延迟过高,无法满足实时问答需求。
  4. 记忆压缩研究空白:工业级流式视频智能体的记忆压缩框架尚未出现,缺乏针对记忆图结构的高效压缩与检索优化方案。

研究目的

  1. 解决流式视频理解中智能体记忆图规模过大导致的存储成本高、检索速度慢、实时性差的问题。
  2. 设计无需训练的高效记忆压缩框架,在大幅压缩记忆图的同时,维持甚至提升模型理解精度
  3. 提出适配压缩后记忆图的检索机制,缓解压缩带来的性能下降,实现记忆的高效、精准检索。
  4. 为工业级流式视频智能体提供可落地的记忆压缩与检索解决方案。

本文核心贡献

  1. 提出双分支记忆压缩策略:针对孤立文本节点设计无边极值采样(EMsampling)模块,针对关联文本节点设计边感知权重剪枝(EWpruning)模块,基于记忆图连通性高效剔除冗余节点,保留关键信息。
  2. 创新时间衰减记忆检索(TMR)机制:模拟人类记忆遗忘规律,动态分配不同时段记忆节点检索数量,优先获取近期关键信息,显著缓解压缩带来的精度损失。
  3. 实现记忆压缩与性能双赢:在70%记忆图压缩率下,记忆检索速度提升1.87倍,平均精度提升1.0%,首次实现工业级流式视频智能体的有效记忆压缩。
  4. 方法具备强通用性:可直接迁移至Mem0等其他图结构智能体记忆框架,拓展了记忆压缩技术的应用范围。

研究方法

image

1. 整体框架

StreamMeCo为无需训练的流式视频智能体长期记忆压缩框架,核心包含双分支压缩模块时间衰减检索机制两部分。

2. 文本记忆压缩(双分支策略)

  • 无边极值采样(EMsampling)—— 处理孤立文本节点
    1. 采用球形KMeans对孤立文本节点嵌入向量聚类;
    2. 按预设保留比例,在每个聚类内执行极值采样:先选聚类中心最近节点,再迭代选取距已选节点最远节点,直至满足保留数量。
  • 边感知权重剪枝(EWpruning)—— 处理关联文本节点
    1. 构建文本节点与人脸/语音实体节点的权重边矩阵,计算节点实体重要性;
    2. 计算文本节点嵌入相似度矩阵,得到节点多样性得分;
    3. 融合实体重要性与嵌入相似度得到综合得分,保留高分节点,剪枝冗余节点。

3. 时间衰减记忆检索(TMR)

  1. 按时间戳将记忆节点划分为连续时段;
  2. 计算各时段与查询的整体相似度,作为时段相关性得分;
  3. 引入指数时间衰减函数,模拟人类记忆遗忘,弱化早期记忆权重;
  4. 按衰减后权重动态分配各时段检索节点数量,优先检索近期高相关记忆。

4. 实验设置

  • 数据集:M3-Bench-robot、M3-Bench-web、Video-MME-Long三个流式/长视频基准数据集;
  • 基线模型:Gemini-1.5-Pro、GPT-4o、Qwen2.5系列、MovieChat、M3-Agent等13种模型;
  • 实验环境:2块NVIDIA A100(80G)GPU,参数设置:聚类比例a=0.05、平衡系数b=0.1、衰减系数λ=0.1;
  • 对比方法:随机压缩、传统聚类、DART、TimeChat-Memory、MemoryLLM。

研究结果

  1. 压缩与精度表现
    • 70%记忆图压缩率下,平均精度较未压缩M3-Agent提升1.0%;
    • 30%压缩率时,M3-Bench-robot精度达34.6%,M3-Bench-web达50.7%,显著优于随机、聚类等压缩方法。
  2. 效率提升
    • 70%压缩率下,记忆检索速度实现1.87倍加速
    • TMR机制减少检索迭代次数,降低总检索耗时,解决压缩后检索轮次增多的问题。
  3. 模块有效性
    • 消融实验验证EMsampling、实体重要性、嵌入相似度三模块协同效果最优;
    • 指数衰减优于线性、分段衰减,λ=0.1时性能最佳。
  4. 通用性验证
    • 迁移至Mem0图记忆框架仍保持最优性能,证明方法适配多种图结构记忆系统。

总结与展望

本文提出的StreamMeCo是首个面向工业级流式视频智能体的长期记忆压缩框架,通过双分支结构压缩与时间衰减检索,在大幅缩减记忆图规模的同时,提升检索效率与模型精度,有效解决了流式视频理解中智能体记忆膨胀的核心痛点,为实时视频理解系统提供了高效记忆管理方案。

局限性

  1. 记忆图生成需频繁调用Gemini-2.5-Pro与text-embedding-3-large API,成本与时间开销较大;
  2. 实验仅验证3个基准数据集,测试范围有限。

未来展望

  1. 针对孤立节点与关联节点设计差异化自适应压缩策略
  2. 开展事件节点与语义节点的差异化压缩研究,保留关键事件与稳定语义信息;
  3. 系统研究记忆冗余、冲突与投毒问题,提升记忆图鲁棒性;
  4. 优化记忆图构建流程,降低前期时间与算力开销。
相关文章
|
存储 缓存 文件存储
如何保证分布式文件系统的数据一致性
分布式文件系统需要向上层应用提供透明的客户端缓存,从而缓解网络延时现象,更好地支持客户端性能水平扩展,同时也降低对文件服务器的访问压力。当考虑客户端缓存的时候,由于在客户端上引入了多个本地数据副本(Replica),就相应地需要提供客户端对数据访问的全局数据一致性。
32701 79
如何保证分布式文件系统的数据一致性
|
前端开发 容器
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局(上)
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局
17756 20
|
设计模式 存储 监控
设计模式(C++版)
看懂UML类图和时序图30分钟学会UML类图设计原则单一职责原则定义:单一职责原则,所谓职责是指类变化的原因。如果一个类有多于一个的动机被改变,那么这个类就具有多于一个的职责。而单一职责原则就是指一个类或者模块应该有且只有一个改变的原因。bad case:IPhone类承担了协议管理(Dial、HangUp)、数据传送(Chat)。good case:里式替换原则定义:里氏代换原则(Liskov 
36685 20
设计模式(C++版)
|
存储 编译器 C语言
抽丝剥茧C语言(初阶 下)(下)
抽丝剥茧C语言(初阶 下)
|
机器学习/深度学习 人工智能 自然语言处理
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
24765 14
|
机器学习/深度学习 弹性计算 监控
重生之---我测阿里云U1实例(通用算力型)
阿里云产品全线降价的一力作,2023年4月阿里云推出新款通用算力型ECS云服务器Universal实例,该款服务器的真实表现如何?让我先测为敬!
36665 15
重生之---我测阿里云U1实例(通用算力型)
|
SQL 存储 弹性计算
Redis性能高30%,阿里云倚天ECS性能摸底和迁移实践
Redis在倚天ECS环境下与同规格的基于 x86 的 ECS 实例相比,Redis 部署在基于 Yitian 710 的 ECS 上可获得高达 30% 的吞吐量优势。成本方面基于倚天710的G8y实例售价比G7实例低23%,总性价比提高50%;按照相同算法,相对G8a,性价比为1.4倍左右。
|
存储 算法 Java
【分布式技术专题】「分布式技术架构」手把手教你如何开发一个属于自己的限流器RateLimiter功能服务
随着互联网的快速发展,越来越多的应用程序需要处理大量的请求。如果没有限制,这些请求可能会导致应用程序崩溃或变得不可用。因此,限流器是一种非常重要的技术,可以帮助应用程序控制请求的数量和速率,以保持稳定和可靠的运行。
29839 52

热门文章

最新文章

下一篇
开通oss服务