StreamMeCo: Long-Term Agent Memory Compression for Efficient Streaming Video Understanding

简介: 本文提出的StreamMeCo是首个面向工业级流式视频智能体的长期记忆压缩框架,通过双分支结构压缩与时间衰减检索,在大幅缩减记忆图规模的同时,提升检索效率与模型精度,有效解决了流式视频理解中智能体记忆膨胀的核心痛点,为实时视频理解系统提供了高效记忆管理方案。

论文标题

StreamMeCo:面向高效流式视频理解的长期智能体记忆压缩

作者信息

  1. 王骏熙:上海交通大学、复旦大学
  2. 孙特:上海交通大学
  3. 张林枫:上海交通大学(通讯作者)

研究背景

  1. 流式视频理解需求激增:直播、实时监控、自动驾驶等场景对连续视频流的实时理解与推理需求快速增长,流式视频理解仅能依赖问题到达前观测到的有限信息,处理持续视觉信息成为核心挑战。
  2. 现有方法存在局限:主流方法聚焦视觉令牌压缩与KV缓存压缩,在超长视频场景下易丢失关键视觉信息,难以保持人物等实体的长期一致性。
  3. 智能体记忆方法瓶颈:M3-Agent等基于智能体记忆的方法将视频信息组织为记忆图,虽能保留信息完整性与实体一致性,但随记忆图规模扩大,存储与检索效率急剧下降,检索延迟过高,无法满足实时问答需求。
  4. 记忆压缩研究空白:工业级流式视频智能体的记忆压缩框架尚未出现,缺乏针对记忆图结构的高效压缩与检索优化方案。

研究目的

  1. 解决流式视频理解中智能体记忆图规模过大导致的存储成本高、检索速度慢、实时性差的问题。
  2. 设计无需训练的高效记忆压缩框架,在大幅压缩记忆图的同时,维持甚至提升模型理解精度
  3. 提出适配压缩后记忆图的检索机制,缓解压缩带来的性能下降,实现记忆的高效、精准检索。
  4. 为工业级流式视频智能体提供可落地的记忆压缩与检索解决方案。

本文核心贡献

  1. 提出双分支记忆压缩策略:针对孤立文本节点设计无边极值采样(EMsampling)模块,针对关联文本节点设计边感知权重剪枝(EWpruning)模块,基于记忆图连通性高效剔除冗余节点,保留关键信息。
  2. 创新时间衰减记忆检索(TMR)机制:模拟人类记忆遗忘规律,动态分配不同时段记忆节点检索数量,优先获取近期关键信息,显著缓解压缩带来的精度损失。
  3. 实现记忆压缩与性能双赢:在70%记忆图压缩率下,记忆检索速度提升1.87倍,平均精度提升1.0%,首次实现工业级流式视频智能体的有效记忆压缩。
  4. 方法具备强通用性:可直接迁移至Mem0等其他图结构智能体记忆框架,拓展了记忆压缩技术的应用范围。

研究方法

image

1. 整体框架

StreamMeCo为无需训练的流式视频智能体长期记忆压缩框架,核心包含双分支压缩模块时间衰减检索机制两部分。

2. 文本记忆压缩(双分支策略)

  • 无边极值采样(EMsampling)—— 处理孤立文本节点
    1. 采用球形KMeans对孤立文本节点嵌入向量聚类;
    2. 按预设保留比例,在每个聚类内执行极值采样:先选聚类中心最近节点,再迭代选取距已选节点最远节点,直至满足保留数量。
  • 边感知权重剪枝(EWpruning)—— 处理关联文本节点
    1. 构建文本节点与人脸/语音实体节点的权重边矩阵,计算节点实体重要性;
    2. 计算文本节点嵌入相似度矩阵,得到节点多样性得分;
    3. 融合实体重要性与嵌入相似度得到综合得分,保留高分节点,剪枝冗余节点。

3. 时间衰减记忆检索(TMR)

  1. 按时间戳将记忆节点划分为连续时段;
  2. 计算各时段与查询的整体相似度,作为时段相关性得分;
  3. 引入指数时间衰减函数,模拟人类记忆遗忘,弱化早期记忆权重;
  4. 按衰减后权重动态分配各时段检索节点数量,优先检索近期高相关记忆。

4. 实验设置

  • 数据集:M3-Bench-robot、M3-Bench-web、Video-MME-Long三个流式/长视频基准数据集;
  • 基线模型:Gemini-1.5-Pro、GPT-4o、Qwen2.5系列、MovieChat、M3-Agent等13种模型;
  • 实验环境:2块NVIDIA A100(80G)GPU,参数设置:聚类比例a=0.05、平衡系数b=0.1、衰减系数λ=0.1;
  • 对比方法:随机压缩、传统聚类、DART、TimeChat-Memory、MemoryLLM。

研究结果

  1. 压缩与精度表现
    • 70%记忆图压缩率下,平均精度较未压缩M3-Agent提升1.0%;
    • 30%压缩率时,M3-Bench-robot精度达34.6%,M3-Bench-web达50.7%,显著优于随机、聚类等压缩方法。
  2. 效率提升
    • 70%压缩率下,记忆检索速度实现1.87倍加速
    • TMR机制减少检索迭代次数,降低总检索耗时,解决压缩后检索轮次增多的问题。
  3. 模块有效性
    • 消融实验验证EMsampling、实体重要性、嵌入相似度三模块协同效果最优;
    • 指数衰减优于线性、分段衰减,λ=0.1时性能最佳。
  4. 通用性验证
    • 迁移至Mem0图记忆框架仍保持最优性能,证明方法适配多种图结构记忆系统。

总结与展望

本文提出的StreamMeCo是首个面向工业级流式视频智能体的长期记忆压缩框架,通过双分支结构压缩与时间衰减检索,在大幅缩减记忆图规模的同时,提升检索效率与模型精度,有效解决了流式视频理解中智能体记忆膨胀的核心痛点,为实时视频理解系统提供了高效记忆管理方案。

局限性

  1. 记忆图生成需频繁调用Gemini-2.5-Pro与text-embedding-3-large API,成本与时间开销较大;
  2. 实验仅验证3个基准数据集,测试范围有限。

未来展望

  1. 针对孤立节点与关联节点设计差异化自适应压缩策略
  2. 开展事件节点与语义节点的差异化压缩研究,保留关键事件与稳定语义信息;
  3. 系统研究记忆冗余、冲突与投毒问题,提升记忆图鲁棒性;
  4. 优化记忆图构建流程,降低前期时间与算力开销。
相关文章
|
4月前
|
数据采集 人工智能 达摩院
达摩院开源RynnBrain:首个支持移动操作的具身大脑基础模型
达摩院发布首个可移动操作的具身基础模型RynnBrain,首创时空记忆与物理空间推理能力,支持视频/图像/文本多模态输入及区域、轨迹等具身输出。开源MOE架构RynnBrain-30B-A3B(仅3B激活参数),在16项基准全面SOTA,并推出全新评测集RynnBrain-Bench。
722 8
|
10天前
|
人工智能 安全 开发者
Claw-Eval开源:300个真实任务,端到端评测AI智能体的完成度、安全性与鲁棒性
Claw-Eval是面向自主Agent的端到端评测框架,突破“只看结果”局限,聚焦任务执行全过程——可追溯、合规、容错。基于300个人工验证的真实任务,从完成度、安全性、鲁棒性三维度评估14个前沿模型,开源数据集、排行榜及代码。
209 4
|
XML SQL Web App开发
用友 GRP-U8 Proxy XXE-SQL注入漏洞
用友 GRP-U8 Proxy XXE-SQL注入漏洞,攻击者可利用该漏洞获取数据库敏感信息,具体复现操作请看下文。
809 1
|
3月前
|
运维 Linux API
OpenClaw Docker容器化部署、生命周期管理指南|阿里云+本地部署+千问API配置+运维实战+故障排查
2026年,Docker容器化已成为OpenClaw(Clawdbot)部署的首选方案——通过容器封装,可实现环境一致性、安全隔离、快速迁移的核心优势,彻底解决“本地能跑、云端崩”的环境兼容问题。无论是阿里云服务器的长期稳定运行,还是本地MacOS/Linux/Windows11的开发调试,Docker都能提供标准化的部署与管理流程。
683 0
|
6月前
|
机器学习/深度学习 人工智能 监控
NeurIPS 2025 Spotlight!跨模态重识别革命!东北大学等 MDReID 图像信息智能匹配
东北大学等提出MDReID,获NeurIPS 2025 Spotlight!该方法实现跨模态行人重识别,创新性地将图像特征解耦为通用与专用特征,支持RGB、NIR、TIR等任意模态自由匹配,显著提升异源图像检索精度,推动安防、监控等领域智能化发展。
372 1
NeurIPS 2025 Spotlight!跨模态重识别革命!东北大学等 MDReID 图像信息智能匹配
|
7月前
|
人工智能 自然语言处理 计算机视觉
CVPR 2024 | 赋能大语言模型以精准理解视频时序瞬间 | LLM | 时序预测
VTimeLLM提出新型时间感知架构,赋能大语言模型精准理解视频时序瞬间。通过时间对齐表征与时序预训练,实现事件定位、时序推理与细粒度视频理解,支持自然语言交互式探索视频内容。
243 0
CVPR 2024 | 赋能大语言模型以精准理解视频时序瞬间 | LLM | 时序预测
|
7月前
|
机器学习/深度学习 人工智能 计算机视觉
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测
FBRT-YOLO提出专用于航拍图像的实时目标检测模型,通过轻量化设计、增强多尺度融合与小目标优化,在保证高精度的同时显著提升速度,实现复杂场景下更优的性能平衡。
638 0
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测
|
4月前
|
Linux C++ iOS开发
2025年7 个鲜为人知但超实用的 VS Code 技巧
VS Code 7大高效技巧:①命令面板(Ctrl+Shift+P)秒搜所有命令;②单手开关终端(Ctrl+`);③本地离线语音输入(Ctrl+Alt+V);④多光标列编辑;⑤标签页浮窗化;⑥跨文件智能补全;⑦快速设只读。附高阶技巧如进程管理、Profiles工作流。
280 2
|
11月前
|
存储 数据采集 自然语言处理
Python爬取公众号文章并实现关键词分析
Python爬取公众号文章并实现关键词分析
|
11月前
|
运维 监控 关系型数据库
AI 时代的 MySQL 数据库运维解决方案
本文探讨了大模型与MySQL数据库运维结合所带来的变革,介绍了构建结构化运维知识库、选择合适的大模型、设计Prompt调用策略、开发MCP Server以及建立监控优化闭环等关键步骤。通过将自然语言处理能力与数据库运维相结合,实现了故障智能诊断、SQL自动优化等功能,显著提升了MySQL运维效率和准确性。
964 18

热门文章

最新文章