StreamMeCo: Long-Term Agent Memory Compression for Efficient Streaming Video Understanding

简介: 本文提出的StreamMeCo是首个面向工业级流式视频智能体的长期记忆压缩框架,通过双分支结构压缩与时间衰减检索,在大幅缩减记忆图规模的同时,提升检索效率与模型精度,有效解决了流式视频理解中智能体记忆膨胀的核心痛点,为实时视频理解系统提供了高效记忆管理方案。

论文标题

StreamMeCo:面向高效流式视频理解的长期智能体记忆压缩

作者信息

  1. 王骏熙:上海交通大学、复旦大学
  2. 孙特:上海交通大学
  3. 张林枫:上海交通大学(通讯作者)

研究背景

  1. 流式视频理解需求激增:直播、实时监控、自动驾驶等场景对连续视频流的实时理解与推理需求快速增长,流式视频理解仅能依赖问题到达前观测到的有限信息,处理持续视觉信息成为核心挑战。
  2. 现有方法存在局限:主流方法聚焦视觉令牌压缩与KV缓存压缩,在超长视频场景下易丢失关键视觉信息,难以保持人物等实体的长期一致性。
  3. 智能体记忆方法瓶颈:M3-Agent等基于智能体记忆的方法将视频信息组织为记忆图,虽能保留信息完整性与实体一致性,但随记忆图规模扩大,存储与检索效率急剧下降,检索延迟过高,无法满足实时问答需求。
  4. 记忆压缩研究空白:工业级流式视频智能体的记忆压缩框架尚未出现,缺乏针对记忆图结构的高效压缩与检索优化方案。

研究目的

  1. 解决流式视频理解中智能体记忆图规模过大导致的存储成本高、检索速度慢、实时性差的问题。
  2. 设计无需训练的高效记忆压缩框架,在大幅压缩记忆图的同时,维持甚至提升模型理解精度
  3. 提出适配压缩后记忆图的检索机制,缓解压缩带来的性能下降,实现记忆的高效、精准检索。
  4. 为工业级流式视频智能体提供可落地的记忆压缩与检索解决方案。

本文核心贡献

  1. 提出双分支记忆压缩策略:针对孤立文本节点设计无边极值采样(EMsampling)模块,针对关联文本节点设计边感知权重剪枝(EWpruning)模块,基于记忆图连通性高效剔除冗余节点,保留关键信息。
  2. 创新时间衰减记忆检索(TMR)机制:模拟人类记忆遗忘规律,动态分配不同时段记忆节点检索数量,优先获取近期关键信息,显著缓解压缩带来的精度损失。
  3. 实现记忆压缩与性能双赢:在70%记忆图压缩率下,记忆检索速度提升1.87倍,平均精度提升1.0%,首次实现工业级流式视频智能体的有效记忆压缩。
  4. 方法具备强通用性:可直接迁移至Mem0等其他图结构智能体记忆框架,拓展了记忆压缩技术的应用范围。

研究方法

image

1. 整体框架

StreamMeCo为无需训练的流式视频智能体长期记忆压缩框架,核心包含双分支压缩模块时间衰减检索机制两部分。

2. 文本记忆压缩(双分支策略)

  • 无边极值采样(EMsampling)—— 处理孤立文本节点
    1. 采用球形KMeans对孤立文本节点嵌入向量聚类;
    2. 按预设保留比例,在每个聚类内执行极值采样:先选聚类中心最近节点,再迭代选取距已选节点最远节点,直至满足保留数量。
  • 边感知权重剪枝(EWpruning)—— 处理关联文本节点
    1. 构建文本节点与人脸/语音实体节点的权重边矩阵,计算节点实体重要性;
    2. 计算文本节点嵌入相似度矩阵,得到节点多样性得分;
    3. 融合实体重要性与嵌入相似度得到综合得分,保留高分节点,剪枝冗余节点。

3. 时间衰减记忆检索(TMR)

  1. 按时间戳将记忆节点划分为连续时段;
  2. 计算各时段与查询的整体相似度,作为时段相关性得分;
  3. 引入指数时间衰减函数,模拟人类记忆遗忘,弱化早期记忆权重;
  4. 按衰减后权重动态分配各时段检索节点数量,优先检索近期高相关记忆。

4. 实验设置

  • 数据集:M3-Bench-robot、M3-Bench-web、Video-MME-Long三个流式/长视频基准数据集;
  • 基线模型:Gemini-1.5-Pro、GPT-4o、Qwen2.5系列、MovieChat、M3-Agent等13种模型;
  • 实验环境:2块NVIDIA A100(80G)GPU,参数设置:聚类比例a=0.05、平衡系数b=0.1、衰减系数λ=0.1;
  • 对比方法:随机压缩、传统聚类、DART、TimeChat-Memory、MemoryLLM。

研究结果

  1. 压缩与精度表现
    • 70%记忆图压缩率下,平均精度较未压缩M3-Agent提升1.0%;
    • 30%压缩率时,M3-Bench-robot精度达34.6%,M3-Bench-web达50.7%,显著优于随机、聚类等压缩方法。
  2. 效率提升
    • 70%压缩率下,记忆检索速度实现1.87倍加速
    • TMR机制减少检索迭代次数,降低总检索耗时,解决压缩后检索轮次增多的问题。
  3. 模块有效性
    • 消融实验验证EMsampling、实体重要性、嵌入相似度三模块协同效果最优;
    • 指数衰减优于线性、分段衰减,λ=0.1时性能最佳。
  4. 通用性验证
    • 迁移至Mem0图记忆框架仍保持最优性能,证明方法适配多种图结构记忆系统。

总结与展望

本文提出的StreamMeCo是首个面向工业级流式视频智能体的长期记忆压缩框架,通过双分支结构压缩与时间衰减检索,在大幅缩减记忆图规模的同时,提升检索效率与模型精度,有效解决了流式视频理解中智能体记忆膨胀的核心痛点,为实时视频理解系统提供了高效记忆管理方案。

局限性

  1. 记忆图生成需频繁调用Gemini-2.5-Pro与text-embedding-3-large API,成本与时间开销较大;
  2. 实验仅验证3个基准数据集,测试范围有限。

未来展望

  1. 针对孤立节点与关联节点设计差异化自适应压缩策略
  2. 开展事件节点与语义节点的差异化压缩研究,保留关键事件与稳定语义信息;
  3. 系统研究记忆冗余、冲突与投毒问题,提升记忆图鲁棒性;
  4. 优化记忆图构建流程,降低前期时间与算力开销。
相关文章
|
3月前
|
数据采集 人工智能 达摩院
达摩院开源RynnBrain:首个支持移动操作的具身大脑基础模型
达摩院发布首个可移动操作的具身基础模型RynnBrain,首创时空记忆与物理空间推理能力,支持视频/图像/文本多模态输入及区域、轨迹等具身输出。开源MOE架构RynnBrain-30B-A3B(仅3B激活参数),在16项基准全面SOTA,并推出全新评测集RynnBrain-Bench。
613 8
|
5月前
|
机器学习/深度学习 人工智能 监控
NeurIPS 2025 Spotlight!跨模态重识别革命!东北大学等 MDReID 图像信息智能匹配
东北大学等提出MDReID,获NeurIPS 2025 Spotlight!该方法实现跨模态行人重识别,创新性地将图像特征解耦为通用与专用特征,支持RGB、NIR、TIR等任意模态自由匹配,显著提升异源图像检索精度,推动安防、监控等领域智能化发展。
325 1
NeurIPS 2025 Spotlight!跨模态重识别革命!东北大学等 MDReID 图像信息智能匹配
|
6月前
|
机器学习/深度学习 人工智能
NeurIPS 2025!电子科大同济等提出Table2LaTeX-RL:表格转 LaTeX 精准度再突破
Table2LaTeX-RL:基于强化多模态大模型,实现从表格图像到高保真LaTeX代码的生成。创新提出VSGRPO双奖励机制与百万级数据集,显著提升复杂表格的结构与视觉一致性,推动学术文档自动化重建新进展。
172 1
NeurIPS 2025!电子科大同济等提出Table2LaTeX-RL:表格转 LaTeX 精准度再突破
|
6月前
|
人工智能 Linux C++
VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉
VideoLLaMA 3是2025年发布的前沿多模态模型,深度融合视觉、音频与语言,支持长视频、高分辨率图像理解及视听融合推理。基于Llama 3架构,具备强大时空因果分析能力,适用于复杂视频理解任务,已在Lab4AI平台开放复现。
525 1
VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉
|
6月前
|
机器学习/深度学习 人工智能 算法
7M参数,干翻巨无霸LLM!这款超小递归模型(TRM),在ARC-AGI上证明了“少即是多”
Lab4AI.cn提供免费的AI翻译和AI导读工具辅助论文阅读;支持投稿复现,动手复现感兴趣的论文;论文复现完成后,您可基于您的思路和想法,开启论文创新。
332 3
7M参数,干翻巨无霸LLM!这款超小递归模型(TRM),在ARC-AGI上证明了“少即是多”
|
6月前
|
自然语言处理 物联网 Shell
从 50 步到 4 步:LightX2V 如何把视频生成拉进20 秒时代?
LightX2V 是一款轻量级视频生成框架,通过4步蒸馏技术,将传统需50步的扩散模型压缩至仅4步,推理速度提升20倍,生成质量依旧保持影院级水准。支持文生视频与图生视频,兼容LoRA、量化等部署方案,助力AIGC高效落地。
771 0
从 50 步到 4 步:LightX2V 如何把视频生成拉进20 秒时代?
|
6月前
|
人工智能 自然语言处理 计算机视觉
CVPR 2024 | 赋能大语言模型以精准理解视频时序瞬间 | LLM | 时序预测
VTimeLLM提出新型时间感知架构,赋能大语言模型精准理解视频时序瞬间。通过时间对齐表征与时序预训练,实现事件定位、时序推理与细粒度视频理解,支持自然语言交互式探索视频内容。
217 0
CVPR 2024 | 赋能大语言模型以精准理解视频时序瞬间 | LLM | 时序预测
|
6月前
|
机器学习/深度学习 人工智能 计算机视觉
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测
FBRT-YOLO提出专用于航拍图像的实时目标检测模型,通过轻量化设计、增强多尺度融合与小目标优化,在保证高精度的同时显著提升速度,实现复杂场景下更优的性能平衡。
561 0
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测
|
5月前
|
机器学习/深度学习 人工智能 测试技术
NeurIPS 2025 | 浙大、浙工大等团队提出LRMs 自适应思考:简单任务快处理,复杂任务深分析
浙大、阿里云等提出首个LRM快慢思维控制方法,发现特定词可触发思维模式,结合PCA导向与自适应策略,实现无需训练的推理速度调控,在多模型上显著提升准确率并减少耗材。
267 1
NeurIPS 2025 | 浙大、浙工大等团队提出LRMs 自适应思考:简单任务快处理,复杂任务深分析
|
5月前
|
JSON 算法 Shell
实测腾讯混元HY-World 1.5:虚拟世界的推理实战
腾讯混元HY-World 1.5发布,全球首个开源、实时交互且具长时几何一致性的3D世界模型。支持24帧/秒流式生成,适用于虚拟拍摄、仿真合成等场景。提供双向、自回归及蒸馏模型,兼顾质量与速度。现已开放GitHub、Hugging Face及Lab4AI一键体验平台,助力创作者构建沉浸式虚拟世界。
340 0