ECCV 2024：比基准高30%，媲美Gemini 1.5 Pro，基于记忆的视频理解智能体来了-阿里云开发者社区

ECCV 2024：比基准高30%，媲美Gemini 1.5 Pro，基于记忆的视频理解智能体来了

2024-10-12 66

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【10月更文挑战第2天】该论文提出了一种基于记忆的多模态智能体VideoAgent，通过结合大语言模型和视觉语言模型，引入统一记忆机制，在视频理解任务中实现了显著性能提升。VideoAgent构建了结构化的记忆系统，存储视频中的时间事件描述和对象状态，支持零样本工具使用，提升了长视频理解能力。实验结果显示，VideoAgent在NExT-QA和EgoSchema等数据集上分别提升了6.6%和26.0%的性能。然而，其在处理长视频时仍面临内存和计算资源限制，多模态融合能力也有待进一步提高。

在最近的ECCV 2024会议上，一篇名为"VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding"的论文引起了广泛关注。该论文提出了一种名为VideoAgent的新型智能体，旨在解决视频理解领域的挑战，特别是捕捉长视频中的长期时间关系。

VideoAgent是一种基于记忆的多模态智能体，它通过结合大型语言模型和视觉语言模型，并引入一种新颖的统一记忆机制，实现了在视频理解任务上的显著性能提升。该智能体的主要贡献在于其独特的记忆结构，能够存储视频中通用的时间事件描述和以对象为中心的跟踪状态。

具体而言，VideoAgent首先构建了一个结构化的记忆系统，用于存储视频中的关键信息。这个记忆系统不仅包含了视频中的时间事件描述，还记录了视频中各个对象的运动状态和相互关系。通过这种方式，VideoAgent能够更好地理解视频内容，并捕捉到长期的时间关系。

在处理输入的任务查询时，VideoAgent利用了一系列的工具和技术，包括视频片段定位和对象记忆查询。这些工具和技术与视觉基础模型相结合，使得VideoAgent能够根据任务需求进行交互式的推理和决策。

值得一提的是，VideoAgent还具备零样本工具使用的能力，这意味着它能够根据任务需求，灵活地选择和使用不同的工具来解决问题。这种能力得益于大型语言模型的强大泛化能力，使得VideoAgent能够适应各种不同的视频理解任务。

在实验中，VideoAgent在多个长时视频理解基准测试中表现出了令人印象深刻的性能。与基准模型相比，VideoAgent在NExT-QA和EgoSchema等数据集上的平均性能提升分别达到了6.6%和26.0%。此外，VideoAgent还成功缩小了与私有模型（如Gemini 1.5 Pro）之间的性能差距。

然而，尽管VideoAgent在视频理解任务上取得了显著的进展，但仍存在一些潜在的局限性。首先，由于VideoAgent的记忆系统需要存储大量的信息，因此对于长视频的处理可能会面临内存和计算资源的限制。其次，VideoAgent的多模态融合能力可能还存在一定的提升空间，特别是在处理复杂场景和多对象交互的情况下。

论文链接：https://arxiv.org/abs/2403.11481