斯坦福新研究提升大模型长视频理解能力-阿里云开发者社区

斯坦福新研究提升大模型长视频理解能力

2024-03-20 272 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【2月更文挑战第29天】斯坦福大学研究团队开发的VideoAgent系统在长视频理解上取得突破，提升了大型语言模型处理视频内容的能力。该系统通过模拟人类认知过程，以高效（平均8.4帧）实现高准确率（54.1%和71.3%的零样本准确率），在EgoSchema和NExT-QA基准测试中超越现有最佳方法。VideoAgent借鉴人类观看视频的方式，迭代选择关键帧进行信息提取和推理，为长视频理解设定新标准。论文链接：[arxiv.org/pdf/2403.10517.pdf](https://arxiv.org/pdf/2403.10517.pdf)

斯坦福大学的研究团队近期在长视频理解领域取得了突破性进展，他们开发的VideoAgent系统成功地提升了大型语言模型（LLM）处理长视频内容的能力。这一系统的核心在于模拟人类理解长视频的认知过程，通过交互式推理和规划来迭代地识别和编译关键信息，从而有效地回答关于视频的问题。在EgoSchema和NExT-QA这两个长视频理解的基准测试中，VideoAgent以平均仅使用8.4帧的高效率，实现了54.1%和71.3%的零样本准确率，这一成绩显著超越了以往的最先进方法。

长视频理解在计算机视觉领域一直是一个难题，因为它不仅要求模型能够处理包含大量信息的多模态数据，还需要模型能够对这些信息进行有效的序列处理和推理。以往的模型在处理长视频时，往往难以同时在处理多模态信息、处理长序列和进行有效推理这三个方面都做到优秀。大型语言模型虽然在处理长文本和推理方面有优势，但它们通常缺乏处理视觉信息的能力。而视觉语言模型虽然能够处理视觉信息，但在处理长视频输入时往往表现不佳。VideoAgent系统的出现，正是为了解决这一问题。

VideoAgent系统的设计灵感来源于人类如何理解长视频内容。在观看长视频时，人类通常会先快速浏览视频以获取上下文信息，然后根据具体问题迭代地选择新的帧来收集相关信息。当收集到足够的信息后，就会停止迭代过程并给出答案。VideoAgent系统正是模拟了这一过程，它将视频理解过程视为一系列状态、动作和观察的序列，其中LLM作为代理控制整个过程。在初始阶段，LLM通过查看视频中均匀采样的帧来熟悉视频上下文。在每次迭代中，LLM评估当前信息是否足以回答问题；如果不足以回答问题，则确定需要哪些额外信息，并使用CLIP模型检索包含这些信息的新帧，同时使用VLM将这些新帧描述为文本，更新当前状态。

在EgoSchema和NExT-QA这两个长视频理解基准数据集上的实验结果表明，VideoAgent系统在处理长视频内容时表现出了卓越的有效性和效率。它不仅能够以极低的帧数使用率实现高准确率，而且还能够超越以往的最先进方法。这一成果不仅为长视频理解设定了新的基准，也为未来的研究提供了新的方向。

研究团队还对VideoAgent的迭代帧选择过程进行了深入的分析，发现该过程能够有效地识别出回答问题所需的信息性帧。此外，通过对比不同LLM、VLM和CLIP模型的消融研究，研究团队证实了VideoAgent框架的有效性，并指出该方法的主要贡献在于模仿人类理解长视频的过程，而不是依赖于任何特定的模型。这一发现意味着，VideoAgent系统的设计和实现，为长视频理解领域提供了一种新的、有效的解决方案。

论文地址：https://arxiv.org/pdf/2403.10517.pdf

斯坦福新研究提升大模型长视频理解能力

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

斯坦福新研究提升大模型长视频理解能力

热门文章

最新文章

相关课程

相关电子书

相关实验场景