斯坦福大学的研究团队近期在长视频理解领域取得了突破性进展,他们开发的VideoAgent系统成功地提升了大型语言模型(LLM)处理长视频内容的能力。这一系统的核心在于模拟人类理解长视频的认知过程,通过交互式推理和规划来迭代地识别和编译关键信息,从而有效地回答关于视频的问题。在EgoSchema和NExT-QA这两个长视频理解的基准测试中,VideoAgent以平均仅使用8.4帧的高效率,实现了54.1%和71.3%的零样本准确率,这一成绩显著超越了以往的最先进方法。
长视频理解在计算机视觉领域一直是一个难题,因为它不仅要求模型能够处理包含大量信息的多模态数据,还需要模型能够对这些信息进行有效的序列处理和推理。以往的模型在处理长视频时,往往难以同时在处理多模态信息、处理长序列和进行有效推理这三个方面都做到优秀。大型语言模型虽然在处理长文本和推理方面有优势,但它们通常缺乏处理视觉信息的能力。而视觉语言模型虽然能够处理视觉信息,但在处理长视频输入时往往表现不佳。VideoAgent系统的出现,正是为了解决这一问题。
VideoAgent系统的设计灵感来源于人类如何理解长视频内容。在观看长视频时,人类通常会先快速浏览视频以获取上下文信息,然后根据具体问题迭代地选择新的帧来收集相关信息。当收集到足够的信息后,就会停止迭代过程并给出答案。VideoAgent系统正是模拟了这一过程,它将视频理解过程视为一系列状态、动作和观察的序列,其中LLM作为代理控制整个过程。在初始阶段,LLM通过查看视频中均匀采样的帧来熟悉视频上下文。在每次迭代中,LLM评估当前信息是否足以回答问题;如果不足以回答问题,则确定需要哪些额外信息,并使用CLIP模型检索包含这些信息的新帧,同时使用VLM将这些新帧描述为文本,更新当前状态。
在EgoSchema和NExT-QA这两个长视频理解基准数据集上的实验结果表明,VideoAgent系统在处理长视频内容时表现出了卓越的有效性和效率。它不仅能够以极低的帧数使用率实现高准确率,而且还能够超越以往的最先进方法。这一成果不仅为长视频理解设定了新的基准,也为未来的研究提供了新的方向。
研究团队还对VideoAgent的迭代帧选择过程进行了深入的分析,发现该过程能够有效地识别出回答问题所需的信息性帧。此外,通过对比不同LLM、VLM和CLIP模型的消融研究,研究团队证实了VideoAgent框架的有效性,并指出该方法的主要贡献在于模仿人类理解长视频的过程,而不是依赖于任何特定的模型。这一发现意味着,VideoAgent系统的设计和实现,为长视频理解领域提供了一种新的、有效的解决方案。