斯坦福新研究提升大模型长视频理解能力

简介: 【2月更文挑战第29天】斯坦福大学研究团队开发的VideoAgent系统在长视频理解上取得突破,提升了大型语言模型处理视频内容的能力。该系统通过模拟人类认知过程,以高效(平均8.4帧)实现高准确率(54.1%和71.3%的零样本准确率),在EgoSchema和NExT-QA基准测试中超越现有最佳方法。VideoAgent借鉴人类观看视频的方式,迭代选择关键帧进行信息提取和推理,为长视频理解设定新标准。论文链接:[arxiv.org/pdf/2403.10517.pdf](https://arxiv.org/pdf/2403.10517.pdf)

168b1d33475d66adf368c87295b58d8c.jpeg
斯坦福大学的研究团队近期在长视频理解领域取得了突破性进展,他们开发的VideoAgent系统成功地提升了大型语言模型(LLM)处理长视频内容的能力。这一系统的核心在于模拟人类理解长视频的认知过程,通过交互式推理和规划来迭代地识别和编译关键信息,从而有效地回答关于视频的问题。在EgoSchema和NExT-QA这两个长视频理解的基准测试中,VideoAgent以平均仅使用8.4帧的高效率,实现了54.1%和71.3%的零样本准确率,这一成绩显著超越了以往的最先进方法。

长视频理解在计算机视觉领域一直是一个难题,因为它不仅要求模型能够处理包含大量信息的多模态数据,还需要模型能够对这些信息进行有效的序列处理和推理。以往的模型在处理长视频时,往往难以同时在处理多模态信息、处理长序列和进行有效推理这三个方面都做到优秀。大型语言模型虽然在处理长文本和推理方面有优势,但它们通常缺乏处理视觉信息的能力。而视觉语言模型虽然能够处理视觉信息,但在处理长视频输入时往往表现不佳。VideoAgent系统的出现,正是为了解决这一问题。

VideoAgent系统的设计灵感来源于人类如何理解长视频内容。在观看长视频时,人类通常会先快速浏览视频以获取上下文信息,然后根据具体问题迭代地选择新的帧来收集相关信息。当收集到足够的信息后,就会停止迭代过程并给出答案。VideoAgent系统正是模拟了这一过程,它将视频理解过程视为一系列状态、动作和观察的序列,其中LLM作为代理控制整个过程。在初始阶段,LLM通过查看视频中均匀采样的帧来熟悉视频上下文。在每次迭代中,LLM评估当前信息是否足以回答问题;如果不足以回答问题,则确定需要哪些额外信息,并使用CLIP模型检索包含这些信息的新帧,同时使用VLM将这些新帧描述为文本,更新当前状态。

在EgoSchema和NExT-QA这两个长视频理解基准数据集上的实验结果表明,VideoAgent系统在处理长视频内容时表现出了卓越的有效性和效率。它不仅能够以极低的帧数使用率实现高准确率,而且还能够超越以往的最先进方法。这一成果不仅为长视频理解设定了新的基准,也为未来的研究提供了新的方向。

研究团队还对VideoAgent的迭代帧选择过程进行了深入的分析,发现该过程能够有效地识别出回答问题所需的信息性帧。此外,通过对比不同LLM、VLM和CLIP模型的消融研究,研究团队证实了VideoAgent框架的有效性,并指出该方法的主要贡献在于模仿人类理解长视频的过程,而不是依赖于任何特定的模型。这一发现意味着,VideoAgent系统的设计和实现,为长视频理解领域提供了一种新的、有效的解决方案。

论文地址:https://arxiv.org/pdf/2403.10517.pdf

目录
相关文章
|
8月前
|
机器学习/深度学习 传感器 人工智能
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 10 日论文合集)(下)
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 10 日论文合集)(下)
|
8月前
|
机器学习/深度学习 编解码 测试技术
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 10 日论文合集)(上)
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 10 日论文合集)(上)
|
8月前
|
机器学习/深度学习 编解码 机器人
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)(下)
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)(下)
|
8月前
|
机器学习/深度学习 编解码 人工智能
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)(上)
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)(上)
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)(上)
|
8月前
|
机器学习/深度学习 自然语言处理 自动驾驶
南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有
南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有
|
11月前
|
机器学习/深度学习 数据挖掘 PyTorch
ICLR 2023 | 解决VAE表示学习问题,北海道大学提出新型生成模型GWAE
ICLR 2023 | 解决VAE表示学习问题,北海道大学提出新型生成模型GWAE
|
11月前
|
机器学习/深度学习 数据采集 人工智能
从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」
从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」
154 0
|
11月前
|
机器学习/深度学习 算法 vr&ar
南大最新综述论文:基于模型的强化学习
南大最新综述论文:基于模型的强化学习
146 0
|
机器学习/深度学习 人工智能 编解码
2023年2月的十篇深度学习论文推荐
本月的论文包括语言模型、扩散模型、音乐生成、多模态等主题。
329 0
|
机器学习/深度学习 数据挖掘 计算机视觉
Alexnet论文泛读:深度学习CV领域划时代论文具有里程碑意义NeurIPS2012
Alexnet论文泛读:深度学习CV领域划时代论文具有里程碑意义NeurIPS2012
Alexnet论文泛读:深度学习CV领域划时代论文具有里程碑意义NeurIPS2012

热门文章

最新文章