斯坦福新研究提升大模型长视频理解能力

简介: 【2月更文挑战第29天】斯坦福大学研究团队开发的VideoAgent系统在长视频理解上取得突破,提升了大型语言模型处理视频内容的能力。该系统通过模拟人类认知过程,以高效(平均8.4帧)实现高准确率(54.1%和71.3%的零样本准确率),在EgoSchema和NExT-QA基准测试中超越现有最佳方法。VideoAgent借鉴人类观看视频的方式,迭代选择关键帧进行信息提取和推理,为长视频理解设定新标准。论文链接:[arxiv.org/pdf/2403.10517.pdf](https://arxiv.org/pdf/2403.10517.pdf)

168b1d33475d66adf368c87295b58d8c.jpeg
斯坦福大学的研究团队近期在长视频理解领域取得了突破性进展,他们开发的VideoAgent系统成功地提升了大型语言模型(LLM)处理长视频内容的能力。这一系统的核心在于模拟人类理解长视频的认知过程,通过交互式推理和规划来迭代地识别和编译关键信息,从而有效地回答关于视频的问题。在EgoSchema和NExT-QA这两个长视频理解的基准测试中,VideoAgent以平均仅使用8.4帧的高效率,实现了54.1%和71.3%的零样本准确率,这一成绩显著超越了以往的最先进方法。

长视频理解在计算机视觉领域一直是一个难题,因为它不仅要求模型能够处理包含大量信息的多模态数据,还需要模型能够对这些信息进行有效的序列处理和推理。以往的模型在处理长视频时,往往难以同时在处理多模态信息、处理长序列和进行有效推理这三个方面都做到优秀。大型语言模型虽然在处理长文本和推理方面有优势,但它们通常缺乏处理视觉信息的能力。而视觉语言模型虽然能够处理视觉信息,但在处理长视频输入时往往表现不佳。VideoAgent系统的出现,正是为了解决这一问题。

VideoAgent系统的设计灵感来源于人类如何理解长视频内容。在观看长视频时,人类通常会先快速浏览视频以获取上下文信息,然后根据具体问题迭代地选择新的帧来收集相关信息。当收集到足够的信息后,就会停止迭代过程并给出答案。VideoAgent系统正是模拟了这一过程,它将视频理解过程视为一系列状态、动作和观察的序列,其中LLM作为代理控制整个过程。在初始阶段,LLM通过查看视频中均匀采样的帧来熟悉视频上下文。在每次迭代中,LLM评估当前信息是否足以回答问题;如果不足以回答问题,则确定需要哪些额外信息,并使用CLIP模型检索包含这些信息的新帧,同时使用VLM将这些新帧描述为文本,更新当前状态。

在EgoSchema和NExT-QA这两个长视频理解基准数据集上的实验结果表明,VideoAgent系统在处理长视频内容时表现出了卓越的有效性和效率。它不仅能够以极低的帧数使用率实现高准确率,而且还能够超越以往的最先进方法。这一成果不仅为长视频理解设定了新的基准,也为未来的研究提供了新的方向。

研究团队还对VideoAgent的迭代帧选择过程进行了深入的分析,发现该过程能够有效地识别出回答问题所需的信息性帧。此外,通过对比不同LLM、VLM和CLIP模型的消融研究,研究团队证实了VideoAgent框架的有效性,并指出该方法的主要贡献在于模仿人类理解长视频的过程,而不是依赖于任何特定的模型。这一发现意味着,VideoAgent系统的设计和实现,为长视频理解领域提供了一种新的、有效的解决方案。

论文地址:https://arxiv.org/pdf/2403.10517.pdf

目录
相关文章
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【NLP】Datawhale-AI夏令营Day4打卡:预训练+微调范式
【NLP】Datawhale-AI夏令营Day4打卡:预训练+微调范式
|
1月前
|
机器学习/深度学习 数据采集 算法
【大语言模型】-最新研究进展-2024-10-11
【大语言模型】-最新研究进展-2024-10-11,最新的5篇论文速读。
46 0
|
5月前
|
自然语言处理
斯坦福新研究:RAG能帮助LLM更靠谱吗?
【6月更文挑战第8天】斯坦福大学研究表明,检索增强生成(RAG)技术可提升大型语言模型(LLM)的准确性,但在不正确或矛盾的检索信息下,LLM可能产生误导性答案。研究发现,提供准确检索信息时,LLM准确率可达94%,但错误信息可能导致LLM重复错误。LLM对信息的依赖和内部知识的冲突是关键问题,提示技术的选择也会影响其行为。研究强调使用RAG需谨慎,并指出需要进一步探索LLM在复杂情况下的表现。
83 7
|
6月前
|
机器学习/深度学习 自然语言处理 算法
【大模型】大语言模型前沿技术系列讲座-学习笔记2:Transformer ->ChatGPT
【大模型】大语言模型前沿技术系列讲座-学习笔记2:Transformer ->ChatGPT
|
机器学习/深度学习 自然语言处理 算法
半监督学习|深度学习(李宏毅)(九)
半监督学习|深度学习(李宏毅)(九)
546 0
半监督学习|深度学习(李宏毅)(九)
|
机器学习/深度学习 自然语言处理 自动驾驶
南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有
南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有
|
机器学习/深度学习 存储 人工智能
蛋白质界的 ChatGPT:AlphaFold1 论文必备知识,不会有人还不知道吧
AlphaFold1是一种人工智能模型,由DeepMind公司开发,用于预测蛋白质的三维结构。它是基于深度学习的方法,使用了神经网络来预测蛋白质的结构。AlphaFold1的预测准确率非常高,已经被证明可以在很短的时间内预测出数千个蛋白质的结构。 AlphaFold1的核心思想是将蛋白质的结构预测问题转化为一个优化问题。具体来说,它使用了一种称为“残基-残基接触预测”的方法,通过预测蛋白质中不同残基之间的接触情况来推断出蛋白质的三维结构。这种方法需要大量的训练数据和计算资源,但是它可以在很短的时间内预测出高质量的蛋白质结构
242 0
蛋白质界的 ChatGPT:AlphaFold1 论文必备知识,不会有人还不知道吧
|
人工智能 算法 数据可视化
LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源
LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源
215 0
|
机器学习/深度学习 数据采集 人工智能
从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」
从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」
194 0
|
机器学习/深度学习 算法 vr&ar
南大最新综述论文:基于模型的强化学习
南大最新综述论文:基于模型的强化学习
189 0