斯坦福新研究提升大模型长视频理解能力

简介: 【2月更文挑战第29天】斯坦福大学研究团队开发的VideoAgent系统在长视频理解上取得突破,提升了大型语言模型处理视频内容的能力。该系统通过模拟人类认知过程,以高效(平均8.4帧)实现高准确率(54.1%和71.3%的零样本准确率),在EgoSchema和NExT-QA基准测试中超越现有最佳方法。VideoAgent借鉴人类观看视频的方式,迭代选择关键帧进行信息提取和推理,为长视频理解设定新标准。论文链接:[arxiv.org/pdf/2403.10517.pdf](https://arxiv.org/pdf/2403.10517.pdf)

168b1d33475d66adf368c87295b58d8c.jpeg
斯坦福大学的研究团队近期在长视频理解领域取得了突破性进展,他们开发的VideoAgent系统成功地提升了大型语言模型(LLM)处理长视频内容的能力。这一系统的核心在于模拟人类理解长视频的认知过程,通过交互式推理和规划来迭代地识别和编译关键信息,从而有效地回答关于视频的问题。在EgoSchema和NExT-QA这两个长视频理解的基准测试中,VideoAgent以平均仅使用8.4帧的高效率,实现了54.1%和71.3%的零样本准确率,这一成绩显著超越了以往的最先进方法。

长视频理解在计算机视觉领域一直是一个难题,因为它不仅要求模型能够处理包含大量信息的多模态数据,还需要模型能够对这些信息进行有效的序列处理和推理。以往的模型在处理长视频时,往往难以同时在处理多模态信息、处理长序列和进行有效推理这三个方面都做到优秀。大型语言模型虽然在处理长文本和推理方面有优势,但它们通常缺乏处理视觉信息的能力。而视觉语言模型虽然能够处理视觉信息,但在处理长视频输入时往往表现不佳。VideoAgent系统的出现,正是为了解决这一问题。

VideoAgent系统的设计灵感来源于人类如何理解长视频内容。在观看长视频时,人类通常会先快速浏览视频以获取上下文信息,然后根据具体问题迭代地选择新的帧来收集相关信息。当收集到足够的信息后,就会停止迭代过程并给出答案。VideoAgent系统正是模拟了这一过程,它将视频理解过程视为一系列状态、动作和观察的序列,其中LLM作为代理控制整个过程。在初始阶段,LLM通过查看视频中均匀采样的帧来熟悉视频上下文。在每次迭代中,LLM评估当前信息是否足以回答问题;如果不足以回答问题,则确定需要哪些额外信息,并使用CLIP模型检索包含这些信息的新帧,同时使用VLM将这些新帧描述为文本,更新当前状态。

在EgoSchema和NExT-QA这两个长视频理解基准数据集上的实验结果表明,VideoAgent系统在处理长视频内容时表现出了卓越的有效性和效率。它不仅能够以极低的帧数使用率实现高准确率,而且还能够超越以往的最先进方法。这一成果不仅为长视频理解设定了新的基准,也为未来的研究提供了新的方向。

研究团队还对VideoAgent的迭代帧选择过程进行了深入的分析,发现该过程能够有效地识别出回答问题所需的信息性帧。此外,通过对比不同LLM、VLM和CLIP模型的消融研究,研究团队证实了VideoAgent框架的有效性,并指出该方法的主要贡献在于模仿人类理解长视频的过程,而不是依赖于任何特定的模型。这一发现意味着,VideoAgent系统的设计和实现,为长视频理解领域提供了一种新的、有效的解决方案。

论文地址:https://arxiv.org/pdf/2403.10517.pdf

目录
相关文章
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【NLP】Datawhale-AI夏令营Day4打卡:预训练+微调范式
【NLP】Datawhale-AI夏令营Day4打卡:预训练+微调范式
|
1月前
|
机器学习/深度学习 数据采集 算法
【大语言模型】-最新研究进展-2024-10-11
【大语言模型】-最新研究进展-2024-10-11,最新的5篇论文速读。
53 0
|
5月前
|
自然语言处理
斯坦福新研究:RAG能帮助LLM更靠谱吗?
【6月更文挑战第8天】斯坦福大学研究表明,检索增强生成(RAG)技术可提升大型语言模型(LLM)的准确性,但在不正确或矛盾的检索信息下,LLM可能产生误导性答案。研究发现,提供准确检索信息时,LLM准确率可达94%,但错误信息可能导致LLM重复错误。LLM对信息的依赖和内部知识的冲突是关键问题,提示技术的选择也会影响其行为。研究强调使用RAG需谨慎,并指出需要进一步探索LLM在复杂情况下的表现。
88 7
|
6月前
|
机器学习/深度学习 数据采集 自然语言处理
【论文精读】大语言模型融合知识图谱的问答系统研究
论文题目:大语言模型融合知识图谱的问答系统研究
|
机器学习/深度学习 自然语言处理 算法
半监督学习|深度学习(李宏毅)(九)
半监督学习|深度学习(李宏毅)(九)
549 0
半监督学习|深度学习(李宏毅)(九)
|
机器学习/深度学习 自然语言处理 自动驾驶
南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有
南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有
|
人工智能 算法 数据可视化
LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源
LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源
216 0
|
机器学习/深度学习 数据采集 人工智能
从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」
从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」
197 0
|
机器学习/深度学习 算法 vr&ar
南大最新综述论文:基于模型的强化学习
南大最新综述论文:基于模型的强化学习
190 0
|
机器学习/深度学习 自然语言处理
【机器学习】李宏毅——自监督式学习
【机器学习】李宏毅——自监督式学习
179 0
【机器学习】李宏毅——自监督式学习