斯坦福新研究提升大模型长视频理解能力

简介: 【2月更文挑战第29天】斯坦福大学研究团队开发的VideoAgent系统在长视频理解上取得突破,提升了大型语言模型处理视频内容的能力。该系统通过模拟人类认知过程,以高效(平均8.4帧)实现高准确率(54.1%和71.3%的零样本准确率),在EgoSchema和NExT-QA基准测试中超越现有最佳方法。VideoAgent借鉴人类观看视频的方式,迭代选择关键帧进行信息提取和推理,为长视频理解设定新标准。论文链接:[arxiv.org/pdf/2403.10517.pdf](https://arxiv.org/pdf/2403.10517.pdf)

168b1d33475d66adf368c87295b58d8c.jpeg
斯坦福大学的研究团队近期在长视频理解领域取得了突破性进展,他们开发的VideoAgent系统成功地提升了大型语言模型(LLM)处理长视频内容的能力。这一系统的核心在于模拟人类理解长视频的认知过程,通过交互式推理和规划来迭代地识别和编译关键信息,从而有效地回答关于视频的问题。在EgoSchema和NExT-QA这两个长视频理解的基准测试中,VideoAgent以平均仅使用8.4帧的高效率,实现了54.1%和71.3%的零样本准确率,这一成绩显著超越了以往的最先进方法。

长视频理解在计算机视觉领域一直是一个难题,因为它不仅要求模型能够处理包含大量信息的多模态数据,还需要模型能够对这些信息进行有效的序列处理和推理。以往的模型在处理长视频时,往往难以同时在处理多模态信息、处理长序列和进行有效推理这三个方面都做到优秀。大型语言模型虽然在处理长文本和推理方面有优势,但它们通常缺乏处理视觉信息的能力。而视觉语言模型虽然能够处理视觉信息,但在处理长视频输入时往往表现不佳。VideoAgent系统的出现,正是为了解决这一问题。

VideoAgent系统的设计灵感来源于人类如何理解长视频内容。在观看长视频时,人类通常会先快速浏览视频以获取上下文信息,然后根据具体问题迭代地选择新的帧来收集相关信息。当收集到足够的信息后,就会停止迭代过程并给出答案。VideoAgent系统正是模拟了这一过程,它将视频理解过程视为一系列状态、动作和观察的序列,其中LLM作为代理控制整个过程。在初始阶段,LLM通过查看视频中均匀采样的帧来熟悉视频上下文。在每次迭代中,LLM评估当前信息是否足以回答问题;如果不足以回答问题,则确定需要哪些额外信息,并使用CLIP模型检索包含这些信息的新帧,同时使用VLM将这些新帧描述为文本,更新当前状态。

在EgoSchema和NExT-QA这两个长视频理解基准数据集上的实验结果表明,VideoAgent系统在处理长视频内容时表现出了卓越的有效性和效率。它不仅能够以极低的帧数使用率实现高准确率,而且还能够超越以往的最先进方法。这一成果不仅为长视频理解设定了新的基准,也为未来的研究提供了新的方向。

研究团队还对VideoAgent的迭代帧选择过程进行了深入的分析,发现该过程能够有效地识别出回答问题所需的信息性帧。此外,通过对比不同LLM、VLM和CLIP模型的消融研究,研究团队证实了VideoAgent框架的有效性,并指出该方法的主要贡献在于模仿人类理解长视频的过程,而不是依赖于任何特定的模型。这一发现意味着,VideoAgent系统的设计和实现,为长视频理解领域提供了一种新的、有效的解决方案。

论文地址:https://arxiv.org/pdf/2403.10517.pdf

目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
【NLP】Datawhale-AI夏令营Day4打卡:预训练+微调范式
【NLP】Datawhale-AI夏令营Day4打卡:预训练+微调范式
|
2月前
|
人工智能
用AI人模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!
斯坦福大学和纽约大学的研究团队利用GPT-4模型成功模拟了人类在社交互动中的行为模式,实验结果显示AI能以惊人准确度模仿人类对话,甚至在在线论坛和社交媒体上与真人难以区分。这一突破不仅展示了AI在社会学研究中的巨大潜力,还引发了对AI伦理和透明度的深入探讨。尽管存在一些局限性和挑战,这项研究为未来社会学实验提供了新工具和方法。[论文地址:https://docsend.com/view/qeeccuggec56k9hd]
76 2
|
2月前
|
机器学习/深度学习 数据采集 算法
【大语言模型】-最新研究进展-2024-10-11
【大语言模型】-最新研究进展-2024-10-11,最新的5篇论文速读。
95 0
|
6月前
To Believe or Not to Believe?DeepMind新研究一眼看穿LLM幻觉
【6月更文挑战第17天】DeepMind研究揭示了量化大型语言模型(LLMs)认知不确定性的新方法,通过信息理论度量检测幻觉,即当模型输出不可靠时。这种方法能识别单次和多次响应中的认知不确定性,不同于传统阈值策略。尽管能检测不确定性,但尚未解决其根源,且依赖特定技术,需更多实验验证适用性。论文链接:https://arxiv.org/abs/2406.02543
89 2
|
6月前
|
自然语言处理
斯坦福新研究:RAG能帮助LLM更靠谱吗?
【6月更文挑战第8天】斯坦福大学研究表明,检索增强生成(RAG)技术可提升大型语言模型(LLM)的准确性,但在不正确或矛盾的检索信息下,LLM可能产生误导性答案。研究发现,提供准确检索信息时,LLM准确率可达94%,但错误信息可能导致LLM重复错误。LLM对信息的依赖和内部知识的冲突是关键问题,提示技术的选择也会影响其行为。研究强调使用RAG需谨慎,并指出需要进一步探索LLM在复杂情况下的表现。
97 7
|
7月前
|
机器学习/深度学习 数据采集 自然语言处理
【论文精读】大语言模型融合知识图谱的问答系统研究
论文题目:大语言模型融合知识图谱的问答系统研究
|
7月前
|
机器学习/深度学习 存储 自然语言处理
【NLP】Datawhale-AI夏令营Day8-10打卡:大模型基础Transformer
【NLP】Datawhale-AI夏令营Day8-10打卡:大模型基础Transformer
|
7月前
|
存储 自然语言处理 文字识别
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
2834 0
|
机器学习/深度学习 人工智能 自然语言处理
关于医学多模态大模型,你需要来学习这些最新研究
关于医学多模态大模型,你需要来学习这些最新研究
325 0
|
机器学习/深度学习 存储 人工智能
GPT大语言模型引爆强化学习与语言生成模型的热潮、带你了解RLHF
GPT大语言模型引爆强化学习与语言生成模型的热潮、带你了解RLHF
下一篇
DataWorks