首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次

简介: 【7月更文挑战第7天】Video-MME,首个多模态视频基准,由中国多所大学的研究团队推出,挑战了AI模型在视频理解上的能力。Gemini 1.5 Pro在评估中超越GPT-4o,平均准确率75.7%。此基准强调视频多样性、时间持续性、多模态输入和高质量标注,揭示了模型在动态场景中的潜力和局限性。**

在人工智能领域,多模态大模型(Multi-modal Large Language Models,MLLMs)被视为迈向通用人工智能(AGI)的重要一步。然而,尽管这些模型在静态图像理解方面取得了显著进展,但它们在处理连续视觉数据(如视频)方面的潜力仍待充分探索。为了填补这一研究空白,最近,一篇名为"The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis"的论文(以下简称"论文")提出了首个全面的多模态视频分析评估基准Video-MME(Multi-Modal Evaluation)。

该论文由来自中国科学技术大学(USTC)、厦门大学(XMU)、香港大学(HKU)、北京大学(PKU)、香港中文大学(CUHK)和华东师范大学(ECNU)的研究人员共同撰写。他们指出,当前的MLLMs评估主要关注静态视觉数据理解,而未能捕捉到真实世界中涉及物体之间复杂交互的动态性质。为了更准确地模拟真实场景,探索和评估MLLMs在连续视觉数据(如视频)上的处理能力至关重要。

然而,现有的视频评估基准存在一些限制,如视频类型的多样性不足、时间动态覆盖不充分以及对单一模态的过度关注。这些限制阻碍了对MLLMs的全面评估。为了解决这些问题,研究人员提出了Video-MME,这是一个全面的多模态评估基准,用于MLLMs的视频分析。

Video-MME通过以下四个关键特征与现有基准区分开来:

  1. 视频类型的多样性:涵盖了6个主要视觉领域和30个子领域,以确保在各种场景中的泛化能力。
  2. 时间维度上的持续时间:包括短、中、长视频,时长从11秒到1小时,以全面评估MLLMs在各种时间上下文中的适应性。
  3. 数据模态的广度:除了视频帧外,还包括字幕和音频等多模态输入,以揭示MLLMs的全面能力。
  4. 标注的质量:使用专家标注人员进行严格的手动标注,以促进准确可靠的模型评估。

为了创建Video-MME,研究人员手动选择了900个视频,总时长为256小时,并生成了2,700个问答对。然后,他们使用这个基准对各种最先进的MLLMs进行了广泛的评估,包括GPT-4系列和Gemini 1.5 Pro,以及开源的图像模型(如InternVL-Chat-V1.5)和视频模型(如LLaVA-NeXT-Video)。

评估结果显示,Gemini 1.5 Pro是表现最好的商业模型,平均准确率为75.7%,远高于开源模型的52.5%。此外,结果还表明,Video-MME是一个通用的基准,适用于图像和视频MLLMs。进一步的分析表明,字幕和音频信息可以显著增强视频理解能力。然而,随着视频长度的增加,所有模型的性能都出现了下降。

除了评估结果,研究人员还讨论了未来MLLMs发展的潜在方向。他们指出,提高处理更长序列和多模态数据的能力是关键。这可能包括开发更好的架构来处理长上下文输入,以及构建专注于复杂时间推理场景的训练数据。

论文地址:https://arxiv.org/pdf/2405.21075

目录
相关文章
|
1月前
|
人工智能 知识图谱
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
【7月更文挑战第7天】LeCun与谢赛宁团队推出 Cambrian-1,一款视觉多模态大语言模型,挑战GPT-4V。该模型以视觉为中心,利用20多种视觉编码器强化表示学习,实现SOTA性能,同时开源权重、代码及工具,促进领域发展。尽管面临资源需求与数据隐私的讨论,但其创新如空间视觉聚合器(SVA)降低了计算需求。[论文链接: https://arxiv.org/abs/2406.16860]
35 1
|
6天前
|
人工智能 安全 测试技术
Google DeepMind推出大模型 Gemini (vs GPT4):规模最大、能力最强的人工智能模型
Google DeepMind推出大模型 Gemini (vs GPT4):规模最大、能力最强的人工智能模型
17 4
|
4天前
|
机器学习/深度学习
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
【8月更文挑战第16天】近日,清华大学等机构发布了MultiTrust多模态评估研究,旨在全面评估大型语言模型的可信度。这是首个统一的多模态基准,覆盖真实性、安全性等五大方面,包含32个任务。研究对21个现代模型进行了实验,揭示了可信度问题和风险,强调了提高模型可靠性的重要性。结果显示开源模型在可信度上落后于专有模型,特别是在安全性方面。此外,研究还发现了模型在鲁棒性、公平性和隐私方面的挑战。论文已发布于arxiv.org。
10 1
|
26天前
|
存储 测试技术 计算机视觉
开源视频版GPT-4o?快速记忆,实时问答,拿下CVPR'24长视频问答竞赛冠军
【7月更文挑战第24天】Flash-VStream, 一款模拟人脑记忆的视频语言模型,实现实时长视频流理解和问答,夺得CVPR'24竞赛桂冠。它采用动态记忆技术,高效存储检索信息,大幅降低推理延迟与显存消耗,超越现有模型。虽有资源限制及复杂查询处理难题,仍展现卓越通用性及先进性能。[详细论文](https://arxiv.org/abs/2406.08085)。
49 17
|
1月前
|
计算机视觉
开源视频版GPT-4o?快速记忆,实时问答,拿下CVPR'24长视频问答竞赛冠军
【7月更文挑战第19天】Flash-VStream,一款类似GPT的开源视频模型,在CVPR'24赢得长视频问答冠军。该模型模拟人类记忆,实现实时视频流理解和快速问答,降低推理延迟和显存使用,同时推出VStream-QA基准,推动在线视频理解研究。尽管取得突破,但面临记忆限制和计算资源需求的挑战,且新基准的全面性有待检验。[论文链接](https://arxiv.org/abs/2406.08085)
34 11
|
1月前
|
人工智能 自然语言处理 测试技术
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
【7月更文挑战第11天】蒙特利尔大学Yoshua Bengio团队推出多模态新基准MFE,旨在全面评估大型语言模型在处理跨模态任务时的能力。MFE包含多样化数据集、挑战性任务和严格评估指标,暴露了Claude 3.5和GPT-4o等现有模型的弱点,为多模态AI研究提供新视角和改进方向。论文链接:arxiv.org/abs/2406.06462
37 1
|
1月前
|
存储 监控 计算机视觉
帮粉丝用gpt写代码生成一个文字视频
帮粉丝用gpt写代码生成一个文字视频
20 0
|
3月前
|
自然语言处理
Meta首发变色龙挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
【5月更文挑战第27天】Meta推出34B参数的多模态模型Chameleon,通过早期融合技术处理图像和文本,实现全面的多模态建模。在10万亿token的训练数据下,Chameleon在图像字幕生成和文本推理任务中刷新SOTA,展现出在混合模态生成和推理的潜力。然而,模型可能无法完全捕捉图像语义信息,且在某些特定任务上有优化空间。[论文链接](https://arxiv.org/pdf/2405.09818)
61 1
|
3月前
|
人工智能
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare
【5月更文挑战第10天】TextSquare,由字节跳动、华东师大和华中科技大学联合研发,是新型的文本中心视觉问答模型,借助Square-10M数据集在VQA任务上取得突破。在6个OCRBench等基准上超越现有最佳模型,如GPT4V和Gemini。模型利用视觉问答推理数据增强上下文理解,减少幻觉现象,平均准确率75.1%。但面对复杂问题和泛化能力仍有挑战。[论文链接](https://arxiv.org/abs/2404.12803)
55 4
|
3月前
|
数据采集 编解码 人工智能
超越GPT-4V,苹果多模态大模型上新!
【4月更文挑战第17天】苹果公司推出Ferret-UI,一款专为移动UI理解的新型MLLM,优于GPT-4V。该模型针对移动UI特点优化,采用“任意分辨率”技术处理屏幕细节,通过广泛的基础UI任务和高级任务训练,提升理解和推理能力。在基准测试中,Ferret-UI表现突出,显示了苹果在多模态语言模型领域的领先地位。尽管面临灵活性和训练数据质量挑战,Ferret-UI为移动应用自动化和智能助手发展开辟新路径。
75 1
超越GPT-4V,苹果多模态大模型上新!