首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次

简介: 【7月更文挑战第7天】Video-MME,首个多模态视频基准,由中国多所大学的研究团队推出,挑战了AI模型在视频理解上的能力。Gemini 1.5 Pro在评估中超越GPT-4o,平均准确率75.7%。此基准强调视频多样性、时间持续性、多模态输入和高质量标注,揭示了模型在动态场景中的潜力和局限性。**

在人工智能领域,多模态大模型(Multi-modal Large Language Models,MLLMs)被视为迈向通用人工智能(AGI)的重要一步。然而,尽管这些模型在静态图像理解方面取得了显著进展,但它们在处理连续视觉数据(如视频)方面的潜力仍待充分探索。为了填补这一研究空白,最近,一篇名为"The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis"的论文(以下简称"论文")提出了首个全面的多模态视频分析评估基准Video-MME(Multi-Modal Evaluation)。

该论文由来自中国科学技术大学(USTC)、厦门大学(XMU)、香港大学(HKU)、北京大学(PKU)、香港中文大学(CUHK)和华东师范大学(ECNU)的研究人员共同撰写。他们指出,当前的MLLMs评估主要关注静态视觉数据理解,而未能捕捉到真实世界中涉及物体之间复杂交互的动态性质。为了更准确地模拟真实场景,探索和评估MLLMs在连续视觉数据(如视频)上的处理能力至关重要。

然而,现有的视频评估基准存在一些限制,如视频类型的多样性不足、时间动态覆盖不充分以及对单一模态的过度关注。这些限制阻碍了对MLLMs的全面评估。为了解决这些问题,研究人员提出了Video-MME,这是一个全面的多模态评估基准,用于MLLMs的视频分析。

Video-MME通过以下四个关键特征与现有基准区分开来:

  1. 视频类型的多样性:涵盖了6个主要视觉领域和30个子领域,以确保在各种场景中的泛化能力。
  2. 时间维度上的持续时间:包括短、中、长视频,时长从11秒到1小时,以全面评估MLLMs在各种时间上下文中的适应性。
  3. 数据模态的广度:除了视频帧外,还包括字幕和音频等多模态输入,以揭示MLLMs的全面能力。
  4. 标注的质量:使用专家标注人员进行严格的手动标注,以促进准确可靠的模型评估。

为了创建Video-MME,研究人员手动选择了900个视频,总时长为256小时,并生成了2,700个问答对。然后,他们使用这个基准对各种最先进的MLLMs进行了广泛的评估,包括GPT-4系列和Gemini 1.5 Pro,以及开源的图像模型(如InternVL-Chat-V1.5)和视频模型(如LLaVA-NeXT-Video)。

评估结果显示,Gemini 1.5 Pro是表现最好的商业模型,平均准确率为75.7%,远高于开源模型的52.5%。此外,结果还表明,Video-MME是一个通用的基准,适用于图像和视频MLLMs。进一步的分析表明,字幕和音频信息可以显著增强视频理解能力。然而,随着视频长度的增加,所有模型的性能都出现了下降。

除了评估结果,研究人员还讨论了未来MLLMs发展的潜在方向。他们指出,提高处理更长序列和多模态数据的能力是关键。这可能包括开发更好的架构来处理长上下文输入,以及构建专注于复杂时间推理场景的训练数据。

论文地址:https://arxiv.org/pdf/2405.21075

目录
相关文章
|
1月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
143 60
|
4月前
|
人工智能 知识图谱
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
【7月更文挑战第7天】LeCun与谢赛宁团队推出 Cambrian-1,一款视觉多模态大语言模型,挑战GPT-4V。该模型以视觉为中心,利用20多种视觉编码器强化表示学习,实现SOTA性能,同时开源权重、代码及工具,促进领域发展。尽管面临资源需求与数据隐私的讨论,但其创新如空间视觉聚合器(SVA)降低了计算需求。[论文链接: https://arxiv.org/abs/2406.16860]
63 1
|
15天前
|
人工智能 测试技术 人机交互
mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVA
【10月更文挑战第24天】EMOVA(EMotionally Omni-present Voice Assistant)是一项多模态全能助手的研究,旨在实现更自然、更智能的人机交互。该模型不仅能够处理图像、文本和语音,还具备丰富的情感表达能力。通过语义-声学解耦的语音标记器、全模态对齐和轻量级风格模块,EMOVA在视觉-语言和语音基准测试中表现出色,适用于智能助手、虚拟现实、教育和娱乐等领域。
13 3
|
1月前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
45 6
DB-GPT 首期源码解读系列直播回顾(视频版)
🚀 DB-GPT首期源码解读系列上线啦! ✨直播视频看点满满:项目发起人陈发强亲临,初次剖析架构,完整呈现从设计思考到架构逻辑的全过程,让你全面了解 DB-GPT。
|
3月前
|
人工智能 自然语言处理 安全
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
|
2月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
78 10
|
3月前
|
人工智能 自然语言处理 小程序
【AI】Gemini:听说GPT-4你小子挺厉害
谷歌推出新AI模型Gemini Pro,支持中文并具备多模态处理能力,涵盖文本、图像、音频、视频和代码。本文通过五个问题对比Gemini Pro与ChatGPT-4的表现,包括绘画、数学题解答、成语解释、天气查询及奥运冠军名单。结果显示两者各有优势,Gemini Pro在成语解释和天气查询方面略胜一筹,而ChatGPT-4在绘画方面表现更好
43 0
【AI】Gemini:听说GPT-4你小子挺厉害
|
3月前
|
机器学习/深度学习
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
【8月更文挑战第16天】近日,清华大学等机构发布了MultiTrust多模态评估研究,旨在全面评估大型语言模型的可信度。这是首个统一的多模态基准,覆盖真实性、安全性等五大方面,包含32个任务。研究对21个现代模型进行了实验,揭示了可信度问题和风险,强调了提高模型可靠性的重要性。结果显示开源模型在可信度上落后于专有模型,特别是在安全性方面。此外,研究还发现了模型在鲁棒性、公平性和隐私方面的挑战。论文已发布于arxiv.org。
58 1
|
4月前
|
存储 测试技术 计算机视觉
开源视频版GPT-4o?快速记忆,实时问答,拿下CVPR'24长视频问答竞赛冠军
【7月更文挑战第24天】Flash-VStream, 一款模拟人脑记忆的视频语言模型,实现实时长视频流理解和问答,夺得CVPR'24竞赛桂冠。它采用动态记忆技术,高效存储检索信息,大幅降低推理延迟与显存消耗,超越现有模型。虽有资源限制及复杂查询处理难题,仍展现卓越通用性及先进性能。[详细论文](https://arxiv.org/abs/2406.08085)。
89 17

热门文章

最新文章