在人工智能领域,多模态大模型(Multi-modal Large Language Models,MLLMs)被视为迈向通用人工智能(AGI)的重要一步。然而,尽管这些模型在静态图像理解方面取得了显著进展,但它们在处理连续视觉数据(如视频)方面的潜力仍待充分探索。为了填补这一研究空白,最近,一篇名为"The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis"的论文(以下简称"论文")提出了首个全面的多模态视频分析评估基准Video-MME(Multi-Modal Evaluation)。
该论文由来自中国科学技术大学(USTC)、厦门大学(XMU)、香港大学(HKU)、北京大学(PKU)、香港中文大学(CUHK)和华东师范大学(ECNU)的研究人员共同撰写。他们指出,当前的MLLMs评估主要关注静态视觉数据理解,而未能捕捉到真实世界中涉及物体之间复杂交互的动态性质。为了更准确地模拟真实场景,探索和评估MLLMs在连续视觉数据(如视频)上的处理能力至关重要。
然而,现有的视频评估基准存在一些限制,如视频类型的多样性不足、时间动态覆盖不充分以及对单一模态的过度关注。这些限制阻碍了对MLLMs的全面评估。为了解决这些问题,研究人员提出了Video-MME,这是一个全面的多模态评估基准,用于MLLMs的视频分析。
Video-MME通过以下四个关键特征与现有基准区分开来:
- 视频类型的多样性:涵盖了6个主要视觉领域和30个子领域,以确保在各种场景中的泛化能力。
- 时间维度上的持续时间:包括短、中、长视频,时长从11秒到1小时,以全面评估MLLMs在各种时间上下文中的适应性。
- 数据模态的广度:除了视频帧外,还包括字幕和音频等多模态输入,以揭示MLLMs的全面能力。
- 标注的质量:使用专家标注人员进行严格的手动标注,以促进准确可靠的模型评估。
为了创建Video-MME,研究人员手动选择了900个视频,总时长为256小时,并生成了2,700个问答对。然后,他们使用这个基准对各种最先进的MLLMs进行了广泛的评估,包括GPT-4系列和Gemini 1.5 Pro,以及开源的图像模型(如InternVL-Chat-V1.5)和视频模型(如LLaVA-NeXT-Video)。
评估结果显示,Gemini 1.5 Pro是表现最好的商业模型,平均准确率为75.7%,远高于开源模型的52.5%。此外,结果还表明,Video-MME是一个通用的基准,适用于图像和视频MLLMs。进一步的分析表明,字幕和音频信息可以显著增强视频理解能力。然而,随着视频长度的增加,所有模型的性能都出现了下降。
除了评估结果,研究人员还讨论了未来MLLMs发展的潜在方向。他们指出,提高处理更长序列和多模态数据的能力是关键。这可能包括开发更好的架构来处理长上下文输入,以及构建专注于复杂时间推理场景的训练数据。