MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

简介: 【10月更文挑战第12天】多模态理解是人工智能的重要研究方向,华人团队改进了现有的MMMU基准,推出MMMU-Pro,以更严格地评估模型的多模态理解和推理能力。MMMU-Pro通过过滤纯文本问题、增加候选选项和引入纯视觉问答设置,提高了评估难度。实验结果显示,模型在MMMU-Pro上的性能明显下降,但CoT推理有助于提升表现。MMMU-Pro为多模态理解提供了更严格的评估工具,但也面临一些挑战。

在人工智能领域,多模态理解一直是一个重要的研究方向。多模态理解是指模型能够同时处理和理解来自不同模态的信息,如文本、图像等。近年来,随着深度学习技术的发展,多模态理解取得了显著的进展。然而,现有的多模态理解基准还存在一些不足,如问题过于简单,无法全面评估模型的能力。

为了解决这个问题,一支由华人研究人员组成的团队对现有的Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU)基准进行了改进,推出了更强大的MMMU-Pro版本。MMMU-Pro旨在更严格地评估多模态模型的真实理解和推理能力。

MMMU-Pro的主要特点包括:

  1. 过滤纯文本问题:MMMU-Pro去除了那些仅通过文本信息就可以回答的问题,以确保问题需要多模态理解能力。
  2. 增加候选选项:MMMU-Pro增加了候选选项的数量,以增加问题的难度,并减少模型通过猜测获得正确答案的可能性。
  3. 引入纯视觉问答设置:MMMU-Pro引入了一种纯视觉输入设置,其中问题嵌入在图像中,模型需要同时“看”和“读”来回答问题。这旨在测试人类认知中无缝整合视觉和文本信息的基本技能。

研究人员对MMMU-Pro进行了广泛的实验,并比较了不同模型的性能。实验结果表明,MMMU-Pro对模型提出了更高的要求,模型在MMMU-Pro上的性能明显低于在MMMU上的性能。具体来说,模型在MMMU-Pro上的性能下降了16.8%到26.9%。

研究人员还探索了OCR提示和链式思维(CoT)推理对模型性能的影响。他们发现,OCR提示对模型性能的影响很小,而CoT推理通常可以提高模型的性能。

MMMU-Pro的推出为多模态理解领域提供了一个更严格的评估工具。通过引入纯视觉问答设置和增加候选选项,MMMU-Pro更接近真实世界的场景,能够更全面地评估模型的能力。这对于推动多模态理解技术的发展具有重要意义。

然而,MMMU-Pro也存在一些挑战。首先,由于问题的难度增加,模型在MMMU-Pro上的性能明显下降,这可能会对模型的实用性产生影响。其次,MMMU-Pro的评估标准可能过于严格,无法准确反映模型在实际应用中的能力。

论文链接:https://arxiv.org/abs/2409.02813

目录
相关文章
|
7天前
|
人工智能 自然语言处理 计算机视觉
12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术
在人工智能领域,多模态大型语言模型(MLLMs)因卓越的视觉理解能力备受关注。然而,随着视觉标记数量增加,计算量二次扩展导致效率瓶颈。Adobe和罗切斯特大学研究人员在LLaVA中研究了视觉计算冗余,提出邻域感知注意力、不活跃头修剪及选择性层丢弃等策略,减少88%计算需求,保持性能。该研究为MLLMs处理大规模视觉数据提供新思路,显著提升实际应用中的可行性和可扩展性。论文链接:https://arxiv.org/abs/2410.06169
17 2
|
1月前
|
机器学习/深度学习 人工智能 API
Aligner:自动修正AI的生成结果,北大推出残差修正模型对齐技术
介绍北大团队提出的 Aligner 模型对齐技术,通过学习对齐答案与未对齐答案之间的修正残差,提升大语言模型的性能。
88 28
|
13天前
|
人工智能 编解码 文字识别
谷歌放大招!多模态模型PaliGemma 2 Mix上线:通吃问答+OCR+检测等多项视觉理解任务,28B参数无需额外加载模型
PaliGemma 2 Mix 是谷歌DeepMind发布的多任务视觉语言模型,支持图像描述、OCR、目标检测等功能,适用于文档理解、科学问题解答等场景。
59 2
|
23天前
|
机器学习/深度学习 存储 人工智能
Satori:快速体验MIT与哈佛推出7B参数的推理专家模型,具备自回归搜索和自我纠错能力
Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。
43 5
|
2月前
|
机器学习/深度学习 人工智能 算法
RLCM:康奈尔大学推出文本到图像一致性模型优化框架,支持快速生成与任务特定奖励优化
RLCM 是康奈尔大学推出的基于强化学习的文本到图像生成模型优化框架,支持快速训练与推理,能够根据任务特定奖励函数生成高质量图像。
60 12
RLCM:康奈尔大学推出文本到图像一致性模型优化框架,支持快速生成与任务特定奖励优化
|
3月前
|
人工智能 运维 算法
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
南加州大学提出TS-Reasoner,一种基于大型语言模型的时间序列一站式多步推理框架。它能将复杂任务分解为多个子任务,如预测、异常检测等,通过组合现有模型完成多步推理。实验显示,TS-Reasoner在金融和能源领域的多步推理任务中表现出色,但需大量计算资源且灵活性有限。论文链接:https://arxiv.org/pdf/2410.04047
82 14
|
4月前
|
人工智能 自然语言处理 测试技术
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【10月更文挑战第29天】Playground v3(PGv3)是最新发布的文本到图像生成模型,其在多个测试基准上取得了最先进的性能。与传统模型不同,PGv3采用了一种全新的结构,将大型语言模型与图像生成模型深度融合,展现出卓越的文本提示遵循、复杂推理和准确的文本渲染能力。此外,PGv3还具备超越人类的图形设计能力,支持精确的RGB颜色控制和多语言理解,为设计师和创意工作者提供了强大的工具。尽管存在一些挑战,但PGv3的发布标志着文本到图像生成技术的重大突破。
78 6
|
6月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
120 2
|
9月前
|
语音技术 计算机视觉
CVPR 2024 Highlight :北航等发布时间特征维护:无需训练,极致压缩加速Diffusion
【6月更文挑战第28天】在CVPR 2024会议上,北航等研究团队提出了**时间特征维护**技术,针对Diffusion模型实现无需训练的高效压缩与加速。通过选择性保留关键时间特征,他们在保持生成质量的同时,实现了模型4bit极致压缩和超过2.38倍硬件加速,简化了复杂模型,提升了运行效率。这一创新方法有望改善Diffusion模型在实际应用中的资源需求,但其鲁棒性和泛化能力尚需更多验证。[论文链接](https://arxiv.org/pdf/2311.16503)
100 5
|
10月前
|
数据采集 人工智能 自然语言处理
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
【4月更文挑战第12天】谷歌DeepMind的Gecko模型以小巧身形(256维)展现出媲美大型语言模型的检索性能,且在MTEB基准测试中超越768维模型。采用两步蒸馏法训练,适用于多任务及硬件环境,尤其在多语言处理上表现出色。尽管训练成本高、泛化能力待优化,但其创新为文本嵌入技术带来新可能。
164 7
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡