MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

简介: 【10月更文挑战第12天】多模态理解是人工智能的重要研究方向,华人团队改进了现有的MMMU基准,推出MMMU-Pro,以更严格地评估模型的多模态理解和推理能力。MMMU-Pro通过过滤纯文本问题、增加候选选项和引入纯视觉问答设置,提高了评估难度。实验结果显示,模型在MMMU-Pro上的性能明显下降,但CoT推理有助于提升表现。MMMU-Pro为多模态理解提供了更严格的评估工具,但也面临一些挑战。

在人工智能领域,多模态理解一直是一个重要的研究方向。多模态理解是指模型能够同时处理和理解来自不同模态的信息,如文本、图像等。近年来,随着深度学习技术的发展,多模态理解取得了显著的进展。然而,现有的多模态理解基准还存在一些不足,如问题过于简单,无法全面评估模型的能力。

为了解决这个问题,一支由华人研究人员组成的团队对现有的Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU)基准进行了改进,推出了更强大的MMMU-Pro版本。MMMU-Pro旨在更严格地评估多模态模型的真实理解和推理能力。

MMMU-Pro的主要特点包括:

  1. 过滤纯文本问题:MMMU-Pro去除了那些仅通过文本信息就可以回答的问题,以确保问题需要多模态理解能力。
  2. 增加候选选项:MMMU-Pro增加了候选选项的数量,以增加问题的难度,并减少模型通过猜测获得正确答案的可能性。
  3. 引入纯视觉问答设置:MMMU-Pro引入了一种纯视觉输入设置,其中问题嵌入在图像中,模型需要同时“看”和“读”来回答问题。这旨在测试人类认知中无缝整合视觉和文本信息的基本技能。

研究人员对MMMU-Pro进行了广泛的实验,并比较了不同模型的性能。实验结果表明,MMMU-Pro对模型提出了更高的要求,模型在MMMU-Pro上的性能明显低于在MMMU上的性能。具体来说,模型在MMMU-Pro上的性能下降了16.8%到26.9%。

研究人员还探索了OCR提示和链式思维(CoT)推理对模型性能的影响。他们发现,OCR提示对模型性能的影响很小,而CoT推理通常可以提高模型的性能。

MMMU-Pro的推出为多模态理解领域提供了一个更严格的评估工具。通过引入纯视觉问答设置和增加候选选项,MMMU-Pro更接近真实世界的场景,能够更全面地评估模型的能力。这对于推动多模态理解技术的发展具有重要意义。

然而,MMMU-Pro也存在一些挑战。首先,由于问题的难度增加,模型在MMMU-Pro上的性能明显下降,这可能会对模型的实用性产生影响。其次,MMMU-Pro的评估标准可能过于严格,无法准确反映模型在实际应用中的能力。

论文链接:https://arxiv.org/abs/2409.02813

目录
相关文章
|
12天前
|
人工智能 自然语言处理 测试技术
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【10月更文挑战第29天】Playground v3(PGv3)是最新发布的文本到图像生成模型,其在多个测试基准上取得了最先进的性能。与传统模型不同,PGv3采用了一种全新的结构,将大型语言模型与图像生成模型深度融合,展现出卓越的文本提示遵循、复杂推理和准确的文本渲染能力。此外,PGv3还具备超越人类的图形设计能力,支持精确的RGB颜色控制和多语言理解,为设计师和创意工作者提供了强大的工具。尽管存在一些挑战,但PGv3的发布标志着文本到图像生成技术的重大突破。
29 6
|
2月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
63 2
|
3月前
|
数据采集 人工智能 监控
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)
635 0
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
|
4月前
|
数据采集 边缘计算 自然语言处理
谷歌推出创新方法:通过自然文本提示,快速训练视觉模型
【7月更文挑战第5天】谷歌研究者提出新方法,通过自然语言提示训练视觉模型,减少人工标注需求。"建模合作者"框架结合大型语言模型与视觉语言模型,以对话理解视觉概念并自动生成标注,降低训练成本,提高效率。实验显示定义概念工作量减少90%,并在多种任务上超越现有技术。尽管有限制,但此框架为资源受限环境提供了更高效模型训练方案。[论文链接](https://arxiv.org/abs/2403.02626)
32 1
|
6月前
|
人工智能 异构计算 Python
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
141 0
|
6月前
|
自然语言处理 安全 算法
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
150 0
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
|
人工智能 搜索推荐 数据可视化
里程碑,ChatGPT插件影响几何?
3月24日,OpenAI宣布ChatGPT能够支持第三方插件接入,同时为ChatGPT发布了多个插件,它们将帮助ChatGPT联网实时检索信息、运行计算或使用第三方服务。
272 1
里程碑,ChatGPT插件影响几何?
|
人工智能 计算机视觉
通用视觉GPT时刻来临?智源推出通用分割模型SegGPT
通用视觉GPT时刻来临?智源推出通用分割模型SegGPT
148 0
|
机器学习/深度学习 人工智能 算法
整个元素周期表通用,AI 即时预测材料结构与特性
整个元素周期表通用,AI 即时预测材料结构与特性
171 0
|
机器学习/深度学习 人工智能 自然语言处理
ACL 2022 | 腾讯QQ浏览器实验室提出文本语义匹配训练策略,与PLM结合效率不减
ACL 2022 | 腾讯QQ浏览器实验室提出文本语义匹配训练策略,与PLM结合效率不减
132 0