MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

简介: 【10月更文挑战第12天】多模态理解是人工智能的重要研究方向,华人团队改进了现有的MMMU基准,推出MMMU-Pro,以更严格地评估模型的多模态理解和推理能力。MMMU-Pro通过过滤纯文本问题、增加候选选项和引入纯视觉问答设置,提高了评估难度。实验结果显示,模型在MMMU-Pro上的性能明显下降,但CoT推理有助于提升表现。MMMU-Pro为多模态理解提供了更严格的评估工具,但也面临一些挑战。

在人工智能领域,多模态理解一直是一个重要的研究方向。多模态理解是指模型能够同时处理和理解来自不同模态的信息,如文本、图像等。近年来,随着深度学习技术的发展,多模态理解取得了显著的进展。然而,现有的多模态理解基准还存在一些不足,如问题过于简单,无法全面评估模型的能力。

为了解决这个问题,一支由华人研究人员组成的团队对现有的Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU)基准进行了改进,推出了更强大的MMMU-Pro版本。MMMU-Pro旨在更严格地评估多模态模型的真实理解和推理能力。

MMMU-Pro的主要特点包括:

  1. 过滤纯文本问题:MMMU-Pro去除了那些仅通过文本信息就可以回答的问题,以确保问题需要多模态理解能力。
  2. 增加候选选项:MMMU-Pro增加了候选选项的数量,以增加问题的难度,并减少模型通过猜测获得正确答案的可能性。
  3. 引入纯视觉问答设置:MMMU-Pro引入了一种纯视觉输入设置,其中问题嵌入在图像中,模型需要同时“看”和“读”来回答问题。这旨在测试人类认知中无缝整合视觉和文本信息的基本技能。

研究人员对MMMU-Pro进行了广泛的实验,并比较了不同模型的性能。实验结果表明,MMMU-Pro对模型提出了更高的要求,模型在MMMU-Pro上的性能明显低于在MMMU上的性能。具体来说,模型在MMMU-Pro上的性能下降了16.8%到26.9%。

研究人员还探索了OCR提示和链式思维(CoT)推理对模型性能的影响。他们发现,OCR提示对模型性能的影响很小,而CoT推理通常可以提高模型的性能。

MMMU-Pro的推出为多模态理解领域提供了一个更严格的评估工具。通过引入纯视觉问答设置和增加候选选项,MMMU-Pro更接近真实世界的场景,能够更全面地评估模型的能力。这对于推动多模态理解技术的发展具有重要意义。

然而,MMMU-Pro也存在一些挑战。首先,由于问题的难度增加,模型在MMMU-Pro上的性能明显下降,这可能会对模型的实用性产生影响。其次,MMMU-Pro的评估标准可能过于严格,无法准确反映模型在实际应用中的能力。

论文链接:https://arxiv.org/abs/2409.02813

目录
相关文章
|
1天前
|
自然语言处理
杨笛一团队最新百页论文:首次统计学上证明,LLM生成的idea新颖性优于人类
【10月更文挑战第12天】斯坦福大学杨笛一团队发布百页论文,首次通过统计学方法证明大型语言模型(LLMs)在生成研究想法的新颖性上优于人类专家。研究招募100多名NLP专家进行盲评,结果显示LLM在新颖性方面显著胜出,但在可行性上稍逊。研究揭示了LLM在科研创新中的潜力与局限。
9 2
|
12天前
|
人工智能 网络架构 开发者
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
【10月更文挑战第1天】《OLMoE: Open Mixture-of-Experts Language Models》一文介绍了OLMoE,这是一个完全开源的Mixture-of-Experts(MoE)语言模型,具有70亿参数量,但每个输入令牌仅需10亿参数进行推理,有效平衡了性能与成本。OLMoE由Allen Institute for AI等机构的研究者共同开发,其开源特性促进了大规模语言模型领域的合作与创新,降低了资源浪费,同时具备良好的可扩展性和效率,为研究和应用开辟了新可能。然而,其复杂性也可能带来训练和调优上的挑战。
34 2
|
15天前
|
机器学习/深度学习 人工智能 算法
Agent Q:具备自我学习、评估的智能体
近年来,人工智能领域取得了显著进步,特别是智能体技术备受瞩目。智能体作为AI系统核心,能自主学习、决策和执行任务,应用广泛。Agent Q作为一种具备自我学习和评估能力的智能体,通过强化学习算法,能自动优化行为策略,适应复杂环境,无需人工干预。此外,它还能根据评估指标调整策略,持续提升任务完成质量。尽管存在复杂环境适应性和计算资源消耗等挑战,Agent Q仍为智能机器人、自动驾驶等领域的应用提供了新思路,推动了AI技术的发展。论文详细内容可在此处获取:https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
47 1
|
1月前
|
存储 人工智能 数据格式
总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集
【9月更文挑战第18天】鹏城实验室提出的ARIO(All Robots In One)标准,为具身智能领域带来了统一的数据格式、丰富的感知模态及多样化的真实与模拟数据,显著提升了数据集的质量与规模,助力智能系统更好地与物理世界互动。基于此标准构建的大规模数据集包含约300万个片段,覆盖258个系列和321,064个任务,极大地推动了具身智能的研究与发展。然而,该数据集也面临着存储需求高、系统互操作性及应用场景适应性等挑战。论文详情见:http://arxiv.org/abs/2408.10899。
59 11
|
29天前
|
机器学习/深度学习 人工智能 搜索推荐
港大黄超团队推出AnyGraph, 首次揭秘图大模型的Scaling Law
【9月更文挑战第24天】香港大学黄超教授团队提出了一种创新的图神经网络模型AnyGraph,该模型利用Mixture-of-Experts架构解决了图数据的异构性和适应性问题,在零样本学习和快速适应能力方面表现出色。研究首次揭示了图大模型的Scaling Law,即模型性能随规模和数据量增加而提升的规律,为图神经网络的发展提供了新视角。尽管AnyGraph在多个领域展示了卓越性能,但也存在计算复杂度高和泛化能力局限等挑战。论文详细内容可在此链接查阅:https://arxiv.org/pdf/2408.10700
25 3
|
1月前
|
自然语言处理 测试技术
明确了:文本数据中加点代码,训练出的大模型更强、更通用
【9月更文挑战第18天】《To Code, or Not To Code? Exploring Impact of Code in Pre-training》一文探讨了在大型语言模型(LLMs)预训练中引入代码数据的影响。研究显示,包含代码数据能显著提升模型的总体性能,尤其在自然语言推理和代码任务上表现突出。作者通过广泛的消融实验验证了这一结论,但同时也指出需关注潜在的负面效应及模型架构等因素的影响。更多详细信息,请参阅论文原文:[链接](https://arxiv.org/abs/2408.10914)。
49 10
|
1月前
|
自然语言处理 算法 云栖大会
通义万相发布视频生成模型,更懂中国风、中国话
通义万相发布视频生成模型,可一键创作影视级高清视频
403 11
|
1月前
|
文字识别 算法 API
阿里云文档解析(大模型版)优化
阿里云文档解析(大模型版
|
2月前
|
人工智能 文字识别 算法
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
X-AnyLabeling是一款强大的辅助标注工具,集成了AI推理引擎和丰富功能,为图像数据工程师提供一站式解决方案。它支持图像和视频文件的自动标注,提供了包括矩形框、多边形在内的七种标注样式,适应多样化的训练场景需求。X-AnyLabeling内置了多种SOTA级AI模型,如YOLO、SAM系列等,并支持GPU加速和多种数据集格式的导入导出,确保高效的数据处理。此外,它还具备良好的跨平台兼容性,可在多种操作系统上运行,并提供详尽的帮助文档和社区支持,帮助用户轻松上手并解决使用过程中遇到的问题。
153 2
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
|
2月前
|
机器学习/深度学习 资源调度 分布式计算
阿里PAI-ChatLearn:大规模 Alignment高效训练框架正式开源
PAI-ChatLearn现已全面开源,助力用户快速、高效的Alignment训练体验。借助ChatLearn,用户可全身心投入于模型设计与效果优化,无需分心于底层技术细节。ChatLearn将承担起资源调度、数据传输、参数同步、分布式运行管理以及确保系统高效稳定运作的重任,为用户提供一站式解决方案。