在人工智能领域,多模态理解一直是一个重要的研究方向。多模态理解是指模型能够同时处理和理解来自不同模态的信息,如文本、图像等。近年来,随着深度学习技术的发展,多模态理解取得了显著的进展。然而,现有的多模态理解基准还存在一些不足,如问题过于简单,无法全面评估模型的能力。
为了解决这个问题,一支由华人研究人员组成的团队对现有的Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU)基准进行了改进,推出了更强大的MMMU-Pro版本。MMMU-Pro旨在更严格地评估多模态模型的真实理解和推理能力。
MMMU-Pro的主要特点包括:
- 过滤纯文本问题:MMMU-Pro去除了那些仅通过文本信息就可以回答的问题,以确保问题需要多模态理解能力。
- 增加候选选项:MMMU-Pro增加了候选选项的数量,以增加问题的难度,并减少模型通过猜测获得正确答案的可能性。
- 引入纯视觉问答设置:MMMU-Pro引入了一种纯视觉输入设置,其中问题嵌入在图像中,模型需要同时“看”和“读”来回答问题。这旨在测试人类认知中无缝整合视觉和文本信息的基本技能。
研究人员对MMMU-Pro进行了广泛的实验,并比较了不同模型的性能。实验结果表明,MMMU-Pro对模型提出了更高的要求,模型在MMMU-Pro上的性能明显低于在MMMU上的性能。具体来说,模型在MMMU-Pro上的性能下降了16.8%到26.9%。
研究人员还探索了OCR提示和链式思维(CoT)推理对模型性能的影响。他们发现,OCR提示对模型性能的影响很小,而CoT推理通常可以提高模型的性能。
MMMU-Pro的推出为多模态理解领域提供了一个更严格的评估工具。通过引入纯视觉问答设置和增加候选选项,MMMU-Pro更接近真实世界的场景,能够更全面地评估模型的能力。这对于推动多模态理解技术的发展具有重要意义。
然而,MMMU-Pro也存在一些挑战。首先,由于问题的难度增加,模型在MMMU-Pro上的性能明显下降,这可能会对模型的实用性产生影响。其次,MMMU-Pro的评估标准可能过于严格,无法准确反映模型在实际应用中的能力。