近年来,视觉语言模型(VLMs)在视觉问答(VQA)等复杂多模态任务中取得了显著进展。然而,这些模型在处理自然图像和问题时的表现是否真正达到了人类的水平?一项名为NaturalBench的最新研究对此提出了质疑,并揭示了VLMs在面对自然对抗样本时的不足。
NaturalBench研究团队发现,尽管VLMs在特定基准测试中表现出色,但它们在处理人类能够轻松回答的自然图像和问题时仍存在困难。这些自然对抗样本揭示了VLMs在理解和推理方面的局限性。更令人惊讶的是,研究团队发现使用现成的模型如CLIP和ChatGPT可以轻松生成这些VQA样本,这进一步凸显了VLMs的脆弱性。
为了更可靠地评估VLMs的性能,研究团队提出了一种半自动化的方法来收集一个新的基准测试——NaturalBench。该基准测试包含10,000个经过人类验证的VQA样本,旨在全面评估VLMs的能力。与以往的基准测试不同,NaturalBench采用了一种以视觉为中心的设计,为每个问题配对了两张产生不同答案的图像。这种设计有效防止了模型在不使用图像的情况下进行盲目猜测,从而提高了基准测试的挑战性。
在NaturalBench上对53种最先进的VLMs进行评估后,研究团队发现这些模型的性能与人类相比存在显著差距。例如,LLaVA-OneVision、Cambrian-1、Llama3.2-Vision、Molmo、Qwen2-VL甚至GPT-4o等知名模型在NaturalBench上的表现都落后于人类50%-70%(人类表现超过90%)。这一结果引发了对VLMs在实际应用中可靠性的质疑。
研究团队从两个角度分析了NaturalBench的难度:
组合性:解决NaturalBench问题需要多种视觉语言技能,包括理解属性绑定、对象关系以及逻辑和计数等高级推理能力。与以往使用单个标签进行评估的研究不同,NaturalBench为每个样本添加了1到8个技能标签,以实现更细粒度的评估。
偏见:NaturalBench揭示了VLMs中存在的严重偏见。这些模型往往会选择相同的答案,而不管图像内容如何。这种偏见可能导致模型在实际应用中产生错误的结果。
除了在英语数据集上进行评估外,研究团队还将他们的基准测试方法应用于其他数据源,包括长标题(超过100个单词)和非英语语言如中文和印地语。这些扩展评估展示了NaturalBench在动态评估VLMs方面的潜力。
NaturalBench的出现为VLMs的研究和开发提供了新的视角和挑战。它不仅揭示了当前VLMs的局限性,还为改进这些模型提供了方向。通过更全面、更严格的评估,我们可以推动VLMs向更接近人类水平的理解和推理能力迈进。
然而,NaturalBench也存在一些争议和挑战。首先,其以视觉为中心的设计虽然提高了基准测试的挑战性,但也可能导致模型在实际应用中过于依赖图像信息,而忽视了其他重要的上下文信息。其次,NaturalBench的样本数量虽然较大,但是否足够代表各种自然场景和问题类型仍存在疑问。此外,如何平衡模型的泛化能力和特定任务的性能也是一个需要进一步探讨的问题。