不让视觉语言模型盲猜,性能竟直接提升一倍?

简介: 近年来,视觉语言模型(VLMs)在视觉问答(VQA)任务中取得进展,但最新研究NaturalBench揭示其面对自然对抗样本时的不足。该研究通过10,000个经人类验证的VQA样本,评估53种先进VLMs,发现它们的表现落后于人类50%-70%。NaturalBench采用以视觉为中心的设计,强调组合性和减少偏见,为VLMs的改进提供了方向。论文链接:https://arxiv.org/abs/2410.14669

近年来,视觉语言模型(VLMs)在视觉问答(VQA)等复杂多模态任务中取得了显著进展。然而,这些模型在处理自然图像和问题时的表现是否真正达到了人类的水平?一项名为NaturalBench的最新研究对此提出了质疑,并揭示了VLMs在面对自然对抗样本时的不足。

NaturalBench研究团队发现,尽管VLMs在特定基准测试中表现出色,但它们在处理人类能够轻松回答的自然图像和问题时仍存在困难。这些自然对抗样本揭示了VLMs在理解和推理方面的局限性。更令人惊讶的是,研究团队发现使用现成的模型如CLIP和ChatGPT可以轻松生成这些VQA样本,这进一步凸显了VLMs的脆弱性。

为了更可靠地评估VLMs的性能,研究团队提出了一种半自动化的方法来收集一个新的基准测试——NaturalBench。该基准测试包含10,000个经过人类验证的VQA样本,旨在全面评估VLMs的能力。与以往的基准测试不同,NaturalBench采用了一种以视觉为中心的设计,为每个问题配对了两张产生不同答案的图像。这种设计有效防止了模型在不使用图像的情况下进行盲目猜测,从而提高了基准测试的挑战性。

在NaturalBench上对53种最先进的VLMs进行评估后,研究团队发现这些模型的性能与人类相比存在显著差距。例如,LLaVA-OneVision、Cambrian-1、Llama3.2-Vision、Molmo、Qwen2-VL甚至GPT-4o等知名模型在NaturalBench上的表现都落后于人类50%-70%(人类表现超过90%)。这一结果引发了对VLMs在实际应用中可靠性的质疑。

研究团队从两个角度分析了NaturalBench的难度:

  1. 组合性:解决NaturalBench问题需要多种视觉语言技能,包括理解属性绑定、对象关系以及逻辑和计数等高级推理能力。与以往使用单个标签进行评估的研究不同,NaturalBench为每个样本添加了1到8个技能标签,以实现更细粒度的评估。

  2. 偏见:NaturalBench揭示了VLMs中存在的严重偏见。这些模型往往会选择相同的答案,而不管图像内容如何。这种偏见可能导致模型在实际应用中产生错误的结果。

除了在英语数据集上进行评估外,研究团队还将他们的基准测试方法应用于其他数据源,包括长标题(超过100个单词)和非英语语言如中文和印地语。这些扩展评估展示了NaturalBench在动态评估VLMs方面的潜力。

NaturalBench的出现为VLMs的研究和开发提供了新的视角和挑战。它不仅揭示了当前VLMs的局限性,还为改进这些模型提供了方向。通过更全面、更严格的评估,我们可以推动VLMs向更接近人类水平的理解和推理能力迈进。

然而,NaturalBench也存在一些争议和挑战。首先,其以视觉为中心的设计虽然提高了基准测试的挑战性,但也可能导致模型在实际应用中过于依赖图像信息,而忽视了其他重要的上下文信息。其次,NaturalBench的样本数量虽然较大,但是否足够代表各种自然场景和问题类型仍存在疑问。此外,如何平衡模型的泛化能力和特定任务的性能也是一个需要进一步探讨的问题。

论文链接: https://arxiv.org/abs/2410.14669

目录
相关文章
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
ModernBERT:英伟达开源的新一代编码器模型,性能超越 SOTA,通过去除填充和序列打包减少计算浪费,提高训练和推理的效率
ModernBERT 是由英伟达和 HuggingFace 等机构联合开源的新一代编码器模型,支持长上下文处理,性能超越 SOTA,适合多种自然语言处理任务。
30 7
ModernBERT:英伟达开源的新一代编码器模型,性能超越 SOTA,通过去除填充和序列打包减少计算浪费,提高训练和推理的效率
|
4月前
|
机器学习/深度学习 存储 人工智能
压缩大型语言模型(LLMs):缩小10倍、性能保持不变
尽管大规模语言模型(LLMs)在多种应用场景中表现出色,但其庞大的规模也带来了实际部署难题。本文探讨了通过模型压缩技术解决这些问题的方法,介绍了量化、剪枝和知识蒸馏三种主要压缩技术,并通过具体Python代码示例展示了如何将一个100M参数的文本分类模型压缩至52.8M参数,再通过4位量化进一步减小至原来的1/7,同时保持甚至提升性能。示例代码展示了从数据预处理、模型训练到评估的完整流程,证明了压缩技术的有效性。
170 6
|
30天前
|
机器学习/深度学习 存储 人工智能
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
谢赛宁团队提出REPA方法,通过将扩散模型中的噪声输入隐藏状态与外部预训练视觉编码器的干净图像表征对齐,显著提升扩散模型的训练效率和生成质量,为扩散模型在表征学习上的应用开辟新路径。
35 5
|
3月前
|
人工智能 人机交互 智能硬件
从大模型的原理到提示词优化
本文介绍了大语言模型(LLM)的基本概念及其工作原理,重点探讨了AI提示词(Prompt)的重要性和几种有效技巧,包括角色设定、One-shot/Few-shot、任务拆解和思维链。通过实例解析,展示了如何利用这些技巧提升LLM的输出质量和准确性,强调了提供高质量上下文信息对优化LLM表现的关键作用。
106 0
|
4月前
|
人工智能 开发者
谷歌通过数据增强、对比调优,减少多模态模型幻觉
【9月更文挑战第16天】谷歌研究人员针对多模态大语言模型(MLLMs)中的幻觉问题,提出了一种结合数据增强与对比调优的新方法,旨在减少模型生成错误信息的情况。该方法通过生成式数据增强制造幻觉标记并与真实标记对比,利用对比损失优化模型参数,从而提升模型对真实信息的辨识能力。实验结果显示,此方法能显著降低对象幻觉现象,但在模拟复杂现实场景及计算需求方面仍面临挑战。相关研究已发布在论文《通过数据增强的对比调优减轻对象幻觉》中。
56 3
|
7月前
|
机器学习/深度学习 自然语言处理 算法
用神经架构搜索给LLM瘦身,模型变小,准确度有时反而更高
【6月更文挑战第20天】研究人员运用神经架构搜索(NAS)压缩LLM,如LLaMA2-7B,找到小而精准的子网,降低内存与计算成本,保持甚至提升性能。实验显示在多个任务上,模型大小减半,速度加快,精度不变或提升。NAS虽需大量计算资源,但结合量化技术,能有效优化大型语言模型。[论文链接](https://arxiv.org/pdf/2405.18377)**
69 3
|
7月前
|
算法 测试技术 异构计算
【SAM模型超级进化】MobileSAM轻量化的分割一切大模型出现,模型缩小60倍,速度提高40倍,效果不减
【SAM模型超级进化】MobileSAM轻量化的分割一切大模型出现,模型缩小60倍,速度提高40倍,效果不减
|
8月前
|
自然语言处理 算法
LLM的能力大约每8个月就会翻一倍,速度远超摩尔定律!
【2月更文挑战第27天】LLM的能力大约每8个月就会翻一倍,速度远超摩尔定律!
68 2
LLM的能力大约每8个月就会翻一倍,速度远超摩尔定律!
|
8月前
|
人工智能 安全 测试技术
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
【2月更文挑战第18天】Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
77 3
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
|
8月前
|
人工智能 前端开发 测试技术
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
【2月更文挑战第17天】研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
122 4
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好