VLM集体失明?视力测试惨败,GPT-4o、Claude 3.5全都不及格

简介: 【8月更文挑战第2天】新研究表明,顶尖视觉语言模型(VLMs)如GPT-4o和Claude 3.5,在看似简单的视觉任务上表现堪忧,诸如判断圆圈是否重叠或线条是否交叉等。此发现揭示了即便是在图像理解方面表现出色的VLMs也存在基本视觉认知的局限性,提示模型融合视觉信息的方式有待改进。论文详细探讨了可能的原因及未来提升方向。[@arxiv:2407.06581]

近日,一篇名为《视觉语言模型是盲人》的论文引起了广泛关注。这篇论文由来自奥本大学和阿尔伯塔大学的研究人员共同撰写,对当前最先进的视觉语言模型(VLMs)进行了全面的视觉能力测试。

论文中指出,尽管VLMs在许多图像理解基准测试中表现出色,但它们在7个对人类来说非常简单的视觉任务上却表现得非常糟糕。这些任务包括判断两个圆是否重叠、两条线是否相交、在单词中判断哪个字母被圈住,以及在类似奥运会标志的图像中数圆的数量等。

研究人员对四个最先进的VLMs进行了测试,包括GPT-4o、Gemini-1.5 Pro、Claude-3 Sonnet和Claude-3.5 Sonnet。结果显示,这些模型在上述任务中的表现令人震惊地差,其视觉能力最多只能与近视的人相比,最坏的情况下则与盲人无异。

论文中还提到,尽管VLMs在处理图像和文本的复杂任务上表现出色,如识别场景中的物体、根据检测到的物体执行复杂任务等,但它们在处理简单几何图形的低级视觉任务上却存在明显的局限性。

研究人员认为,VLMs的这种局限性可能是由于它们在早期融合阶段将浅层视觉编码器集成到大型语言模型中的方式所导致的。这种方式使得VLMs更像是一个有知识但没有眼睛的大脑,无法准确感知图像中的精细细节。

然而,也有观点认为,VLMs的这种局限性可能是由于它们在训练过程中缺乏足够的视觉数据所导致的。随着更多的视觉数据被纳入训练过程,VLMs的视觉能力有望得到进一步的提升。

此外,论文中还提到了一些改进VLMs视觉能力的方法,如使用更深层次的视觉编码器、引入注意力机制等。这些方法有望在未来进一步提高VLMs的视觉能力。

论文地址:https://arxiv.org/pdf/2407.06581

目录
相关文章
|
4月前
|
人工智能 搜索推荐 测试技术
模拟试错(STE)法让7B大模型测试超GPT-4
【2月更文挑战第24天】模拟试错(STE)法让7B大模型测试超GPT-4
101 1
模拟试错(STE)法让7B大模型测试超GPT-4
|
1月前
|
人工智能 测试技术
ACL 2024:对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
【8月更文挑战第6天】在ACL 2024会议上,研究人员提出GSM-Plus对抗性基准,旨在评估大型语言模型(LLMs)如GPT-3.5-Turbo在数学推理上的鲁棒性。通过对25个模型和4种提示技术的测试,结果显示模型们虽能在标准GSM8K数据集上取得好成绩,但在遇到问题变异时表现欠佳,提示技术提升作用有限,揭示了LLMs在数学理解深度上的局限。论文详述了这一发现及其对未来研究的意义。
43 2
|
2月前
|
人工智能 自然语言处理 测试技术
这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于视力测试
【7月更文挑战第28天】新研究表明VLM在简单视觉任务上的局限性。论文《Vision language models are blind》指出, GPT-4o、Claude-3.5 Sonnet等顶级模型在如判断形状重叠或字母识别等基本任务上表现不佳。另一研究在CVPR'24上介绍了一个新框架, 利用TRUMANS数据集生成精细的人物动作, 包括手部运动, 显示出在复杂场景下的强大能力, 尽管仍面临一定的局限。[论文链接](https://arxiv.org/pdf/2407.06581) [TRUMANS](https://arxiv.org/pdf/2403.08629)
19 4
|
2月前
|
人工智能 自然语言处理 测试技术
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
【7月更文挑战第11天】蒙特利尔大学Yoshua Bengio团队推出多模态新基准MFE,旨在全面评估大型语言模型在处理跨模态任务时的能力。MFE包含多样化数据集、挑战性任务和严格评估指标,暴露了Claude 3.5和GPT-4o等现有模型的弱点,为多模态AI研究提供新视角和改进方向。论文链接:arxiv.org/abs/2406.06462
45 1
|
3月前
|
机器学习/深度学习 人工智能 测试技术
两句话,让LLM逻辑推理瞬间崩溃!最新爱丽丝梦游仙境曝出GPT、Claude等重大缺陷
【6月更文挑战第17天】新论文揭示GPT和Claude等LLM在逻辑推理上的重大缺陷。通过《爱丽丝梦游仙境》场景,研究显示这些模型在处理简单常识问题时给出错误答案并过度自信。即使面对明显逻辑矛盾,模型仍坚持错误推理,暴露了现有评估方法的不足。[链接:https://arxiv.org/abs/2406.02061]
327 1
|
3月前
|
人工智能 测试技术
Claude 3正式发布,超越GPT-4,一口气读15万单词,OpenAI最强的大对手!
Claude 3正式发布,超越GPT-4,一口气读15万单词,OpenAI最强的大对手!
54 0
|
4月前
|
人工智能 自然语言处理 安全
GPT-4通过图灵测试,胜率高达54%!UCSD新作:人类无法认出GPT-4
【5月更文挑战第27天】GPT-4在图灵测试中达到54%的胜率,使人类无法辨别其身份,展示出强大的人工智能模拟人类行为的能力。这项由UCSD进行的研究超越了ELIZA的22%,但未及人类67%的真实水平。尽管成果显著,图灵测试的局限性及AI伦理问题也随之浮现,引发关于技术控制与安全性的讨论。该进展预示着人工智能在客户服务等领域有广阔应用前景。[[arXiv:2405.08007](https://arxiv.org/pdf/2405.08007)]
40 1
|
3月前
|
测试技术
软件测试之【合理的利用GPT来辅助软件测试一】
软件测试之【合理的利用GPT来辅助软件测试一】
48 0
|
4月前
|
人工智能 前端开发 测试技术
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
【2月更文挑战第17天】研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
89 4
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
|
4月前
|
人工智能 测试技术 量子技术
Claude 3智商测试101分超越人类/碾压GPT-4!
【2月更文挑战第16天】Claude 3智商测试101分超越人类/碾压GPT-4!
56 1
Claude 3智商测试101分超越人类/碾压GPT-4!