VLM集体失明?视力测试惨败,GPT-4o、Claude 3.5全都不及格

简介: 【8月更文挑战第2天】新研究表明,顶尖视觉语言模型(VLMs)如GPT-4o和Claude 3.5,在看似简单的视觉任务上表现堪忧,诸如判断圆圈是否重叠或线条是否交叉等。此发现揭示了即便是在图像理解方面表现出色的VLMs也存在基本视觉认知的局限性,提示模型融合视觉信息的方式有待改进。论文详细探讨了可能的原因及未来提升方向。[@arxiv:2407.06581]

近日,一篇名为《视觉语言模型是盲人》的论文引起了广泛关注。这篇论文由来自奥本大学和阿尔伯塔大学的研究人员共同撰写,对当前最先进的视觉语言模型(VLMs)进行了全面的视觉能力测试。

论文中指出,尽管VLMs在许多图像理解基准测试中表现出色,但它们在7个对人类来说非常简单的视觉任务上却表现得非常糟糕。这些任务包括判断两个圆是否重叠、两条线是否相交、在单词中判断哪个字母被圈住,以及在类似奥运会标志的图像中数圆的数量等。

研究人员对四个最先进的VLMs进行了测试,包括GPT-4o、Gemini-1.5 Pro、Claude-3 Sonnet和Claude-3.5 Sonnet。结果显示,这些模型在上述任务中的表现令人震惊地差,其视觉能力最多只能与近视的人相比,最坏的情况下则与盲人无异。

论文中还提到,尽管VLMs在处理图像和文本的复杂任务上表现出色,如识别场景中的物体、根据检测到的物体执行复杂任务等,但它们在处理简单几何图形的低级视觉任务上却存在明显的局限性。

研究人员认为,VLMs的这种局限性可能是由于它们在早期融合阶段将浅层视觉编码器集成到大型语言模型中的方式所导致的。这种方式使得VLMs更像是一个有知识但没有眼睛的大脑,无法准确感知图像中的精细细节。

然而,也有观点认为,VLMs的这种局限性可能是由于它们在训练过程中缺乏足够的视觉数据所导致的。随着更多的视觉数据被纳入训练过程,VLMs的视觉能力有望得到进一步的提升。

此外,论文中还提到了一些改进VLMs视觉能力的方法,如使用更深层次的视觉编码器、引入注意力机制等。这些方法有望在未来进一步提高VLMs的视觉能力。

论文地址:https://arxiv.org/pdf/2407.06581

目录
相关文章
|
6月前
|
人工智能 搜索推荐 测试技术
模拟试错(STE)法让7B大模型测试超GPT-4
【2月更文挑战第24天】模拟试错(STE)法让7B大模型测试超GPT-4
134 1
模拟试错(STE)法让7B大模型测试超GPT-4
|
1月前
|
人工智能
反向和错位图灵测试:GPT-4比人类更人性化!
【10月更文挑战第8天】本文探讨了GPT-4在反向和错位图灵测试中的表现。反向测试中,GPT-4判断自身生成对话的准确性高于判断人类对话;错位测试中,人类更容易区分GPT-4生成的对话。研究揭示了GPT-4的某些特征及其局限性,如数据集偏差和任务特定性。
21 5
|
1月前
|
API
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
41 0
|
3月前
|
人工智能 API Python
Openai python调用gpt测试代码
这篇文章提供了使用OpenAI的Python库调用GPT-4模型进行聊天的测试代码示例,包括如何设置API密钥、发送消息并接收AI回复。
|
3月前
|
缓存 测试技术 C++
OpenAI GPT-4 Code Interpreter测试
本文分析了OpenAI GPT-4 Beta版本中的Code Interpreter功能,测试了其处理不同文件类型(如图表PNG、长文本PDF、短代码ipynb和长代码C++)的能力,并指出了在处理超出Token Limit内容时的局限性。
51 0
OpenAI GPT-4 Code Interpreter测试
|
3月前
|
人工智能 测试技术
ACL 2024:对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
【8月更文挑战第6天】在ACL 2024会议上,研究人员提出GSM-Plus对抗性基准,旨在评估大型语言模型(LLMs)如GPT-3.5-Turbo在数学推理上的鲁棒性。通过对25个模型和4种提示技术的测试,结果显示模型们虽能在标准GSM8K数据集上取得好成绩,但在遇到问题变异时表现欠佳,提示技术提升作用有限,揭示了LLMs在数学理解深度上的局限。论文详述了这一发现及其对未来研究的意义。
62 2
|
4月前
|
人工智能 自然语言处理 测试技术
这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于视力测试
【7月更文挑战第28天】新研究表明VLM在简单视觉任务上的局限性。论文《Vision language models are blind》指出, GPT-4o、Claude-3.5 Sonnet等顶级模型在如判断形状重叠或字母识别等基本任务上表现不佳。另一研究在CVPR'24上介绍了一个新框架, 利用TRUMANS数据集生成精细的人物动作, 包括手部运动, 显示出在复杂场景下的强大能力, 尽管仍面临一定的局限。[论文链接](https://arxiv.org/pdf/2407.06581) [TRUMANS](https://arxiv.org/pdf/2403.08629)
43 4
|
4月前
|
人工智能 自然语言处理 测试技术
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
【7月更文挑战第11天】蒙特利尔大学Yoshua Bengio团队推出多模态新基准MFE,旨在全面评估大型语言模型在处理跨模态任务时的能力。MFE包含多样化数据集、挑战性任务和严格评估指标,暴露了Claude 3.5和GPT-4o等现有模型的弱点,为多模态AI研究提供新视角和改进方向。论文链接:arxiv.org/abs/2406.06462
73 1
|
5月前
|
机器学习/深度学习 人工智能 测试技术
两句话,让LLM逻辑推理瞬间崩溃!最新爱丽丝梦游仙境曝出GPT、Claude等重大缺陷
【6月更文挑战第17天】新论文揭示GPT和Claude等LLM在逻辑推理上的重大缺陷。通过《爱丽丝梦游仙境》场景,研究显示这些模型在处理简单常识问题时给出错误答案并过度自信。即使面对明显逻辑矛盾,模型仍坚持错误推理,暴露了现有评估方法的不足。[链接:https://arxiv.org/abs/2406.02061]
348 1
|
5月前
|
人工智能 测试技术
Claude 3正式发布,超越GPT-4,一口气读15万单词,OpenAI最强的大对手!
Claude 3正式发布,超越GPT-4,一口气读15万单词,OpenAI最强的大对手!
81 0