VLM集体失明？视力测试惨败，GPT-4o、Claude 3.5全都不及格-阿里云开发者社区

VLM集体失明？视力测试惨败，GPT-4o、Claude 3.5全都不及格

2024-08-02 68

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第2天】新研究表明，顶尖视觉语言模型（VLMs）如GPT-4o和Claude 3.5，在看似简单的视觉任务上表现堪忧，诸如判断圆圈是否重叠或线条是否交叉等。此发现揭示了即便是在图像理解方面表现出色的VLMs也存在基本视觉认知的局限性，提示模型融合视觉信息的方式有待改进。论文详细探讨了可能的原因及未来提升方向。[@arxiv:2407.06581]

近日，一篇名为《视觉语言模型是盲人》的论文引起了广泛关注。这篇论文由来自奥本大学和阿尔伯塔大学的研究人员共同撰写，对当前最先进的视觉语言模型（VLMs）进行了全面的视觉能力测试。

论文中指出，尽管VLMs在许多图像理解基准测试中表现出色，但它们在7个对人类来说非常简单的视觉任务上却表现得非常糟糕。这些任务包括判断两个圆是否重叠、两条线是否相交、在单词中判断哪个字母被圈住，以及在类似奥运会标志的图像中数圆的数量等。

研究人员对四个最先进的VLMs进行了测试，包括GPT-4o、Gemini-1.5 Pro、Claude-3 Sonnet和Claude-3.5 Sonnet。结果显示，这些模型在上述任务中的表现令人震惊地差，其视觉能力最多只能与近视的人相比，最坏的情况下则与盲人无异。

论文中还提到，尽管VLMs在处理图像和文本的复杂任务上表现出色，如识别场景中的物体、根据检测到的物体执行复杂任务等，但它们在处理简单几何图形的低级视觉任务上却存在明显的局限性。

研究人员认为，VLMs的这种局限性可能是由于它们在早期融合阶段将浅层视觉编码器集成到大型语言模型中的方式所导致的。这种方式使得VLMs更像是一个有知识但没有眼睛的大脑，无法准确感知图像中的精细细节。

然而，也有观点认为，VLMs的这种局限性可能是由于它们在训练过程中缺乏足够的视觉数据所导致的。随着更多的视觉数据被纳入训练过程，VLMs的视觉能力有望得到进一步的提升。

此外，论文中还提到了一些改进VLMs视觉能力的方法，如使用更深层次的视觉编码器、引入注意力机制等。这些方法有望在未来进一步提高VLMs的视觉能力。

论文地址：https://arxiv.org/pdf/2407.06581

VLM集体失明？视力测试惨败，GPT-4o、Claude 3.5全都不及格

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

VLM集体失明？视力测试惨败，GPT-4o、Claude 3.5全都不及格

热门文章

最新文章

相关课程

相关电子书

相关实验场景