近日,一篇名为《视觉语言模型是盲人》的论文引起了广泛关注。这篇论文由来自奥本大学和阿尔伯塔大学的研究人员共同撰写,对当前最先进的视觉语言模型(VLMs)进行了全面的视觉能力测试。
论文中指出,尽管VLMs在许多图像理解基准测试中表现出色,但它们在7个对人类来说非常简单的视觉任务上却表现得非常糟糕。这些任务包括判断两个圆是否重叠、两条线是否相交、在单词中判断哪个字母被圈住,以及在类似奥运会标志的图像中数圆的数量等。
研究人员对四个最先进的VLMs进行了测试,包括GPT-4o、Gemini-1.5 Pro、Claude-3 Sonnet和Claude-3.5 Sonnet。结果显示,这些模型在上述任务中的表现令人震惊地差,其视觉能力最多只能与近视的人相比,最坏的情况下则与盲人无异。
论文中还提到,尽管VLMs在处理图像和文本的复杂任务上表现出色,如识别场景中的物体、根据检测到的物体执行复杂任务等,但它们在处理简单几何图形的低级视觉任务上却存在明显的局限性。
研究人员认为,VLMs的这种局限性可能是由于它们在早期融合阶段将浅层视觉编码器集成到大型语言模型中的方式所导致的。这种方式使得VLMs更像是一个有知识但没有眼睛的大脑,无法准确感知图像中的精细细节。
然而,也有观点认为,VLMs的这种局限性可能是由于它们在训练过程中缺乏足够的视觉数据所导致的。随着更多的视觉数据被纳入训练过程,VLMs的视觉能力有望得到进一步的提升。
此外,论文中还提到了一些改进VLMs视觉能力的方法,如使用更深层次的视觉编码器、引入注意力机制等。这些方法有望在未来进一步提高VLMs的视觉能力。