这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于视力测试-阿里云开发者社区

这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于视力测试

2024-07-29 316

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【7月更文挑战第28天】新研究表明VLM在简单视觉任务上的局限性。论文《Vision language models are blind》指出, GPT-4o、Claude-3.5 Sonnet等顶级模型在如判断形状重叠或字母识别等基本任务上表现不佳。另一研究在CVPR'24上介绍了一个新框架, 利用TRUMANS数据集生成精细的人物动作, 包括手部运动, 显示出在复杂场景下的强大能力, 尽管仍面临一定的局限。[论文链接](https://arxiv.org/pdf/2407.06581) [TRUMANS](https://arxiv.org/pdf/2403.08629)

最近，一篇名为《Vision language models are blind》的论文在人工智能领域引起了广泛关注。该论文由Auburn University和University of Alberta的研究人员合作完成，主要研究了视觉语言模型（VLM）在处理简单视觉任务时的表现。

视觉语言模型是一类结合了计算机视觉和自然语言处理的模型，它们能够理解和生成与图像相关的文本描述。然而，尽管这些模型在许多视觉理解基准测试中取得了令人印象深刻的成绩，但研究人员发现，它们在7个对人类来说非常简单的视觉任务上却表现得非常糟糕。

这7个任务包括：判断两个圆是否重叠，判断两条线是否相交，识别一个单词中被圈出的字母，以及计算一个类似奥运标志的图像中的圆圈数量。研究人员测试了四个最先进的VLM，包括GPT-4o、Gemini-1.5 Pro、Claude-3 Sonnet和Claude-3.5 Sonnet，结果发现它们在所有任务上都表现得非常差。

具体来说，这些模型在判断两个圆是否重叠时，准确率只有73%到93%，远低于预期的100%。在判断两条线是否相交时，准确率更是只有47%到85%。此外，当一个圆被叠加在一个单词上时，模型往往无法准确识别出被圈出的字母。

研究人员还发现，尽管VLM在处理图表和图解等复杂任务时表现良好，但它们在处理简单几何图形时却存在明显的局限性。例如，当被要求计算一个类似奥运标志的图像中的圆圈数量时，所有模型都无法准确完成任务。

这些发现引发了关于VLM在真实世界应用中的局限性的讨论。虽然这些模型在许多方面都表现出了强大的能力，但它们在处理简单视觉任务时的糟糕表现表明，它们可能无法像人类一样准确地感知和理解图像。

然而，值得注意的是，VLM在许多其他任务上仍然表现出色，包括图像分类、目标检测和图像字幕生成。因此，虽然这些模型在处理简单视觉任务时存在局限性，但它们仍然有潜力在更广泛的应用中发挥重要作用。

此外，研究人员还提出了一些改进VLM视觉能力的建议。例如，他们建议探索早期融合方法，即将视觉特征更早地集成到模型中，而不是在后期进行融合。他们还建议研究如何更好地将视觉信息与语言信息相结合，以改善模型的视觉理解能力。

论文链接：https://arxiv.org/pdf/2407.06581

CVPR'24 Highlight：一个框架搞定人物动作生成，精细到手部运动

在计算机视觉领域，人物动作生成一直是一个备受关注的研究方向。最近，一篇名为《Scaling Up Dynamic Human-Scene Interaction Modeling》的论文在CVPR'24（国际计算机视觉与模式识别会议）上引起了广泛关注。这篇论文由北京大学、BIGAI等机构的研究人员共同完成，他们提出了一个名为TRUMANS（Tracking Human Actions in Scenes）的大型数据集，以及一种基于扩散过程的新颖人物动作生成方法。

首先，让我们来看看这个名为TRUMANS的大型数据集。它被认为是迄今为止最全面的基于运动捕捉的人物场景交互数据集。该数据集包含了超过15小时的人类交互数据，涵盖了100个室内场景。它不仅捕捉了全身的人类动作，还捕捉了物体的动态，重点关注了接触的真实性。为了进一步扩展这个数据集，研究人员将物理环境转换为精确的虚拟模型，并对人类和物体的外观和运动进行了广泛的增强，同时保持了交互的真实性。

基于TRUMANS数据集，研究人员提出了一种基于扩散过程的自回归模型，用于生成任意长度的人物场景交互序列。该模型考虑了场景上下文和预期动作，能够高效地生成人物场景交互序列。在实验中，该方法在各种3D场景数据集（如PROX、Replica、ScanNet、ScanNet++）上展示了出色的零样本泛化能力，生成的动作与原始运动捕捉序列非常相似，这在定量实验和人类研究中得到了证实。

然而，尽管这项研究取得了显著的成果，但仍存在一些限制。首先，该方法无法生成超出训练集的人类物体交互行为。例如，它可能无法生成从桌子上爬下来的真实动作，这可能导致不真实的交互或物体碰撞。其次，尽管该方法在生成人物动作方面表现出色，但在处理复杂场景和多个人物交互方面可能存在挑战。

论文链接：https://arxiv.org/pdf/2403.08629

这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于视力测试

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于视力测试

热门文章

最新文章

相关课程

相关电子书

相关实验场景