这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于视力测试

简介: 【7月更文挑战第28天】新研究表明VLM在简单视觉任务上的局限性。论文《Vision language models are blind》指出, GPT-4o、Claude-3.5 Sonnet等顶级模型在如判断形状重叠或字母识别等基本任务上表现不佳。另一研究在CVPR'24上介绍了一个新框架, 利用TRUMANS数据集生成精细的人物动作, 包括手部运动, 显示出在复杂场景下的强大能力, 尽管仍面临一定的局限。[论文链接](https://arxiv.org/pdf/2407.06581) [TRUMANS](https://arxiv.org/pdf/2403.08629)

最近,一篇名为《Vision language models are blind》的论文在人工智能领域引起了广泛关注。该论文由Auburn University和University of Alberta的研究人员合作完成,主要研究了视觉语言模型(VLM)在处理简单视觉任务时的表现。

视觉语言模型是一类结合了计算机视觉和自然语言处理的模型,它们能够理解和生成与图像相关的文本描述。然而,尽管这些模型在许多视觉理解基准测试中取得了令人印象深刻的成绩,但研究人员发现,它们在7个对人类来说非常简单的视觉任务上却表现得非常糟糕。

这7个任务包括:判断两个圆是否重叠,判断两条线是否相交,识别一个单词中被圈出的字母,以及计算一个类似奥运标志的图像中的圆圈数量。研究人员测试了四个最先进的VLM,包括GPT-4o、Gemini-1.5 Pro、Claude-3 Sonnet和Claude-3.5 Sonnet,结果发现它们在所有任务上都表现得非常差。

具体来说,这些模型在判断两个圆是否重叠时,准确率只有73%到93%,远低于预期的100%。在判断两条线是否相交时,准确率更是只有47%到85%。此外,当一个圆被叠加在一个单词上时,模型往往无法准确识别出被圈出的字母。

研究人员还发现,尽管VLM在处理图表和图解等复杂任务时表现良好,但它们在处理简单几何图形时却存在明显的局限性。例如,当被要求计算一个类似奥运标志的图像中的圆圈数量时,所有模型都无法准确完成任务。

这些发现引发了关于VLM在真实世界应用中的局限性的讨论。虽然这些模型在许多方面都表现出了强大的能力,但它们在处理简单视觉任务时的糟糕表现表明,它们可能无法像人类一样准确地感知和理解图像。

然而,值得注意的是,VLM在许多其他任务上仍然表现出色,包括图像分类、目标检测和图像字幕生成。因此,虽然这些模型在处理简单视觉任务时存在局限性,但它们仍然有潜力在更广泛的应用中发挥重要作用。

此外,研究人员还提出了一些改进VLM视觉能力的建议。例如,他们建议探索早期融合方法,即将视觉特征更早地集成到模型中,而不是在后期进行融合。他们还建议研究如何更好地将视觉信息与语言信息相结合,以改善模型的视觉理解能力。

论文链接:https://arxiv.org/pdf/2407.06581

CVPR'24 Highlight:一个框架搞定人物动作生成,精细到手部运动

在计算机视觉领域,人物动作生成一直是一个备受关注的研究方向。最近,一篇名为《Scaling Up Dynamic Human-Scene Interaction Modeling》的论文在CVPR'24(国际计算机视觉与模式识别会议)上引起了广泛关注。这篇论文由北京大学、BIGAI等机构的研究人员共同完成,他们提出了一个名为TRUMANS(Tracking Human Actions in Scenes)的大型数据集,以及一种基于扩散过程的新颖人物动作生成方法。

首先,让我们来看看这个名为TRUMANS的大型数据集。它被认为是迄今为止最全面的基于运动捕捉的人物场景交互数据集。该数据集包含了超过15小时的人类交互数据,涵盖了100个室内场景。它不仅捕捉了全身的人类动作,还捕捉了物体的动态,重点关注了接触的真实性。为了进一步扩展这个数据集,研究人员将物理环境转换为精确的虚拟模型,并对人类和物体的外观和运动进行了广泛的增强,同时保持了交互的真实性。

基于TRUMANS数据集,研究人员提出了一种基于扩散过程的自回归模型,用于生成任意长度的人物场景交互序列。该模型考虑了场景上下文和预期动作,能够高效地生成人物场景交互序列。在实验中,该方法在各种3D场景数据集(如PROX、Replica、ScanNet、ScanNet++)上展示了出色的零样本泛化能力,生成的动作与原始运动捕捉序列非常相似,这在定量实验和人类研究中得到了证实。

然而,尽管这项研究取得了显著的成果,但仍存在一些限制。首先,该方法无法生成超出训练集的人类物体交互行为。例如,它可能无法生成从桌子上爬下来的真实动作,这可能导致不真实的交互或物体碰撞。其次,尽管该方法在生成人物动作方面表现出色,但在处理复杂场景和多个人物交互方面可能存在挑战。

论文链接:https://arxiv.org/pdf/2403.08629

目录
相关文章
|
3月前
|
机器学习/深度学习 测试技术 信息无障碍
VLM集体失明?视力测试惨败,GPT-4o、Claude 3.5全都不及格
【8月更文挑战第2天】新研究表明,顶尖视觉语言模型(VLMs)如GPT-4o和Claude 3.5,在看似简单的视觉任务上表现堪忧,诸如判断圆圈是否重叠或线条是否交叉等。此发现揭示了即便是在图像理解方面表现出色的VLMs也存在基本视觉认知的局限性,提示模型融合视觉信息的方式有待改进。论文详细探讨了可能的原因及未来提升方向。[@arxiv:2407.06581]
60 6
|
1月前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
47 6
|
1月前
|
API
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
41 0
|
3月前
|
人工智能 API Python
Openai python调用gpt测试代码
这篇文章提供了使用OpenAI的Python库调用GPT-4模型进行聊天的测试代码示例,包括如何设置API密钥、发送消息并接收AI回复。
|
3月前
|
缓存 测试技术 C++
OpenAI GPT-4 Code Interpreter测试
本文分析了OpenAI GPT-4 Beta版本中的Code Interpreter功能,测试了其处理不同文件类型(如图表PNG、长文本PDF、短代码ipynb和长代码C++)的能力,并指出了在处理超出Token Limit内容时的局限性。
51 0
OpenAI GPT-4 Code Interpreter测试
|
6月前
|
人工智能 自然语言处理 安全
GPT-4通过图灵测试,胜率高达54%!UCSD新作:人类无法认出GPT-4
【5月更文挑战第27天】GPT-4在图灵测试中达到54%的胜率,使人类无法辨别其身份,展示出强大的人工智能模拟人类行为的能力。这项由UCSD进行的研究超越了ELIZA的22%,但未及人类67%的真实水平。尽管成果显著,图灵测试的局限性及AI伦理问题也随之浮现,引发关于技术控制与安全性的讨论。该进展预示着人工智能在客户服务等领域有广阔应用前景。[[arXiv:2405.08007](https://arxiv.org/pdf/2405.08007)]
72 1
|
5月前
|
测试技术
软件测试之【合理的利用GPT来辅助软件测试一】
软件测试之【合理的利用GPT来辅助软件测试一】
89 0
|
6月前
|
测试技术
揭秘智能写手GPT的测试报告生成技巧
测试报告的主要目的是提供与测试结果相关的数据信息,以便项目团队、开发人员、管理层和其他相关方可以了解测试的结果,并做出基于这些结果的明确下一步的决策,以及下一个版本的改进方向。
|
机器学习/深度学习 人工智能 自然语言处理
最快下月!地表最强语言模型GPT-4发布在即?CEO暗示:已通过图灵测试
最快下月!地表最强语言模型GPT-4发布在即?CEO暗示:已通过图灵测试
118 0
|
机器学习/深度学习 自然语言处理 算法
GPT-3 vs Bert vs GloVe vs Word2vec 文本嵌入技术的性能对比测试
本文将GPT3与三种传统文本嵌入技术GloVe、Word2vec(Mikolov ,2013 年)和 BERT生成的嵌入进行性能的简单对比。
641 0
GPT-3 vs Bert vs GloVe vs Word2vec 文本嵌入技术的性能对比测试

热门文章

最新文章