最近,一篇名为《Vision language models are blind》的论文在人工智能领域引起了广泛关注。该论文由Auburn University和University of Alberta的研究人员合作完成,主要研究了视觉语言模型(VLM)在处理简单视觉任务时的表现。
视觉语言模型是一类结合了计算机视觉和自然语言处理的模型,它们能够理解和生成与图像相关的文本描述。然而,尽管这些模型在许多视觉理解基准测试中取得了令人印象深刻的成绩,但研究人员发现,它们在7个对人类来说非常简单的视觉任务上却表现得非常糟糕。
这7个任务包括:判断两个圆是否重叠,判断两条线是否相交,识别一个单词中被圈出的字母,以及计算一个类似奥运标志的图像中的圆圈数量。研究人员测试了四个最先进的VLM,包括GPT-4o、Gemini-1.5 Pro、Claude-3 Sonnet和Claude-3.5 Sonnet,结果发现它们在所有任务上都表现得非常差。
具体来说,这些模型在判断两个圆是否重叠时,准确率只有73%到93%,远低于预期的100%。在判断两条线是否相交时,准确率更是只有47%到85%。此外,当一个圆被叠加在一个单词上时,模型往往无法准确识别出被圈出的字母。
研究人员还发现,尽管VLM在处理图表和图解等复杂任务时表现良好,但它们在处理简单几何图形时却存在明显的局限性。例如,当被要求计算一个类似奥运标志的图像中的圆圈数量时,所有模型都无法准确完成任务。
这些发现引发了关于VLM在真实世界应用中的局限性的讨论。虽然这些模型在许多方面都表现出了强大的能力,但它们在处理简单视觉任务时的糟糕表现表明,它们可能无法像人类一样准确地感知和理解图像。
然而,值得注意的是,VLM在许多其他任务上仍然表现出色,包括图像分类、目标检测和图像字幕生成。因此,虽然这些模型在处理简单视觉任务时存在局限性,但它们仍然有潜力在更广泛的应用中发挥重要作用。
此外,研究人员还提出了一些改进VLM视觉能力的建议。例如,他们建议探索早期融合方法,即将视觉特征更早地集成到模型中,而不是在后期进行融合。他们还建议研究如何更好地将视觉信息与语言信息相结合,以改善模型的视觉理解能力。
论文链接:https://arxiv.org/pdf/2407.06581
CVPR'24 Highlight:一个框架搞定人物动作生成,精细到手部运动
在计算机视觉领域,人物动作生成一直是一个备受关注的研究方向。最近,一篇名为《Scaling Up Dynamic Human-Scene Interaction Modeling》的论文在CVPR'24(国际计算机视觉与模式识别会议)上引起了广泛关注。这篇论文由北京大学、BIGAI等机构的研究人员共同完成,他们提出了一个名为TRUMANS(Tracking Human Actions in Scenes)的大型数据集,以及一种基于扩散过程的新颖人物动作生成方法。
首先,让我们来看看这个名为TRUMANS的大型数据集。它被认为是迄今为止最全面的基于运动捕捉的人物场景交互数据集。该数据集包含了超过15小时的人类交互数据,涵盖了100个室内场景。它不仅捕捉了全身的人类动作,还捕捉了物体的动态,重点关注了接触的真实性。为了进一步扩展这个数据集,研究人员将物理环境转换为精确的虚拟模型,并对人类和物体的外观和运动进行了广泛的增强,同时保持了交互的真实性。
基于TRUMANS数据集,研究人员提出了一种基于扩散过程的自回归模型,用于生成任意长度的人物场景交互序列。该模型考虑了场景上下文和预期动作,能够高效地生成人物场景交互序列。在实验中,该方法在各种3D场景数据集(如PROX、Replica、ScanNet、ScanNet++)上展示了出色的零样本泛化能力,生成的动作与原始运动捕捉序列非常相似,这在定量实验和人类研究中得到了证实。
然而,尽管这项研究取得了显著的成果,但仍存在一些限制。首先,该方法无法生成超出训练集的人类物体交互行为。例如,它可能无法生成从桌子上爬下来的真实动作,这可能导致不真实的交互或物体碰撞。其次,尽管该方法在生成人物动作方面表现出色,但在处理复杂场景和多个人物交互方面可能存在挑战。