当视觉大模型陷入认知失调，马里兰大学构建了一个幻觉自动生成框架-阿里云开发者社区

当视觉大模型陷入认知失调，马里兰大学构建了一个幻觉自动生成框架

2024-12-31 213

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 马里兰大学研究人员提出AutoHallusion框架，旨在通过自动化生成幻觉图像和问题对，深入研究大型视觉语言模型（LVLMs）中的幻觉现象。幻觉指LVLMs生成与图像内容不符的描述，限制其广泛应用。AutoHallusion通过异常对象插入、配对对象插入和相关对象删除三种策略，揭示LVLMs在处理视觉信息时的弱点。实验结果显示，该框架能在多种SOTA模型上以高成功率引发幻觉，为改进模型提供宝贵线索。未来将提升图像质量和扩展问题设计范围。论文链接：https://arxiv.org/pdf/2406.10900

在人工智能领域，大型视觉语言模型（LVLMs）正展现出前所未有的潜力，广泛应用于内容生成、自动驾驶和机器人技术等领域。然而，这些模型在处理视觉信息时，往往会受到自身语言模块的强烈先验知识影响，从而产生认知失调，生成与图像内容不符的描述，即所谓的"幻觉"。

为了深入研究并解决这一问题，马里兰大学的研究人员提出了一种名为"AutoHallusion"的自动生成幻觉的框架。这一创新性的研究为我们理解和应对LVLMs中的幻觉现象提供了新的视角和工具。

幻觉，即LVLMs在生成文本描述时包含与视觉内容不符的信息，是限制其广泛应用的一大挑战。这种错误的产生，往往是因为模型在处理视觉信息时，过于依赖语言模块的先验知识，而忽视了实际的视觉输入。

然而，从另一个角度来看，幻觉现象也为我们提供了一个独特的机会，去深入理解LVLMs的内部机制，以及它们是如何在视觉和语言之间进行信息整合和推理的。通过研究幻觉现象，我们可以发现模型的弱点和偏差，从而为改进模型提供有价值的线索。

为了系统地研究幻觉现象，马里兰大学的研究人员开发了AutoHallusion框架。这一框架旨在通过自动化的方式，生成能够引发LVLMs幻觉的图像和问题对，并检测模型在回答这些问题时是否产生了幻觉。

AutoHallusion的核心思想是，通过分析LVLMs语言模块的先验知识，找到与图像内容相矛盾的元素，并将其添加到图像中，或者从图像中删除与先验知识密切相关的元素。然后，向模型提出关于这些元素存在与否的问题，观察模型的回答是否与图像内容一致。

具体来说，AutoHallusion提出了三种主要的幻觉生成策略：

异常对象插入：在图像中插入与场景不符的物体，例如在办公室场景中插入一个烹饪锅。
配对对象插入：在图像中只插入配对物体中的一个，例如只插入咖啡机而不插入咖啡豆，然后询问另一个物体的存在。
相关对象删除：从图像中删除与场景密切相关的物体，例如从办公室场景中删除键盘或鼠标，然后询问这些物体的存在。

通过这些策略，AutoHallusion能够生成大量的幻觉案例，并用于评估和改进LVLMs。

为了验证AutoHallusion的有效性，研究人员在多个SOTA的LVLMs上进行了广泛的实验，包括GPT-4V(ision)、Gemini Pro Vision、Claude 3和LLaVA-1.5等。实验结果表明，AutoHallusion在合成数据和真实世界数据上都能够以极高的成功率（97.7%和98.7%）引发LVLMs的幻觉。

这些实验结果不仅证明了AutoHallusion在幻觉生成方面的强大能力，也揭示了LVLMs在处理视觉信息时的一些普遍问题。例如，实验发现，LVLMs更容易在存在认知失调的情况下产生幻觉，而在面对期望违背时则相对稳健。此外，较大的模型通常比较小的模型更能抵抗幻觉攻击。

AutoHallusion的提出，为我们理解和应对LVLMs中的幻觉现象提供了一个强有力的工具。它不仅能够自动化地生成大量的幻觉案例，用于评估模型的性能，还能够帮助我们发现模型的弱点和偏差，为改进模型提供有价值的线索。

然而，AutoHallusion也存在一些局限性。例如，在图像操作方面，目前的实现还比较简单，主要依赖于图像拼接技术，这可能会影响生成图像的质量。此外，目前的问题设计主要关注物体的存在和空间关系，而没有涉及物体的属性（如颜色、图案等），这可能会限制幻觉研究的全面性。

展望未来，我们可以期待AutoHallusion在以下几个方面得到进一步的发展和完善：

图像操作技术：采用更先进的图像生成和编辑技术，如基于扩散模型的方法，以提高生成图像的质量和真实性。
问题设计：扩展问题设计的范围，包括物体的属性、场景的语义等，以更全面地评估LVLMs的能力和局限性。
理论模型：建立更严格的数学模型，以描述和解释LVLMs中的幻觉现象，为改进模型提供更深入的理论指导。

论文链接：https://arxiv.org/pdf/2406.10900

当视觉大模型陷入认知失调，马里兰大学构建了一个幻觉自动生成框架

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

当视觉大模型陷入认知失调，马里兰大学构建了一个幻觉自动生成框架

热门文章

最新文章

相关课程

相关电子书

相关实验场景