揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD

简介: 【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。

26e6b683317bc5c33dcd6ad47719c858.jpeg
在人工智能领域,大型多模态模型(LMMs)的视觉编码策略一直是提升其视觉理解能力的关键。然而,现有的LMMs在处理图像时通常存在固定大小和分辨率的限制,这在处理现实世界中多样化比例和高分辨率图像时显得力不从心。近期,清华大学与新加坡国立大学的研究团队发现了GPT-4V等模型在视觉编码上的问题,并提出了一种全新的模型LLaVA-UHD,旨在有效解决这些问题。

GPT-4V作为目前公认的强大LMMs之一,尽管在多个方面表现出色,但在一些基础能力上却存在缺陷,例如在图像中正确计数物体的数量。这种看似简单的任务,对于GPT-4V来说却是一个挑战。研究团队通过对GPT-4V进行一系列实验,发现这些缺陷可能与其视觉编码策略有关。特别是在处理高分辨率图像时,模型可能会出现系统性的错误。

为了克服这些挑战,研究团队提出了LLaVA-UHD模型,该模型包含三个关键组件:图像模块化策略、图像压缩模块和空间模式组织。图像模块化策略将原始分辨率图像分割成较小的可变大小切片,以便进行高效且可扩展的编码;图像压缩模块进一步压缩视觉编码器输出的图像标记;空间模式组织则用于安排切片标记,以便LMMs处理。

LLaVA-UHD模型的提出,标志着在处理任意比例和高分辨率图像方面迈出了重要一步。实验结果表明,LLaVA-UHD在9个基准测试中的表现超越了使用2-3个数量级更多数据训练的现有LMMs。特别值得注意的是,基于LLaVA-1.5 336×336的模型,通过仅使用94%的推理计算,就能支持672×1088分辨率的图像,并在TextVQA任务上实现了6.4%的准确率提升。

此外,LLaVA-UHD模型在学术环境中的高效训练也值得称赞。在8个A100 GPU上,模型的训练时间仅为23小时,相比LLaVA-1.5的26小时有了显著缩短。这一成果不仅为LMMs的发展提供了新的视角,也为相关领域的研究者和开发者提供了新的工具和可能性。

然而,尽管LLaVA-UHD在多个方面取得了显著的成就,但在实际应用过程中仍然存在一些挑战和局限性。例如,模型的训练成本和数据集的生成过程相对复杂,需要大量的计算资源和精心设计的算法。此外,模型的泛化能力和对特定任务的适应性也需要进一步的研究和优化。

论文链接:https://arxiv.org/pdf/2403.11703.pdf

目录
相关文章
|
2月前
|
人工智能 IDE 测试技术
一文教会你如何用好通义灵码,让这款 AI 编码工具帮你做更多工作,更高效
如何用好通义灵码?欢迎收藏最佳使用指南。本文提供通义灵码使用指南,涵盖快捷键、配置调整、跨文件索引及上下文管理等内容,帮助用户更高效地使用通义灵码。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI发展与GPT简介
人工智能(AI)是指计算机系统执行通常需要人类智能的任务的能力,如视觉感知、语音识别、决策制定和语言翻译。简而言之,AI就是让计算机模仿人类的思考和行为过程。
111 0
|
19天前
|
消息中间件 人工智能 运维
|
22天前
|
存储 人工智能 前端开发
AI 网关零代码解决 AI 幻觉问题
本文主要介绍了 AI Agent 的背景,概念,探讨了 AI Agent 网关插件的使用方法,效果以及实现原理。
|
2月前
|
存储 人工智能 前端开发
AI 网关零代码解决 AI 幻觉问题
本文主要介绍了 AI Agent 的背景,概念,探讨了 AI Agent 网关插件的使用方法,效果以及实现原理。
18708 18
|
26天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
2月前
|
人工智能 自然语言处理 安全
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
|
1月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
62 10
|
2月前
|
人工智能 自然语言处理 开发者
通义灵码助力开学第一课!百万开发者首选的 AI 编码工具通义灵码是如何炼成的?
我们非常高兴的宣布,通义灵码插件下载量突破400万啦!
1363 1
通义灵码助力开学第一课!百万开发者首选的 AI 编码工具通义灵码是如何炼成的?
|
6天前
|
人工智能 自然语言处理 Linux
Llama 3.2:开源可定制视觉模型,引领边缘AI革命
Llama 3.2 系列 11B 和 90B 视觉LLM,支持图像理解,例如文档级理解(包括图表和图形)、图像字幕以及视觉基础任务(例如基于自然语言描述在图像中精确定位对象)。
下一篇
无影云桌面