揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD

简介: 【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。

26e6b683317bc5c33dcd6ad47719c858.jpeg
在人工智能领域,大型多模态模型(LMMs)的视觉编码策略一直是提升其视觉理解能力的关键。然而,现有的LMMs在处理图像时通常存在固定大小和分辨率的限制,这在处理现实世界中多样化比例和高分辨率图像时显得力不从心。近期,清华大学与新加坡国立大学的研究团队发现了GPT-4V等模型在视觉编码上的问题,并提出了一种全新的模型LLaVA-UHD,旨在有效解决这些问题。

GPT-4V作为目前公认的强大LMMs之一,尽管在多个方面表现出色,但在一些基础能力上却存在缺陷,例如在图像中正确计数物体的数量。这种看似简单的任务,对于GPT-4V来说却是一个挑战。研究团队通过对GPT-4V进行一系列实验,发现这些缺陷可能与其视觉编码策略有关。特别是在处理高分辨率图像时,模型可能会出现系统性的错误。

为了克服这些挑战,研究团队提出了LLaVA-UHD模型,该模型包含三个关键组件:图像模块化策略、图像压缩模块和空间模式组织。图像模块化策略将原始分辨率图像分割成较小的可变大小切片,以便进行高效且可扩展的编码;图像压缩模块进一步压缩视觉编码器输出的图像标记;空间模式组织则用于安排切片标记,以便LMMs处理。

LLaVA-UHD模型的提出,标志着在处理任意比例和高分辨率图像方面迈出了重要一步。实验结果表明,LLaVA-UHD在9个基准测试中的表现超越了使用2-3个数量级更多数据训练的现有LMMs。特别值得注意的是,基于LLaVA-1.5 336×336的模型,通过仅使用94%的推理计算,就能支持672×1088分辨率的图像,并在TextVQA任务上实现了6.4%的准确率提升。

此外,LLaVA-UHD模型在学术环境中的高效训练也值得称赞。在8个A100 GPU上,模型的训练时间仅为23小时,相比LLaVA-1.5的26小时有了显著缩短。这一成果不仅为LMMs的发展提供了新的视角,也为相关领域的研究者和开发者提供了新的工具和可能性。

然而,尽管LLaVA-UHD在多个方面取得了显著的成就,但在实际应用过程中仍然存在一些挑战和局限性。例如,模型的训练成本和数据集的生成过程相对复杂,需要大量的计算资源和精心设计的算法。此外,模型的泛化能力和对特定任务的适应性也需要进一步的研究和优化。

论文链接:https://arxiv.org/pdf/2403.11703.pdf

目录
相关文章
|
4月前
|
人工智能 API 开发者
Dify x AiOnly平台:手把手教你调用GPT-5从零构建AI工作流!
本文介绍如何通过Dify与AiOnly平台,快速构建基于GPT-5等顶尖大模型的AI应用。涵盖环境部署、模型接入、工作流编排及实战案例,助力开发者低门槛打造专属聊天机器人,轻松实现AI应用落地。(238字)
|
3月前
|
人工智能 自然语言处理 数据挖掘
从幻觉到精准:RAG如何重塑AI对话的可靠性
从幻觉到精准:RAG如何重塑AI对话的可靠性
321 111
|
4月前
|
人工智能 数据库 索引
超越幻觉:检索增强生成如何为AI大模型“装上”事实核查系统
超越幻觉:检索增强生成如何为AI大模型“装上”事实核查系统
332 107
|
4月前
|
人工智能 自然语言处理 搜索推荐
超越幻觉:RAG如何为AI大模型注入“真实”的灵魂
超越幻觉:RAG如何为AI大模型注入“真实”的灵魂
288 81
|
9月前
|
机器学习/深度学习 人工智能 PyTorch
模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作
UniRig是清华大学与VAST联合研发的自动骨骼绑定框架,基于自回归模型与交叉注意力机制,支持多样化3D模型的骨骼生成与蒙皮权重预测,其创新的骨骼树标记化技术显著提升动画制作效率。
1543 27
模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
SurveyGO是清华与面壁智能联合开源的AI论文写作工具,采用LLMxMapReduce-V2技术实现文献智能聚合,能根据用户输入主题快速生成结构严谨、引用可靠的学术综述。
1238 1
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
383 10
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
|
3月前
|
人工智能 JSON 监控
三步构建AI评估体系:从解决“幻觉”到实现高效监控
AI时代,评估成关键技能。通过错误分析、归类量化与自动化监控,系统化改进AI应用,应对幻觉等问题。Anthropic与OpenAI均强调:评估是产品迭代的核心,数据驱动优于直觉,让AI真正服务于目标。
363 8
|
10月前
|
人工智能 计算机视觉
HarmonyOS NEXT AI基础视觉服务-背景替换
这是一个基于AI基础视觉服务的背景替换案例,通过调用设备相册选择图片并智能分割主体,支持动态更换背景颜色。主要步骤包括:1) 导入模块与定义组件;2) 实现图片选择与格式转换;3) 使用`subjectSegmentation.doSegmentation`接口完成主体分割;4) 通过随机RGB值实现背景色动态更换。代码结构清晰,功能完整,适合学习AI图像处理技术。
HarmonyOS NEXT AI基础视觉服务-背景替换

热门文章

最新文章