多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

简介: 【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053

随着大型语言模型(LLM)的迅速发展,多模态大型模型(MLLM)在视觉理解和推理任务中的应用也受到了广泛关注。然而,尽管MLLM在自然图像处理方面取得了显著进展,但在复杂和精细的图像类型(如图表、文档和图解)的理解上仍存在挑战。

近期,由浙江大学领衔的一支研究团队,针对MLLM在视觉推理能力上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究旨在通过合成数据的补充,提高MLLM在抽象图像理解和视觉推理任务上的性能。

MLLM在处理自然图像时通常表现出色,但当面临抽象图像(如图表、地图或布局)和视觉推理任务时,其性能往往不尽如人意。例如,MLLM在完成简单的日常任务,如从时钟图像中读取时间、理解流程图或使用道路地图规划路线时,经常会遇到困难。

为了解决这一问题,研究团队设计了一种多模态自指导策略,利用大型语言模型及其编码能力来合成大量抽象图像和视觉推理指令,涵盖了各种日常场景。

该策略通过简单的线条和几何元素构建了一个包含11,193条指令的多模态基准,涉及8种视觉场景:图表、表格、模拟地图、仪表板、流程图、关系图、平面图和视觉谜题。

通过该基准,研究团队对几种代表性的MLLM进行了评估,并发现了它们在抽象图像理解和视觉推理方面的显著不足。例如,在仪表板场景中,表现最好的MLLM(GPT-4o)仅取得了54.7的得分,远低于人类水平的85.3。

此外,研究团队还通过微调一个MLLM(使用62,476条合成的图表、表格和道路地图指令)来验证合成数据的质量。实验结果表明,合成数据可以显著提高模型在图表理解和地图导航任务上的性能,并可能对其他视觉推理任务产生积极影响。

这项研究的主要贡献在于:

  1. 识别了MLLM在抽象图像理解和视觉推理方面的显著差距:研究团队通过构建多模态基准,揭示了MLLM在处理抽象图像和执行视觉推理任务时的性能瓶颈。
  2. 设计了一种多模态自指导策略:利用大型语言模型和代码生成能力,研究团队合成了大量抽象图像和视觉推理指令,为MLLM的训练提供了有价值的数据。
  3. 构建了一个包含11,193条高质量指令的基准:该基准涵盖了8种常见的视觉场景,并揭示了即使在先进的MLLM中也存在显著的不足。

然而,该研究也存在一些局限性:

  1. 对闭源模型的依赖:多模态自指导策略的实施依赖于闭源模型(如GPT-4)的代码生成和推理能力,这可能限制了其在开源社区的广泛应用。
  2. 数据合成的成本:使用闭源模型进行数据合成可能需要较高的计算成本,这可能限制了该方法在资源有限的研究环境中的可行性。
  3. 图像分辨率的限制:研究团队指出,视觉编码器的图像分辨率可能是当前MLLM在抽象图像理解方面的一个瓶颈,未来的研究可以探索提高图像分辨率的方法。

论文地址:https://arxiv.org/pdf/2407.07053

目录
相关文章
|
5月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
1440 4
|
5月前
|
机器学习/深度学习 缓存 监控
大模型推理优化技术:KV缓存机制详解
本文深入探讨了大语言模型推理过程中的关键技术——KV缓存(Key-Value Cache)机制。通过对Transformer自注意力机制的分析,阐述了KV缓存的工作原理、实现方式及其对推理性能的显著优化效果。文章包含具体的代码实现和性能对比数据,为开发者理解和应用这一关键技术提供实践指导。
1743 8
|
6月前
|
人工智能 自然语言处理 API
快速集成GPT-4o:下一代多模态AI实战指南
快速集成GPT-4o:下一代多模态AI实战指南
537 101
|
5月前
|
机器学习/深度学习 缓存 自然语言处理
【万字长文】大模型训练推理和性能优化算法总结和实践
我们是阿里云公共云 AI 汽车行业大模型技术团队,致力于通过专业的全栈 AI 技术推动 AI 的落地应用。
2517 39
【万字长文】大模型训练推理和性能优化算法总结和实践
|
6月前
|
数据采集 人工智能 文字识别
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
本文深入解析多模态RAG技术,涵盖其基本原理、核心组件与实践路径。通过整合文本、图像、音频等多源信息,实现跨模态检索与生成,拓展AI应用边界。内容详实,建议收藏学习。
991 50
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
|
5月前
|
机器学习/深度学习 存储 并行计算
大模型推理加速技术:FlashAttention原理与实现
本文深入解析大语言模型推理加速的核心技术——FlashAttention。通过分析传统注意力机制的计算瓶颈,详细阐述FlashAttention的IO感知算法设计、前向反向传播实现,以及其在GPU内存层次结构中的优化策略。文章包含完整的CUDA实现示例、性能基准测试和实际部署指南,为开发者提供高效注意力计算的全套解决方案。
864 10
|
6月前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
871 2
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
5月前
|
机器学习/深度学习 存储 缓存
大模型推理加速技术:PagedAttention原理与实现
本文深入解析大语言模型推理中的革命性技术——PagedAttention,该技术是vLLM推理引擎的核心创新。通过将操作系统中的虚拟内存分页概念引入注意力机制,PagedAttention有效解决了KV缓存的内存碎片问题,实现了近乎零浪费的KV缓存管理。文章详细阐述其原理、内存管理机制、实现细节,并提供完整的代码示例和性能分析。
704 1
|
6月前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。

热门文章

最新文章