多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

简介: 【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053

随着大型语言模型(LLM)的迅速发展,多模态大型模型(MLLM)在视觉理解和推理任务中的应用也受到了广泛关注。然而,尽管MLLM在自然图像处理方面取得了显著进展,但在复杂和精细的图像类型(如图表、文档和图解)的理解上仍存在挑战。

近期,由浙江大学领衔的一支研究团队,针对MLLM在视觉推理能力上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究旨在通过合成数据的补充,提高MLLM在抽象图像理解和视觉推理任务上的性能。

MLLM在处理自然图像时通常表现出色,但当面临抽象图像(如图表、地图或布局)和视觉推理任务时,其性能往往不尽如人意。例如,MLLM在完成简单的日常任务,如从时钟图像中读取时间、理解流程图或使用道路地图规划路线时,经常会遇到困难。

为了解决这一问题,研究团队设计了一种多模态自指导策略,利用大型语言模型及其编码能力来合成大量抽象图像和视觉推理指令,涵盖了各种日常场景。

该策略通过简单的线条和几何元素构建了一个包含11,193条指令的多模态基准,涉及8种视觉场景:图表、表格、模拟地图、仪表板、流程图、关系图、平面图和视觉谜题。

通过该基准,研究团队对几种代表性的MLLM进行了评估,并发现了它们在抽象图像理解和视觉推理方面的显著不足。例如,在仪表板场景中,表现最好的MLLM(GPT-4o)仅取得了54.7的得分,远低于人类水平的85.3。

此外,研究团队还通过微调一个MLLM(使用62,476条合成的图表、表格和道路地图指令)来验证合成数据的质量。实验结果表明,合成数据可以显著提高模型在图表理解和地图导航任务上的性能,并可能对其他视觉推理任务产生积极影响。

这项研究的主要贡献在于:

  1. 识别了MLLM在抽象图像理解和视觉推理方面的显著差距:研究团队通过构建多模态基准,揭示了MLLM在处理抽象图像和执行视觉推理任务时的性能瓶颈。
  2. 设计了一种多模态自指导策略:利用大型语言模型和代码生成能力,研究团队合成了大量抽象图像和视觉推理指令,为MLLM的训练提供了有价值的数据。
  3. 构建了一个包含11,193条高质量指令的基准:该基准涵盖了8种常见的视觉场景,并揭示了即使在先进的MLLM中也存在显著的不足。

然而,该研究也存在一些局限性:

  1. 对闭源模型的依赖:多模态自指导策略的实施依赖于闭源模型(如GPT-4)的代码生成和推理能力,这可能限制了其在开源社区的广泛应用。
  2. 数据合成的成本:使用闭源模型进行数据合成可能需要较高的计算成本,这可能限制了该方法在资源有限的研究环境中的可行性。
  3. 图像分辨率的限制:研究团队指出,视觉编码器的图像分辨率可能是当前MLLM在抽象图像理解方面的一个瓶颈,未来的研究可以探索提高图像分辨率的方法。

论文地址:https://arxiv.org/pdf/2407.07053

目录
相关文章
|
9月前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
1764 125
|
9月前
|
人工智能 自然语言处理 API
快速集成GPT-4o:下一代多模态AI实战指南
快速集成GPT-4o:下一代多模态AI实战指南
651 101
|
9月前
|
数据采集 人工智能 文字识别
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
本文深入解析多模态RAG技术,涵盖其基本原理、核心组件与实践路径。通过整合文本、图像、音频等多源信息,实现跨模态检索与生成,拓展AI应用边界。内容详实,建议收藏学习。
1266 50
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
|
8月前
|
人工智能 自然语言处理 TensorFlow
134_边缘推理:TensorFlow Lite - 优化移动端LLM部署技术详解与实战指南
在人工智能与移动计算深度融合的今天,将大语言模型(LLM)部署到移动端和边缘设备已成为行业发展的重要趋势。TensorFlow Lite作为专为移动和嵌入式设备优化的轻量级推理框架,为开发者提供了将复杂AI模型转换为高效、低功耗边缘计算解决方案的强大工具。随着移动设备硬件性能的不断提升和模型压缩技术的快速发展,2025年的移动端LLM部署已不再是遥远的愿景,而是正在成为现实的技术实践。
1633 39
|
9月前
|
机器学习/深度学习 人工智能 前端开发
解决推理能力瓶颈,用因果推理提升LLM智能决策
从ChatGPT到AI智能体,标志着AI从对话走向自主执行复杂任务的能力跃迁。AI智能体可完成销售、旅行规划、外卖点餐等多场景任务,但其发展受限于大语言模型(LLM)的推理能力。LLM依赖统计相关性,缺乏对因果关系的理解,导致在非确定性任务中表现不佳。结合因果推理与内省机制,有望突破当前AI智能体的推理瓶颈,提升其决策准确性与自主性。
761 6
解决推理能力瓶颈,用因果推理提升LLM智能决策
|
8月前
|
机器学习/深度学习 缓存 PyTorch
131_推理加速:ONNX与TensorRT深度技术解析与LLM模型转换优化实践
在大语言模型(LLM)时代,高效的推理加速已成为部署高性能AI应用的关键挑战。随着模型规模的不断扩大(从BERT的数亿参数到GPT-4的数千亿参数),推理过程的计算成本和延迟问题日益突出。ONNX(开放神经网络交换格式)和TensorRT作为业界领先的推理优化框架,为LLM的高效部署提供了强大的技术支持。本文将深入探讨LLM推理加速的核心原理,详细讲解PyTorch模型转换为ONNX和TensorRT的完整流程,并结合2025年最新优化技术,提供可落地的代码实现与性能调优方案。
1933 4
|
9月前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。
|
11月前
|
人工智能 自然语言处理 API
AI-Compass LLM推理框架+部署生态:整合vLLM、SGLang、LMDeploy等顶级加速框架,涵盖本地到云端全场景部署
AI-Compass LLM推理框架+部署生态:整合vLLM、SGLang、LMDeploy等顶级加速框架,涵盖本地到云端全场景部署
AI-Compass LLM推理框架+部署生态:整合vLLM、SGLang、LMDeploy等顶级加速框架,涵盖本地到云端全场景部署

热门文章

最新文章