多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

简介: 【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053

随着大型语言模型(LLM)的迅速发展,多模态大型模型(MLLM)在视觉理解和推理任务中的应用也受到了广泛关注。然而,尽管MLLM在自然图像处理方面取得了显著进展,但在复杂和精细的图像类型(如图表、文档和图解)的理解上仍存在挑战。

近期,由浙江大学领衔的一支研究团队,针对MLLM在视觉推理能力上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究旨在通过合成数据的补充,提高MLLM在抽象图像理解和视觉推理任务上的性能。

MLLM在处理自然图像时通常表现出色,但当面临抽象图像(如图表、地图或布局)和视觉推理任务时,其性能往往不尽如人意。例如,MLLM在完成简单的日常任务,如从时钟图像中读取时间、理解流程图或使用道路地图规划路线时,经常会遇到困难。

为了解决这一问题,研究团队设计了一种多模态自指导策略,利用大型语言模型及其编码能力来合成大量抽象图像和视觉推理指令,涵盖了各种日常场景。

该策略通过简单的线条和几何元素构建了一个包含11,193条指令的多模态基准,涉及8种视觉场景:图表、表格、模拟地图、仪表板、流程图、关系图、平面图和视觉谜题。

通过该基准,研究团队对几种代表性的MLLM进行了评估,并发现了它们在抽象图像理解和视觉推理方面的显著不足。例如,在仪表板场景中,表现最好的MLLM(GPT-4o)仅取得了54.7的得分,远低于人类水平的85.3。

此外,研究团队还通过微调一个MLLM(使用62,476条合成的图表、表格和道路地图指令)来验证合成数据的质量。实验结果表明,合成数据可以显著提高模型在图表理解和地图导航任务上的性能,并可能对其他视觉推理任务产生积极影响。

这项研究的主要贡献在于:

  1. 识别了MLLM在抽象图像理解和视觉推理方面的显著差距:研究团队通过构建多模态基准,揭示了MLLM在处理抽象图像和执行视觉推理任务时的性能瓶颈。
  2. 设计了一种多模态自指导策略:利用大型语言模型和代码生成能力,研究团队合成了大量抽象图像和视觉推理指令,为MLLM的训练提供了有价值的数据。
  3. 构建了一个包含11,193条高质量指令的基准:该基准涵盖了8种常见的视觉场景,并揭示了即使在先进的MLLM中也存在显著的不足。

然而,该研究也存在一些局限性:

  1. 对闭源模型的依赖:多模态自指导策略的实施依赖于闭源模型(如GPT-4)的代码生成和推理能力,这可能限制了其在开源社区的广泛应用。
  2. 数据合成的成本:使用闭源模型进行数据合成可能需要较高的计算成本,这可能限制了该方法在资源有限的研究环境中的可行性。
  3. 图像分辨率的限制:研究团队指出,视觉编码器的图像分辨率可能是当前MLLM在抽象图像理解方面的一个瓶颈,未来的研究可以探索提高图像分辨率的方法。

论文地址:https://arxiv.org/pdf/2407.07053

目录
相关文章
|
5天前
|
SQL 数据采集 自然语言处理
NL2SQL之DB-GPT-Hub<详解篇>:text2sql任务的微调框架和基准对比
NL2SQL之DB-GPT-Hub<详解篇>:text2sql任务的微调框架和基准对比
|
6天前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
95 60
|
1月前
|
数据处理 开发者 异构计算
ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
今天我们把ComfyUI工具和多模态LLM结合,在魔搭的免费算力上搭建出支持单图理解,多图理解,视频理解的WebUI界面,更好的支持开发者快速搭建一个视频/图片页面打标器。
ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
|
1月前
|
人工智能 Prometheus 监控
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
本文介绍了在阿里云容器服务 ACK 上部署 NVIDIA NIM,结合云原生 AI 套件和 KServe 快速构建高性能模型推理服务的方法。通过阿里云 Prometheus 和 Grafana 实现实时监控,并基于排队请求数配置弹性扩缩容策略,提升服务稳定性和效率。文章提供了详细的部署步骤和示例,帮助读者快速搭建和优化模型推理服务。
116 7
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
|
1月前
|
人工智能 Prometheus 监控
使用NVIDIA NIM在阿里云ACK中加速LLM推理
介绍在阿里云ACK集群上结合AI套件能力快速部署NVIDIA NIM模型推理服务,同时提供全面的监控指标和实现弹性伸缩。
使用NVIDIA NIM在阿里云ACK中加速LLM推理
|
27天前
|
人工智能 自然语言处理 算法
GPT-4无师自通预测蛋白质结构登Nature子刊!LLM全面进军生物学,AlphaFold被偷家?
【9月更文挑战第17天】近日,《自然》子刊发表的一篇论文展示了GPT-4在预测蛋白质结构方面的惊人能力,这一突破不仅揭示了大型语言模型在生物学领域的巨大潜力,还可能影响传统预测工具如AlphaFold的地位。研究人员发现,GPT-4仅通过自然语言处理就能准确预测蛋白质的三维结构,包括常见的氨基酸序列和复杂的α-螺旋结构。实验结果显示,其预测精度与实际结构非常接近。这一成果意味着自然语言处理技术也可应用于生物学研究,但同时也引发了关于其局限性和对现有工具影响的讨论。论文详情见:https://www.nature.com/articles/s41598-024-69021-2
41 8
|
1月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架&quot;AgentInstruct&quot;的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
37 2
|
1月前
|
机器学习/深度学习 数据采集 人工智能
Llama 8B搜索100次超越GPT-4o!推理+搜索即可提升性能,新Scaling Law诞生?
【9月更文挑战第8天】在人工智能领域,理查德·萨顿提出了一项重要观点,即利用通用计算方法最终是最有效的途径,这一理念在诸如计算机象棋、围棋、语音识别及视觉等多个子领域中得到了验证。萨顿强调,计算能力的指数增长使得依赖大量计算的技术更加吸引人,并且从长远来看,计算能力将是唯一重要的因素。尽管他的观点强调了搜索和学习方法的力量,但也有人批评其忽略了领域知识和其他因素的重要性。
30 2
|
1月前
|
机器学习/深度学习 数据可视化 UED
黑匣子被打开了!能玩的Transformer可视化解释工具,本地运行GPT-2、还可实时推理
【9月更文挑战第4天】Transformer Explainer是一款基于网页的交互式可视化工具,专为帮助用户理解复杂的Transformer模型而设计。通过多层次抽象、实时推理及互动实验,以及无需安装即可使用的便捷性,此工具选取GPT-2作为教学模型,降低了学习门槛并提升了教育普及度。用户可以通过输入自定义文本观察预测过程,深入了解内部组件的工作原理。此外,它还减少了认知负荷,增强了互动学习体验。未来,该工具将在复杂性管理和性能优化方面继续改进,并通过用户研究进一步提升功能和可用性。[论文地址:https://arxiv.org/pdf/2408.04619]
31 1
|
3月前
|
存储 SQL 数据库
Python 金融编程第二版(GPT 重译)(四)(4)
Python 金融编程第二版(GPT 重译)(四)
36 3

热门文章

最新文章