多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

简介: 【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053

随着大型语言模型(LLM)的迅速发展,多模态大型模型(MLLM)在视觉理解和推理任务中的应用也受到了广泛关注。然而,尽管MLLM在自然图像处理方面取得了显著进展,但在复杂和精细的图像类型(如图表、文档和图解)的理解上仍存在挑战。

近期,由浙江大学领衔的一支研究团队,针对MLLM在视觉推理能力上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究旨在通过合成数据的补充,提高MLLM在抽象图像理解和视觉推理任务上的性能。

MLLM在处理自然图像时通常表现出色,但当面临抽象图像(如图表、地图或布局)和视觉推理任务时,其性能往往不尽如人意。例如,MLLM在完成简单的日常任务,如从时钟图像中读取时间、理解流程图或使用道路地图规划路线时,经常会遇到困难。

为了解决这一问题,研究团队设计了一种多模态自指导策略,利用大型语言模型及其编码能力来合成大量抽象图像和视觉推理指令,涵盖了各种日常场景。

该策略通过简单的线条和几何元素构建了一个包含11,193条指令的多模态基准,涉及8种视觉场景:图表、表格、模拟地图、仪表板、流程图、关系图、平面图和视觉谜题。

通过该基准,研究团队对几种代表性的MLLM进行了评估,并发现了它们在抽象图像理解和视觉推理方面的显著不足。例如,在仪表板场景中,表现最好的MLLM(GPT-4o)仅取得了54.7的得分,远低于人类水平的85.3。

此外,研究团队还通过微调一个MLLM(使用62,476条合成的图表、表格和道路地图指令)来验证合成数据的质量。实验结果表明,合成数据可以显著提高模型在图表理解和地图导航任务上的性能,并可能对其他视觉推理任务产生积极影响。

这项研究的主要贡献在于:

  1. 识别了MLLM在抽象图像理解和视觉推理方面的显著差距:研究团队通过构建多模态基准,揭示了MLLM在处理抽象图像和执行视觉推理任务时的性能瓶颈。
  2. 设计了一种多模态自指导策略:利用大型语言模型和代码生成能力,研究团队合成了大量抽象图像和视觉推理指令,为MLLM的训练提供了有价值的数据。
  3. 构建了一个包含11,193条高质量指令的基准:该基准涵盖了8种常见的视觉场景,并揭示了即使在先进的MLLM中也存在显著的不足。

然而,该研究也存在一些局限性:

  1. 对闭源模型的依赖:多模态自指导策略的实施依赖于闭源模型(如GPT-4)的代码生成和推理能力,这可能限制了其在开源社区的广泛应用。
  2. 数据合成的成本:使用闭源模型进行数据合成可能需要较高的计算成本,这可能限制了该方法在资源有限的研究环境中的可行性。
  3. 图像分辨率的限制:研究团队指出,视觉编码器的图像分辨率可能是当前MLLM在抽象图像理解方面的一个瓶颈,未来的研究可以探索提高图像分辨率的方法。

论文地址:https://arxiv.org/pdf/2407.07053

目录
相关文章
|
26天前
|
人工智能 Prometheus 监控
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
本文介绍了在阿里云容器服务 ACK 上部署 NVIDIA NIM,结合云原生 AI 套件和 KServe 快速构建高性能模型推理服务的方法。通过阿里云 Prometheus 和 Grafana 实现实时监控,并基于排队请求数配置弹性扩缩容策略,提升服务稳定性和效率。文章提供了详细的部署步骤和示例,帮助读者快速搭建和优化模型推理服务。
104 7
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
|
28天前
|
人工智能 Prometheus 监控
使用NVIDIA NIM在阿里云ACK中加速LLM推理
介绍在阿里云ACK集群上结合AI套件能力快速部署NVIDIA NIM模型推理服务,同时提供全面的监控指标和实现弹性伸缩。
使用NVIDIA NIM在阿里云ACK中加速LLM推理
|
17天前
|
人工智能 自然语言处理 算法
GPT-4无师自通预测蛋白质结构登Nature子刊!LLM全面进军生物学,AlphaFold被偷家?
【9月更文挑战第17天】近日,《自然》子刊发表的一篇论文展示了GPT-4在预测蛋白质结构方面的惊人能力,这一突破不仅揭示了大型语言模型在生物学领域的巨大潜力,还可能影响传统预测工具如AlphaFold的地位。研究人员发现,GPT-4仅通过自然语言处理就能准确预测蛋白质的三维结构,包括常见的氨基酸序列和复杂的α-螺旋结构。实验结果显示,其预测精度与实际结构非常接近。这一成果意味着自然语言处理技术也可应用于生物学研究,但同时也引发了关于其局限性和对现有工具影响的讨论。论文详情见:https://www.nature.com/articles/s41598-024-69021-2
39 8
|
25天前
|
机器学习/深度学习 数据采集 人工智能
Llama 8B搜索100次超越GPT-4o!推理+搜索即可提升性能,新Scaling Law诞生?
【9月更文挑战第8天】在人工智能领域,理查德·萨顿提出了一项重要观点,即利用通用计算方法最终是最有效的途径,这一理念在诸如计算机象棋、围棋、语音识别及视觉等多个子领域中得到了验证。萨顿强调,计算能力的指数增长使得依赖大量计算的技术更加吸引人,并且从长远来看,计算能力将是唯一重要的因素。尽管他的观点强调了搜索和学习方法的力量,但也有人批评其忽略了领域知识和其他因素的重要性。
25 2
|
1月前
|
机器学习/深度学习 数据可视化 UED
黑匣子被打开了!能玩的Transformer可视化解释工具,本地运行GPT-2、还可实时推理
【9月更文挑战第4天】Transformer Explainer是一款基于网页的交互式可视化工具,专为帮助用户理解复杂的Transformer模型而设计。通过多层次抽象、实时推理及互动实验,以及无需安装即可使用的便捷性,此工具选取GPT-2作为教学模型,降低了学习门槛并提升了教育普及度。用户可以通过输入自定义文本观察预测过程,深入了解内部组件的工作原理。此外,它还减少了认知负荷,增强了互动学习体验。未来,该工具将在复杂性管理和性能优化方面继续改进,并通过用户研究进一步提升功能和可用性。[论文地址:https://arxiv.org/pdf/2408.04619]
27 1
|
2月前
|
数据采集 人工智能
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM分饰三角自评自进化
【8月更文挑战第20天】近期,Meta等机构提出了一项让大型语言模型(LLM)自我评估与改进的研究,通过“Meta-Rewarding”方法,使模型分饰生成、评估及改进三角色,实现了高效自我迭代。实验证明,经四轮强化训练后,Llama 7B模型性能大幅提升,在多项任务上超越GPT-4等先进模型,展示了LLM自我优化的巨大潜力。详情参阅论文:https://arxiv.org/abs/2407.19594。
35 7
|
2月前
|
机器学习/深度学习
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
【8月更文挑战第16天】近日,清华大学等机构发布了MultiTrust多模态评估研究,旨在全面评估大型语言模型的可信度。这是首个统一的多模态基准,覆盖真实性、安全性等五大方面,包含32个任务。研究对21个现代模型进行了实验,揭示了可信度问题和风险,强调了提高模型可靠性的重要性。结果显示开源模型在可信度上落后于专有模型,特别是在安全性方面。此外,研究还发现了模型在鲁棒性、公平性和隐私方面的挑战。论文已发布于arxiv.org。
39 1
|
2月前
|
人工智能 自然语言处理
公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4
【8月更文挑战第3天】新论文提出“公理训练”法,使仅有6700万参数的语言模型掌握因果推理,性能媲美万亿级GPT-4。研究通过大量合成数据示例教授模型因果公理,实现有效推理并泛化至复杂图结构。尽管面临合成数据需求大及复杂关系处理限制,此法仍为语言模型的因果理解开辟新途径。[链接: https://arxiv.org/pdf/2407.07612]
53 1
|
14天前
|
存储 机器学习/深度学习 物联网
CGE:基于Causal LLM的Code Embedding模型
CodeFuse-CGE 项目在外滩大会展出,吸引众多技术与产品从业者的关注。“文搜代码”功能备受好评,模型表现令人期待。CodeFuse-CGE 采用大语言模型,通过 LoRA 微调提取文本与代码嵌入,实现在多个 NL2Code 基准测试中超越现有 SOTA 模型。现已开源 CGE-Large 与 CGE-Small 两种模型,欢迎访问 GitHub 页并支持本项目。[项目地址](https://github.com/codefuse-ai/CodeFuse-CGE)
42 1
|
20天前
|
安全 测试技术
世界模型又近了?MIT惊人研究:LLM已模拟现实世界,绝非随机鹦鹉!
【9月更文挑战第14天】麻省理工学院最近的研究揭示了大型语言模型(LLM)展现出的新潜能,其不仅能模仿真实环境,更在一定程度上理解并模拟程序在特定环境下的运作。通过使用Transformer模型并结合特定探测分类器,研究团队发现模型能逐步掌握程序的形式语义。为了验证这一发现,团队创建了一个独特的干预基准测试,进一步证实了模型的仿真能力,为世界模型的发展提供了新方向。尽管存在模型可能仅习得统计规律而非真正理解语义的争议,这项研究依然为理解复杂系统提供了新工具与视角。论文详情见:https://arxiv.org/abs/2305.11169。
26 1
下一篇
无影云桌面