多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

简介: 【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053

随着大型语言模型(LLM)的迅速发展,多模态大型模型(MLLM)在视觉理解和推理任务中的应用也受到了广泛关注。然而,尽管MLLM在自然图像处理方面取得了显著进展,但在复杂和精细的图像类型(如图表、文档和图解)的理解上仍存在挑战。

近期,由浙江大学领衔的一支研究团队,针对MLLM在视觉推理能力上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究旨在通过合成数据的补充,提高MLLM在抽象图像理解和视觉推理任务上的性能。

MLLM在处理自然图像时通常表现出色,但当面临抽象图像(如图表、地图或布局)和视觉推理任务时,其性能往往不尽如人意。例如,MLLM在完成简单的日常任务,如从时钟图像中读取时间、理解流程图或使用道路地图规划路线时,经常会遇到困难。

为了解决这一问题,研究团队设计了一种多模态自指导策略,利用大型语言模型及其编码能力来合成大量抽象图像和视觉推理指令,涵盖了各种日常场景。

该策略通过简单的线条和几何元素构建了一个包含11,193条指令的多模态基准,涉及8种视觉场景:图表、表格、模拟地图、仪表板、流程图、关系图、平面图和视觉谜题。

通过该基准,研究团队对几种代表性的MLLM进行了评估,并发现了它们在抽象图像理解和视觉推理方面的显著不足。例如,在仪表板场景中,表现最好的MLLM(GPT-4o)仅取得了54.7的得分,远低于人类水平的85.3。

此外,研究团队还通过微调一个MLLM(使用62,476条合成的图表、表格和道路地图指令)来验证合成数据的质量。实验结果表明,合成数据可以显著提高模型在图表理解和地图导航任务上的性能,并可能对其他视觉推理任务产生积极影响。

这项研究的主要贡献在于:

  1. 识别了MLLM在抽象图像理解和视觉推理方面的显著差距:研究团队通过构建多模态基准,揭示了MLLM在处理抽象图像和执行视觉推理任务时的性能瓶颈。
  2. 设计了一种多模态自指导策略:利用大型语言模型和代码生成能力,研究团队合成了大量抽象图像和视觉推理指令,为MLLM的训练提供了有价值的数据。
  3. 构建了一个包含11,193条高质量指令的基准:该基准涵盖了8种常见的视觉场景,并揭示了即使在先进的MLLM中也存在显著的不足。

然而,该研究也存在一些局限性:

  1. 对闭源模型的依赖:多模态自指导策略的实施依赖于闭源模型(如GPT-4)的代码生成和推理能力,这可能限制了其在开源社区的广泛应用。
  2. 数据合成的成本:使用闭源模型进行数据合成可能需要较高的计算成本,这可能限制了该方法在资源有限的研究环境中的可行性。
  3. 图像分辨率的限制:研究团队指出,视觉编码器的图像分辨率可能是当前MLLM在抽象图像理解方面的一个瓶颈,未来的研究可以探索提高图像分辨率的方法。

论文地址:https://arxiv.org/pdf/2407.07053

目录
相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 测试技术
CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用
【10月更文挑战第17天】链式思维(CoT)曾被认为是大型语言模型(LLM)激发推理能力的关键方法,但最新研究显示,CoT仅在数学和符号推理任务中有效,其他任务中效果不明显。加州大学伯克利分校、斯坦福大学和卡内基梅隆大学的联合研究打破了CoT作为LLM标配的神话,为重新评估LLM的推理能力提供了新视角。
39 1
|
19天前
|
自然语言处理 开发者
多模态大模型LLM、MLLM性能评估方法
针对多模态大模型(LLM)和多语言大模型(MLLM)的性能评估,本文介绍了多种关键方法和标准,包括模态融合率(MIR)、多模态大语言模型综合评估基准(MME)、CheckList评估方法、多模态增益(MG)和多模态泄露(ML),以及LLaVA Bench。这些方法为评估模型的多模态和多语言能力提供了全面的框架,有助于研究者和开发者优化和改进模型。
|
22天前
|
人工智能 自然语言处理
重要的事情说两遍!Prompt复读机,显著提高LLM推理能力
【10月更文挑战第30天】本文介绍了一种名为“问题重读”(Question Re-reading)的提示策略,旨在提高大型语言模型(LLMs)的推理能力。该策略受人类学习和问题解决过程的启发,通过重新审视输入提示中的问题信息,使LLMs能够提取更深层次的见解、识别复杂模式,并建立更细致的联系。实验结果显示,问题重读策略在多个推理任务上显著提升了模型性能。
35 2
|
1月前
|
JSON 人工智能 算法
探索LLM推理全阶段的JSON格式输出限制方法
文章详细讨论了如何确保大型语言模型(LLMs)输出结构化的JSON格式,这对于提高数据处理的自动化程度和系统的互操作性至关重要。
|
2月前
|
机器学习/深度学习 自然语言处理 测试技术
CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用
【10月更文挑战第16天】近期,加州大学伯克利分校、斯坦福大学和卡内基梅隆大学联合研究发现,链式思维(CoT)方法在数学和符号推理任务中表现优异,但在其他类型任务中效果不明显。这一研究打破了CoT作为大型语言模型(LLM)标配的神话,为重新审视LLM的推理能力提供了新视角。
32 2
|
3月前
|
数据处理 开发者 异构计算
ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
今天我们把ComfyUI工具和多模态LLM结合,在魔搭的免费算力上搭建出支持单图理解,多图理解,视频理解的WebUI界面,更好的支持开发者快速搭建一个视频/图片页面打标器。
ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
|
3月前
|
人工智能 Prometheus 监控
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
本文介绍了在阿里云容器服务 ACK 上部署 NVIDIA NIM,结合云原生 AI 套件和 KServe 快速构建高性能模型推理服务的方法。通过阿里云 Prometheus 和 Grafana 实现实时监控,并基于排队请求数配置弹性扩缩容策略,提升服务稳定性和效率。文章提供了详细的部署步骤和示例,帮助读者快速搭建和优化模型推理服务。
184 7
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
|
3月前
|
人工智能 Prometheus 监控
使用NVIDIA NIM在阿里云ACK中加速LLM推理
介绍在阿里云ACK集群上结合AI套件能力快速部署NVIDIA NIM模型推理服务,同时提供全面的监控指标和实现弹性伸缩。
使用NVIDIA NIM在阿里云ACK中加速LLM推理
|
2月前
|
计算机视觉
Deepseek开源多模态LLM模型框架Janus,魔搭社区最佳实践
deepseek近期推出了简单、统一且灵活的多模态框架Janus,它能够统一处理多模态理解和生成任务。让我们一起来了解一下吧。
|
3月前
|
人工智能 自然语言处理 算法
GPT-4无师自通预测蛋白质结构登Nature子刊!LLM全面进军生物学,AlphaFold被偷家?
【9月更文挑战第17天】近日,《自然》子刊发表的一篇论文展示了GPT-4在预测蛋白质结构方面的惊人能力,这一突破不仅揭示了大型语言模型在生物学领域的巨大潜力,还可能影响传统预测工具如AlphaFold的地位。研究人员发现,GPT-4仅通过自然语言处理就能准确预测蛋白质的三维结构,包括常见的氨基酸序列和复杂的α-螺旋结构。实验结果显示,其预测精度与实际结构非常接近。这一成果意味着自然语言处理技术也可应用于生物学研究,但同时也引发了关于其局限性和对现有工具影响的讨论。论文详情见:https://www.nature.com/articles/s41598-024-69021-2
54 8

热门文章

最新文章