2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治切分增大分辨率后遗症

简介: 【9月更文挑战第7天】华中科技大学与华南理工大学联合发布了一款名为Mini-Monkey的2B参数多模态大语言模型,采用多尺度自适应裁剪策略(MSAC)和尺度压缩机制(SCM),在高分辨率图像处理方面取得突破,尤其在文档理解上超越了8B参数的SOTA模型InternVL2-8B。Mini-Monkey仅需8张RTX 3090显卡即可完成训练,展现出高效性能,但处理复杂图像场景时仍存局限。论文详情见:https://arxiv.org/pdf/2408.02034。

在人工智能领域,多模态大语言模型(MLLMs)的发展一直备受关注。最近,来自华中科技大学和华南理工大学的研究人员提出了一种名为Mini-Monkey的新型2B参数多模态大语言模型,该模型在处理高分辨率图像方面取得了显著突破。

Mini-Monkey的出现,旨在解决现有多模态大语言模型在处理高分辨率图像时所面临的挑战。由于图像分辨率的提高,模型在理解图像细节方面往往面临困难。为了解决这个问题,研究人员提出了一种名为多尺度自适应裁剪策略(MSAC)的方法,该方法能够有效地处理高分辨率图像,并提高模型对图像细节的理解能力。

MSAC的核心思想是,通过自适应地生成多尺度表示,模型可以选择不同尺度的非分割对象。具体而言,MSAC首先对预设的一组网格进行分层操作,然后根据这些网格的纵横比和分辨率,自适应地选择多个纵横比。这样,模型就可以从不同的尺度中选择非分割的对象特征,从而提高对图像细节的理解能力。

为了进一步提高Mini-Monkey的性能,研究人员还提出了一种称为尺度压缩机制(SCM)的方法。SCM是一种无训练和无参数的模块,用于减少计算开销。它利用LLM中的预训练注意力层来生成注意力权重和丢弃令牌,从而有效地压缩图像令牌。

实验结果表明,Mini-Monkey在各种多模态理解任务上取得了显著的性能提升。特别是在文档理解方面,Mini-Monkey在OCRBench基准测试中取得了802分的成绩,超过了8B参数的SOTA模型InternVL2-8B。此外,Mini-Monkey的训练效率也非常高,只需要8张RTX 3090显卡即可完成训练。

然而,Mini-Monkey也存在一些局限性。首先,虽然MSAC能够有效地处理高分辨率图像,但对于一些复杂的图像场景,如包含多个小物体或不规则形状的图像,模型的性能可能会受到影响。其次,虽然SCM能够减少计算开销,但对于一些对计算资源要求较高的应用场景,如实时图像处理或大规模数据处理,Mini-Monkey的性能可能会受到限制。

尽管如此,Mini-Monkey的出现仍然为多模态大语言模型的发展提供了新的思路和方法。通过引入多尺度自适应裁剪策略和尺度压缩机制,Mini-Monkey在处理高分辨率图像方面取得了显著的性能提升,为未来的研究提供了重要的参考价值。

在未来,研究人员可以进一步探索如何改进MSAC和SCM的方法,以提高模型在复杂图像场景下的性能。此外,研究人员还可以探索如何将Mini-Monkey与其他类型的模型或技术相结合,以进一步提高其在实际应用中的效果。

论文地址:https://arxiv.org/pdf/2408.02034

目录
相关文章
|
数据采集 文字识别 测试技术
智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能
近年来,视觉语言模型(VLM)取得了显著进展,然而,现有的开源数据和指令数据集在数量和质量上依然落后,基于开源数据训练的模型在效果上仍然远落后于 SOTA 闭源模型或使用专有数据训练的开源模型。为解决以上问题,进一步提升开源模型的性能,2024年10月25日,智源研究院发布并开源了千万级多模态指令数据集Infinity-MM。
|
机器学习/深度学习 人工智能 编解码
月之暗面开源16B轻量级多模态视觉语言模型!Kimi-VL:推理仅需激活2.8B,支持128K上下文与高分辨率输入
月之暗面开源的Kimi-VL采用混合专家架构,总参数量16B推理时仅激活2.8B,支持128K上下文窗口与高分辨率视觉输入,通过长链推理微调和强化学习实现复杂任务处理能力。
943 5
月之暗面开源16B轻量级多模态视觉语言模型!Kimi-VL:推理仅需激活2.8B,支持128K上下文与高分辨率输入
|
缓存 异构计算
DashInfer-VLM,多模态SOTA推理性能,超vLLM!
DashInfer-VLM是一个针对于视觉多模态大模型VLM的推理架构,特别优化了Qwen VL模型的推理加速,DashInfer-VLM和其他的VLM的推理加速框架最大的区别是, 它把VIT部分和LLM部分进行了分离,并且VIT和LLM的运行是并行运行,不互相干扰。
1899 16
|
机器学习/深度学习 物联网 数据处理
社区供稿 | 封神榜团队提出首个引入视觉细化器的多模态大模型Ziya-Visual-Lyrics,多个任务SOTA
封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。
|
自然语言处理 计算机视觉
单一ViT模型执行多模态多任务,谷歌用协同训练策略实现多个SOTA
单一ViT模型执行多模态多任务,谷歌用协同训练策略实现多个SOTA
1466 0
|
编解码 自然语言处理 计算机视觉
超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
【6月更文挑战第29天】DynRefer,一款超越CVPR 2024的多模态识别工具,通过模拟人类视觉的动态分辨率,提升区域级任务的准确性和适应性。在区域字幕生成、识别和属性检测上取得SOTA,但计算成本高且可能依赖于对齐精度。[链接: https://arxiv.org/abs/2405.16071]
309 1
|
自然语言处理
Meta首发变色龙挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
【5月更文挑战第27天】Meta推出34B参数的多模态模型Chameleon,通过早期融合技术处理图像和文本,实现全面的多模态建模。在10万亿token的训练数据下,Chameleon在图像字幕生成和文本推理任务中刷新SOTA,展现出在混合模态生成和推理的潜力。然而,模型可能无法完全捕捉图像语义信息,且在某些特定任务上有优化空间。[论文链接](https://arxiv.org/pdf/2405.09818)
399 1
|
自然语言处理 文字识别 计算机视觉
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
450 0
|
机器学习/深度学习 人工智能 自动驾驶
AutoAlignV2:多模态3D目标检测新SOTA!(ECCV2022)
点云和RGB图像是自动驾驶中常用的两种感知数据来源,前者可以提供精确的目标定位,后者包括丰富的语义信息。针对3D目标检测中这两种模态的融合,之前提出的AutoAlign方法提出了一种可学习的范式,但由于全局注意力机制,计算开销很大。为了解决这个问题,本文提出了跨域的DeformCAFA模块,它更加关注跨域关系建模中的稀疏可学习采样点,提高了校准误差的容忍度,从而极大加快了不同模态特征间的融合。为了克服GT-AUG在多模态下的复杂设置,在给定深度信息的情况下,设计了一种简单而有效的交叉模态增强策略。而且,通过采用一种新颖的图像级dropout训练方案,模型能够以动态的方式进行推理。
AutoAlignV2:多模态3D目标检测新SOTA!(ECCV2022)

热门文章

最新文章