2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治切分增大分辨率后遗症

简介: 【9月更文挑战第7天】华中科技大学与华南理工大学联合发布了一款名为Mini-Monkey的2B参数多模态大语言模型,采用多尺度自适应裁剪策略(MSAC)和尺度压缩机制(SCM),在高分辨率图像处理方面取得突破,尤其在文档理解上超越了8B参数的SOTA模型InternVL2-8B。Mini-Monkey仅需8张RTX 3090显卡即可完成训练,展现出高效性能,但处理复杂图像场景时仍存局限。论文详情见:https://arxiv.org/pdf/2408.02034。

在人工智能领域,多模态大语言模型(MLLMs)的发展一直备受关注。最近,来自华中科技大学和华南理工大学的研究人员提出了一种名为Mini-Monkey的新型2B参数多模态大语言模型,该模型在处理高分辨率图像方面取得了显著突破。

Mini-Monkey的出现,旨在解决现有多模态大语言模型在处理高分辨率图像时所面临的挑战。由于图像分辨率的提高,模型在理解图像细节方面往往面临困难。为了解决这个问题,研究人员提出了一种名为多尺度自适应裁剪策略(MSAC)的方法,该方法能够有效地处理高分辨率图像,并提高模型对图像细节的理解能力。

MSAC的核心思想是,通过自适应地生成多尺度表示,模型可以选择不同尺度的非分割对象。具体而言,MSAC首先对预设的一组网格进行分层操作,然后根据这些网格的纵横比和分辨率,自适应地选择多个纵横比。这样,模型就可以从不同的尺度中选择非分割的对象特征,从而提高对图像细节的理解能力。

为了进一步提高Mini-Monkey的性能,研究人员还提出了一种称为尺度压缩机制(SCM)的方法。SCM是一种无训练和无参数的模块,用于减少计算开销。它利用LLM中的预训练注意力层来生成注意力权重和丢弃令牌,从而有效地压缩图像令牌。

实验结果表明,Mini-Monkey在各种多模态理解任务上取得了显著的性能提升。特别是在文档理解方面,Mini-Monkey在OCRBench基准测试中取得了802分的成绩,超过了8B参数的SOTA模型InternVL2-8B。此外,Mini-Monkey的训练效率也非常高,只需要8张RTX 3090显卡即可完成训练。

然而,Mini-Monkey也存在一些局限性。首先,虽然MSAC能够有效地处理高分辨率图像,但对于一些复杂的图像场景,如包含多个小物体或不规则形状的图像,模型的性能可能会受到影响。其次,虽然SCM能够减少计算开销,但对于一些对计算资源要求较高的应用场景,如实时图像处理或大规模数据处理,Mini-Monkey的性能可能会受到限制。

尽管如此,Mini-Monkey的出现仍然为多模态大语言模型的发展提供了新的思路和方法。通过引入多尺度自适应裁剪策略和尺度压缩机制,Mini-Monkey在处理高分辨率图像方面取得了显著的性能提升,为未来的研究提供了重要的参考价值。

在未来,研究人员可以进一步探索如何改进MSAC和SCM的方法,以提高模型在复杂图像场景下的性能。此外,研究人员还可以探索如何将Mini-Monkey与其他类型的模型或技术相结合,以进一步提高其在实际应用中的效果。

论文地址:https://arxiv.org/pdf/2408.02034

目录
相关文章
|
30天前
|
机器学习/深度学习 人工智能 文字识别
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
【10月更文挑战第12天】多模态理解是人工智能的重要研究方向,华人团队改进了现有的MMMU基准,推出MMMU-Pro,以更严格地评估模型的多模态理解和推理能力。MMMU-Pro通过过滤纯文本问题、增加候选选项和引入纯视觉问答设置,提高了评估难度。实验结果显示,模型在MMMU-Pro上的性能明显下降,但CoT推理有助于提升表现。MMMU-Pro为多模态理解提供了更严格的评估工具,但也面临一些挑战。
39 1
|
2月前
|
自然语言处理 计算机视觉
给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA
【9月更文挑战第5天】近年来,视频大型语言模型(LLM)在计算机视觉领域取得显著进展,但高昂的监督微调成本成为瓶颈。苹果研究人员提出了免训练的SF-LLaVA模型,采用慢流(捕捉空间语义)和快流(捕捉时序上下文)的双流设计,能高效处理视频中的静态与动态信息,显著提升了开放性视频问答、多选视频问答及文本生成等任务的表现。然而,该模型在复杂视频场景理解和特定任务泛化能力方面仍有局限。论文详见:https://arxiv.org/pdf/2407.15841
31 1
|
5月前
|
人工智能 自然语言处理 算法
大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4
【6月更文挑战第25天】 - 复旦大学和上海AI Lab的研究者提出这一算法,用于增强大型语言模型在复杂数学推理任务中的能力,解决现有模型推理准确性问题。 - **MCTSr**流程包括初始化、选择、自细化、自评估、反向传播和UCT更新,通过多轮迭代提升答案质量。 - 实验显示,该算法在**GSM8K**、**GSM Hard**、**MATH**和**Olympiad-level**数据集上表现出色,尤其在多次迭代后。 - 尽管计算成本高且不适用于所有问题类型,但研究揭示了强化LLMs推理能力的新途径,对未来的AI应用具有指导意义。
189 8
|
6月前
|
数据采集 人工智能 自然语言处理
手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据
【5月更文挑战第16天】微软发布 Phi-3 技术报告,介绍了一个拥有3.8B参数的新语言模型,超越GPT-3.5,成为最大模型之一。 Phi-3 在手机上运行的特性开启了大型模型移动应用新纪元。报告强调数据清洗是关键,通过优化设计实现高效运行。实验显示 Phi-3 在多项NLP任务中表现出色,但泛化能力和数据隐私仍是挑战。该模型预示着AI领域的未来突破。[[论文链接](https://arxiv.org/pdf/2404.14219.pdf)]
81 2
|
6月前
|
人工智能 安全 测试技术
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
【2月更文挑战第18天】Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
74 3
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
|
6月前
|
机器学习/深度学习 自然语言处理 搜索推荐
手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
【2月更文挑战第17天】手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
90 2
手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
|
人工智能 搜索推荐 物联网
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸
132 0
|
机器学习/深度学习 人工智能 编解码
谷歌下场优化扩散模型,三星手机运行Stable Diffusion,12秒内出图
谷歌下场优化扩散模型,三星手机运行Stable Diffusion,12秒内出图
204 0
|
机器学习/深度学习 人工智能 自然语言处理
6144块TPU,5400亿参数,会改bug、解读笑话,谷歌刚刚用Pathways训练了一个大模型
6144块TPU,5400亿参数,会改bug、解读笑话,谷歌刚刚用Pathways训练了一个大模型
109 0
|
机器学习/深度学习 算法 数据挖掘
图神经网络发Nature子刊,却被爆比普通算法慢104倍,质疑者:灌水新高度?
图神经网络发Nature子刊,却被爆比普通算法慢104倍,质疑者:灌水新高度?