2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治切分增大分辨率后遗症

简介: 【9月更文挑战第7天】华中科技大学与华南理工大学联合发布了一款名为Mini-Monkey的2B参数多模态大语言模型,采用多尺度自适应裁剪策略(MSAC)和尺度压缩机制(SCM),在高分辨率图像处理方面取得突破,尤其在文档理解上超越了8B参数的SOTA模型InternVL2-8B。Mini-Monkey仅需8张RTX 3090显卡即可完成训练,展现出高效性能,但处理复杂图像场景时仍存局限。论文详情见:https://arxiv.org/pdf/2408.02034。

在人工智能领域,多模态大语言模型(MLLMs)的发展一直备受关注。最近,来自华中科技大学和华南理工大学的研究人员提出了一种名为Mini-Monkey的新型2B参数多模态大语言模型,该模型在处理高分辨率图像方面取得了显著突破。

Mini-Monkey的出现,旨在解决现有多模态大语言模型在处理高分辨率图像时所面临的挑战。由于图像分辨率的提高,模型在理解图像细节方面往往面临困难。为了解决这个问题,研究人员提出了一种名为多尺度自适应裁剪策略(MSAC)的方法,该方法能够有效地处理高分辨率图像,并提高模型对图像细节的理解能力。

MSAC的核心思想是,通过自适应地生成多尺度表示,模型可以选择不同尺度的非分割对象。具体而言,MSAC首先对预设的一组网格进行分层操作,然后根据这些网格的纵横比和分辨率,自适应地选择多个纵横比。这样,模型就可以从不同的尺度中选择非分割的对象特征,从而提高对图像细节的理解能力。

为了进一步提高Mini-Monkey的性能,研究人员还提出了一种称为尺度压缩机制(SCM)的方法。SCM是一种无训练和无参数的模块,用于减少计算开销。它利用LLM中的预训练注意力层来生成注意力权重和丢弃令牌,从而有效地压缩图像令牌。

实验结果表明,Mini-Monkey在各种多模态理解任务上取得了显著的性能提升。特别是在文档理解方面,Mini-Monkey在OCRBench基准测试中取得了802分的成绩,超过了8B参数的SOTA模型InternVL2-8B。此外,Mini-Monkey的训练效率也非常高,只需要8张RTX 3090显卡即可完成训练。

然而,Mini-Monkey也存在一些局限性。首先,虽然MSAC能够有效地处理高分辨率图像,但对于一些复杂的图像场景,如包含多个小物体或不规则形状的图像,模型的性能可能会受到影响。其次,虽然SCM能够减少计算开销,但对于一些对计算资源要求较高的应用场景,如实时图像处理或大规模数据处理,Mini-Monkey的性能可能会受到限制。

尽管如此,Mini-Monkey的出现仍然为多模态大语言模型的发展提供了新的思路和方法。通过引入多尺度自适应裁剪策略和尺度压缩机制,Mini-Monkey在处理高分辨率图像方面取得了显著的性能提升,为未来的研究提供了重要的参考价值。

在未来,研究人员可以进一步探索如何改进MSAC和SCM的方法,以提高模型在复杂图像场景下的性能。此外,研究人员还可以探索如何将Mini-Monkey与其他类型的模型或技术相结合,以进一步提高其在实际应用中的效果。

论文地址:https://arxiv.org/pdf/2408.02034

目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 vr&ar
Stable Video 3D震撼上线,视频扩散模型史诗级提升!
【2月更文挑战第30天】Stability AI推出了创新技术SV3D,能从单张图片生成高质量3D模型,实现了多视图一致性,超越了先前的2D图像生成模型。该技术基于视频扩散模型,通过时间一致性确保3D一致性,并提供SV3D_u和SV3D_p两个版本,适应不同应用场景。在实验中,SV3D在新视图合成和3D重建方面表现出优秀性能。尽管面临计算资源需求高和使用门槛等问题,SV3D有望在3D内容创作领域发挥重大作用。项目及模型已开放下载。
380 2
Stable Video 3D震撼上线,视频扩散模型史诗级提升!
|
4月前
|
机器学习/深度学习 编解码 算法
英文论文(sci)解读复现:基于YOLOv5的自然场景下苹果叶片病害实时检测
英文论文(sci)解读复现:基于YOLOv5的自然场景下苹果叶片病害实时检测
227 0
|
11天前
|
自然语言处理 计算机视觉
给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA
【9月更文挑战第5天】近年来,视频大型语言模型(LLM)在计算机视觉领域取得显著进展,但高昂的监督微调成本成为瓶颈。苹果研究人员提出了免训练的SF-LLaVA模型,采用慢流(捕捉空间语义)和快流(捕捉时序上下文)的双流设计,能高效处理视频中的静态与动态信息,显著提升了开放性视频问答、多选视频问答及文本生成等任务的表现。然而,该模型在复杂视频场景理解和特定任务泛化能力方面仍有局限。论文详见:https://arxiv.org/pdf/2407.15841
21 1
|
4月前
|
人工智能 安全 测试技术
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
【2月更文挑战第18天】Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
66 3
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
|
4月前
|
机器学习/深度学习 自然语言处理 搜索推荐
手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
【2月更文挑战第17天】手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
72 2
手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
|
传感器 机器学习/深度学习 固态存储
3D检测界的“YOLO” | 将PointPillars优化16倍,还能很好的控制精度,非常香!!!
3D检测界的“YOLO” | 将PointPillars优化16倍,还能很好的控制精度,非常香!!!
243 0
|
机器学习/深度学习 算法 数据挖掘
图神经网络发Nature子刊,却被爆比普通算法慢104倍,质疑者:灌水新高度?
图神经网络发Nature子刊,却被爆比普通算法慢104倍,质疑者:灌水新高度?
|
机器学习/深度学习 存储 并行计算
NeurIPS 2021 Spotlight | 准确、快速、内存经济,新框架MEST实现边缘设备友好的稀疏训练
NeurIPS 2021 Spotlight | 准确、快速、内存经济,新框架MEST实现边缘设备友好的稀疏训练
|
机器学习/深度学习
神经辐射场基于点,训练速度提升30倍,渲染质量超过NeRF
神经辐射场基于点,训练速度提升30倍,渲染质量超过NeRF
238 0
|
人工智能 数据可视化 数据挖掘
IJCAI 2023 | 腾讯优图新作 CECNet: 提升小样本学习在分类、检测和分割任务上的性能
IJCAI 2023 | 腾讯优图新作 CECNet: 提升小样本学习在分类、检测和分割任务上的性能
253 0