苹果多模态模型大升级!文本密集、多图理解,全能小钢炮

简介: 苹果公司近日发布了其最新版本的多模态模型MM1.5,该模型在文本密集图像理解、视觉引用和定位以及多图推理等方面进行了显著升级。MM1.5基于MM1模型,具备更强的文本处理、视觉理解和多图推理能力,适用于多种下游任务。此外,还推出了专门用于视频理解和移动UI理解的变体。

在人工智能领域,多模态大型语言模型(MLLMs)是近年来的热门研究方向。这些模型旨在整合文本和图像信息,实现更全面的理解和生成能力。作为该领域的先驱之一,苹果公司近日发布了其最新版本的多模态模型MM1.5,该模型在文本密集图像理解、视觉引用和定位以及多图推理等方面进行了显著升级。

MM1.5是苹果公司在MM1模型基础上的一次重大升级。与前代相比,MM1.5在多个方面表现出色:

  1. 文本密集图像理解:MM1.5能够处理包含大量文本的图像,如文档、图表等。通过结合高质量的OCR数据和合成字幕,MM1.5能够准确理解图像中的文本内容,并在回答问题时引用这些文本。

  2. 视觉引用和定位:MM1.5不仅能够理解图像中的文本,还能够理解视觉提示,如点和边界框。这使得MM1.5能够生成与图像内容紧密相关的回答,并引用图像中的特定区域。

  3. 多图推理:MM1.5受益于大规模的交错预训练,具备出色的多图推理能力。通过在额外的高质量多图数据上进行监督微调,MM1.5的多图推理能力得到了进一步提升。

MM1.5的模型规模从10亿到30亿参数不等,包括密集模型和混合专家(MoE)变体。这些模型旨在在各种下游任务上表现出色,包括一般领域、文本密集图像理解、粗粒度和细粒度理解以及单图和多图推理。

此外,MM1.5还推出了两个专门的变体:MM1.5-Video,用于视频理解;MM1.5-UI,用于移动UI理解。这些变体针对特定的下游应用进行了优化,以满足不同领域的需求。

MM1.5的训练策略以数据为中心,系统地探索了不同数据混合对模型训练生命周期的影响。这包括使用高质量的OCR数据和合成字幕进行连续预训练,以及使用优化的视觉指令微调数据混合进行监督微调。

在数据选择方面,MM1.5注重高质量的数据,包括文本密集的OCR数据和高质量的合成图像字幕。这些数据源的选择有助于提高模型在文本密集图像理解和多图推理方面的性能。

为了评估MM1.5的性能,研究人员进行了广泛的实验和消融研究。这些实验涵盖了各种下游任务,包括一般领域、文本密集图像理解、视觉引用和定位以及多图推理。

在实验中,MM1.5表现出色,在多个任务上取得了显著的性能提升。例如,MM1.5在MathVista、DocVQA和InfoVQA等知识密集型基准测试中取得了显著的分数提升。此外,MM1.5还表现出了出色的多图推理能力,例如在MuirBench等多图任务上取得了显著的性能提升。

然而,尽管MM1.5在多个方面表现出色,但仍然存在一些限制。例如,MM1.5在处理某些知识密集型任务时可能仍然存在挑战,如在处理复杂的科学问题或数学问题时。此外,MM1.5的训练数据主要来自公开数据集,可能无法涵盖所有可能的下游应用场景。

论文地址:https://arxiv.org/pdf/2409.20566

目录
相关文章
|
4月前
|
数据采集 人工智能 监控
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)
722 0
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
|
5月前
|
数据采集 边缘计算 自然语言处理
谷歌推出创新方法:通过自然文本提示,快速训练视觉模型
【7月更文挑战第5天】谷歌研究者提出新方法,通过自然语言提示训练视觉模型,减少人工标注需求。"建模合作者"框架结合大型语言模型与视觉语言模型,以对话理解视觉概念并自动生成标注,降低训练成本,提高效率。实验显示定义概念工作量减少90%,并在多种任务上超越现有技术。尽管有限制,但此框架为资源受限环境提供了更高效模型训练方案。[论文链接](https://arxiv.org/abs/2403.02626)
32 1
|
5月前
|
vr&ar 计算机视觉
太全了!苹果上新视觉模型4M-21,搞定21种模态
【7月更文挑战第4天】苹果携手EPFL发布4M-21模型,能处理21种模态,如图像、文本、音频,实现多模态任务处理。该模型通过多任务学习和模态转换技术,提升泛化与生成能力,广泛应用于内容创作及分析。然而,高数据需求、计算资源消耗和可解释性是其挑战。[链接: https://arxiv.org/pdf/2406.09406]
62 1
|
7月前
|
机器学习/深度学习 自然语言处理 搜索推荐
手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
【2月更文挑战第17天】手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
94 2
手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
|
7月前
|
人工智能 自然语言处理 数据可视化
开源单图生成3D模型TripoSR有哪些特点?
【2月更文挑战第16天】开源单图生成3D模型TripoSR有哪些特点?
177 2
开源单图生成3D模型TripoSR有哪些特点?
|
7月前
|
机器学习/深度学习 编解码 自然语言处理
一文全览 | 全览iPhone 12就可以实时推理的移动端ViT
一文全览 | 全览iPhone 12就可以实时推理的移动端ViT
139 0
|
人工智能 人机交互
可组合扩散模型主打Any-to-Any生成:文本、图像、视频、音频全都行
可组合扩散模型主打Any-to-Any生成:文本、图像、视频、音频全都行
182 0
|
机器学习/深度学习 人工智能 编解码
微软必应再强化!接入OpenAI DALL·E模型,文字生成图像
微软必应再强化!接入OpenAI DALL·E模型,文字生成图像
104 0
|
机器学习/深度学习 编解码 人工智能
AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用
AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用
231 0
|
机器学习/深度学习 人工智能 自然语言处理
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA(1)
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA
128 0