苹果多模态模型大升级!文本密集、多图理解,全能小钢炮

简介: 苹果公司近日发布了其最新版本的多模态模型MM1.5,该模型在文本密集图像理解、视觉引用和定位以及多图推理等方面进行了显著升级。MM1.5基于MM1模型,具备更强的文本处理、视觉理解和多图推理能力,适用于多种下游任务。此外,还推出了专门用于视频理解和移动UI理解的变体。

在人工智能领域,多模态大型语言模型(MLLMs)是近年来的热门研究方向。这些模型旨在整合文本和图像信息,实现更全面的理解和生成能力。作为该领域的先驱之一,苹果公司近日发布了其最新版本的多模态模型MM1.5,该模型在文本密集图像理解、视觉引用和定位以及多图推理等方面进行了显著升级。

MM1.5是苹果公司在MM1模型基础上的一次重大升级。与前代相比,MM1.5在多个方面表现出色:

  1. 文本密集图像理解:MM1.5能够处理包含大量文本的图像,如文档、图表等。通过结合高质量的OCR数据和合成字幕,MM1.5能够准确理解图像中的文本内容,并在回答问题时引用这些文本。

  2. 视觉引用和定位:MM1.5不仅能够理解图像中的文本,还能够理解视觉提示,如点和边界框。这使得MM1.5能够生成与图像内容紧密相关的回答,并引用图像中的特定区域。

  3. 多图推理:MM1.5受益于大规模的交错预训练,具备出色的多图推理能力。通过在额外的高质量多图数据上进行监督微调,MM1.5的多图推理能力得到了进一步提升。

MM1.5的模型规模从10亿到30亿参数不等,包括密集模型和混合专家(MoE)变体。这些模型旨在在各种下游任务上表现出色,包括一般领域、文本密集图像理解、粗粒度和细粒度理解以及单图和多图推理。

此外,MM1.5还推出了两个专门的变体:MM1.5-Video,用于视频理解;MM1.5-UI,用于移动UI理解。这些变体针对特定的下游应用进行了优化,以满足不同领域的需求。

MM1.5的训练策略以数据为中心,系统地探索了不同数据混合对模型训练生命周期的影响。这包括使用高质量的OCR数据和合成字幕进行连续预训练,以及使用优化的视觉指令微调数据混合进行监督微调。

在数据选择方面,MM1.5注重高质量的数据,包括文本密集的OCR数据和高质量的合成图像字幕。这些数据源的选择有助于提高模型在文本密集图像理解和多图推理方面的性能。

为了评估MM1.5的性能,研究人员进行了广泛的实验和消融研究。这些实验涵盖了各种下游任务,包括一般领域、文本密集图像理解、视觉引用和定位以及多图推理。

在实验中,MM1.5表现出色,在多个任务上取得了显著的性能提升。例如,MM1.5在MathVista、DocVQA和InfoVQA等知识密集型基准测试中取得了显著的分数提升。此外,MM1.5还表现出了出色的多图推理能力,例如在MuirBench等多图任务上取得了显著的性能提升。

然而,尽管MM1.5在多个方面表现出色,但仍然存在一些限制。例如,MM1.5在处理某些知识密集型任务时可能仍然存在挑战,如在处理复杂的科学问题或数学问题时。此外,MM1.5的训练数据主要来自公开数据集,可能无法涵盖所有可能的下游应用场景。

论文地址:https://arxiv.org/pdf/2409.20566

目录
相关文章
|
3月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
695 109
|
3月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
288 2
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1477 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
2月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
280 120
|
4月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
724 2
|
2月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
333 41
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
606 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
3月前
|
自然语言处理 安全
Min-p采样:通过动态调整截断阈值让大模型文本生成兼顾创造力与逻辑性
大语言模型通过预测下一个词生成文本,采样策略决定其创造力与连贯性。Min-p采样根据模型置信度动态调整选择阈值,在高不确定性时扩大候选范围,低不确定性时聚焦高概率词,相较Top-k、Top-p等方法,更好平衡了多样性与质量,尤其在高温下仍保持输出稳定,提升生成文本的流畅性与创新性。
160 3
|
2月前
|
人工智能 自然语言处理 自动驾驶
超越文本:多模态大语言模型如何让AI“看世界
超越文本:多模态大语言模型如何让AI“看世界

热门文章

最新文章