在人工智能领域,多模态大型语言模型(MLLMs)是近年来的热门研究方向。这些模型旨在整合文本和图像信息,实现更全面的理解和生成能力。作为该领域的先驱之一,苹果公司近日发布了其最新版本的多模态模型MM1.5,该模型在文本密集图像理解、视觉引用和定位以及多图推理等方面进行了显著升级。
MM1.5是苹果公司在MM1模型基础上的一次重大升级。与前代相比,MM1.5在多个方面表现出色:
文本密集图像理解:MM1.5能够处理包含大量文本的图像,如文档、图表等。通过结合高质量的OCR数据和合成字幕,MM1.5能够准确理解图像中的文本内容,并在回答问题时引用这些文本。
视觉引用和定位:MM1.5不仅能够理解图像中的文本,还能够理解视觉提示,如点和边界框。这使得MM1.5能够生成与图像内容紧密相关的回答,并引用图像中的特定区域。
多图推理:MM1.5受益于大规模的交错预训练,具备出色的多图推理能力。通过在额外的高质量多图数据上进行监督微调,MM1.5的多图推理能力得到了进一步提升。
MM1.5的模型规模从10亿到30亿参数不等,包括密集模型和混合专家(MoE)变体。这些模型旨在在各种下游任务上表现出色,包括一般领域、文本密集图像理解、粗粒度和细粒度理解以及单图和多图推理。
此外,MM1.5还推出了两个专门的变体:MM1.5-Video,用于视频理解;MM1.5-UI,用于移动UI理解。这些变体针对特定的下游应用进行了优化,以满足不同领域的需求。
MM1.5的训练策略以数据为中心,系统地探索了不同数据混合对模型训练生命周期的影响。这包括使用高质量的OCR数据和合成字幕进行连续预训练,以及使用优化的视觉指令微调数据混合进行监督微调。
在数据选择方面,MM1.5注重高质量的数据,包括文本密集的OCR数据和高质量的合成图像字幕。这些数据源的选择有助于提高模型在文本密集图像理解和多图推理方面的性能。
为了评估MM1.5的性能,研究人员进行了广泛的实验和消融研究。这些实验涵盖了各种下游任务,包括一般领域、文本密集图像理解、视觉引用和定位以及多图推理。
在实验中,MM1.5表现出色,在多个任务上取得了显著的性能提升。例如,MM1.5在MathVista、DocVQA和InfoVQA等知识密集型基准测试中取得了显著的分数提升。此外,MM1.5还表现出了出色的多图推理能力,例如在MuirBench等多图任务上取得了显著的性能提升。
然而,尽管MM1.5在多个方面表现出色,但仍然存在一些限制。例如,MM1.5在处理某些知识密集型任务时可能仍然存在挑战,如在处理复杂的科学问题或数学问题时。此外,MM1.5的训练数据主要来自公开数据集,可能无法涵盖所有可能的下游应用场景。