智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能

简介: 近年来,视觉语言模型(VLM)取得了显著进展,然而,现有的开源数据和指令数据集在数量和质量上依然落后,基于开源数据训练的模型在效果上仍然远落后于 SOTA 闭源模型或使用专有数据训练的开源模型。为解决以上问题,进一步提升开源模型的性能,2024年10月25日,智源研究院发布并开源了千万级多模态指令数据集Infinity-MM。

近年来,视觉语言模型(VLM)取得了显著进展,训练数据的规模扩展以及数据质量的提升是提升模型性能的关键因素。目前主要的获取数据方式为通过人工对数据进行收集和标注以及利用模型对指令进行合成,业内也有许多工作专注于此。然而,现有的开源数据和指令数据集在数量和质量上依然落后,基于开源数据训练的模型在效果上仍然远落后于 SOTA 闭源模型或使用专有数据训练的开源模型。

为解决以上问题,进一步提升开源模型的性能,2024年10月25日,智源研究院发布并开源了千万级多模态指令数据集Infinity-MM。

· Infinity-MM,包含数千万个样本,数据规模达4300万条,数据量达10TB,通过质量过滤和去重,确保了其数据的高质量和多样性。

· 智源提出了一种基于开源模型和标签体系的合成数据生成方法,能够生成高质量的指令数据并有效地扩大指令数据集的规模。

· 基于 Infinity-MM成功训练了一个 20 亿参数的多模态模型 Aquila-VL-2B,在同规模模型中取得了最先进的性能。

数据集下载地址:https://www.modelscope.cn/datasets/BAAI/Infinity-MM

模型下载地址:https://www.modelscope.cn/models/BAAI/Aquila-VL-2B-llava-qwen

模型下载地址:https://huggingface.co/BAAI/Aquila-VL-2B-llava-qwen_CG

技术报告地址:https://arxiv.org/abs/2410.18558

1基于开源InfinityMM训练出SOTA模型

我们在业界公认的benchmark上针对模型性能进行了分析。以下benchmark涵盖了模型的通用视觉感知、文档理解、数学推理等能力。评测结果如下:

表1.opencompass多模态榜单测试集上2B级别模型效果

智源通过在多种视觉benchmark上进行测试,对模型的能力进行了全面的评估。Aquila-VL-2B 模型在同等规模下表现出高度竞争力,达到了最新的SOTA结果。总体来看,Aquila-VL-2B 模型在多个评估指标上均表现突出,尤其在诸如 MathVista_MINI 、HallusionBench 和 MMStar 等任务中,Aquila-VL-2B 展现出了显著的优势,这表明我们的模型在视觉感知和数学推理等多模态任务上具有强大的处理能力。然而,在某些文档理解基准测试中,例如,在 OCRBench 和 AI2D 上Aquila-VL-2B 仍有改进空间。

1.1 模型训练效率提升

表2.Aquila-VL-2B模型训练设置

Aquila-VL-2B模型采用了LLaVA-OneVision架构,文本塔使用Qwen2.5-1.5B-instruct,视觉塔使用的Siglip400m,训练采用了多阶段训练策略。智源自研的FlagScale框架对模型的训练进行了适配,同时在多元AI芯片上进行了训练。经过适配后的FlagScale,训练效率是原版基于DeepSpeed的训练代码的1.7倍。

2InfinityMM 构建流程

2.1 开源数据收集整理

主要数据来源于公开数据集,经过去重和质量过滤后,数据量保持在约43M。数据涵盖了多种类型,包括视觉问答、文字识别、文档分析、数学推理等,详情如下:

表3.Infinity MM数据集按类型统计信息

表4.Infinity MM数据详细来源

2.2 InfinityMM合成数据方法

智源提出了一种基于视觉语言模型的多模态指令数据合成方法,确保了生成的指令与图片内容的匹配性、指令之间的多样性以及生成指令回答的准确性。


图1. Infinity MM数据合成流程图

2.2.1 图片与指令标签体系建立

首先,智源使用开源的识别模型(Recognize Anything Plus Model,RAM++)对图片进行自动打标,提取图片中的关键信息,如物体、动作、场景等。这些标签构成了图片的语义基础,为后续的指令生成提供依据。该模型在处理大规模图像时表现出色,能够精确捕捉多模态场景中的重要细节。

对于指令的任务类型,智源设计了一个三级指令标签体系,涵盖了指令的不同层次和种类。指令标签体系的顶层参考了MMBench,定义了六种任务类型,中层进一步细分任务特征,底层则针对具体任务需求进行精细分类。我们利用闭源模型对该体系进行了扩展和完善,确保指令体系的全面性和合理性。

2.2.2 图片与指令标签对应关系建立

在标签体系建立之后,智源选取了部分开源指令数据集作为种子数据,并对这些数据进行了图片和指令的打标。在此基础上统计了图片标签与指令标签之间的对应关系。通过这种方式,能够依据图片标签快速检索匹配的指令任务标签,从而确定适合生成的具体任务类型。

2.2.3 问题生成与过滤

在确认好目标图片需要合成的指令类型之后,进一步指示模型根据图片和该指令类型生成具体的问题。此过程中,智源采用了few-shot生成方法,从种子数据中检索出对应类型的图片和问题作为示例,输入模型以供参考。接着,将图片和生成的问题再次输入模型,由模型判断问题是否合理。

2.2.4 答案生成与过滤

在生成问题之后,进一步生成相应的指令回答。这一阶段要求生成的回答不仅要准确,而且要考虑到不同类型指令的多样性。智源通过在指令中添加不同的prompt来增加回答的多样性。最后,对生成的多模态指令数据进行严格的过滤,使用VLM来剔除与图片内容或任务不匹配的指令和答案。通过这一过程,我们生成了高质量的多模态指令数据集,为下游任务的研究提供了可靠的支持。

图2.合成数据任务类型占比

3InfinityMM 分析实验

3.1 合成数据对于模型性能的帮助

在训练的第4阶段,我们引入了部分由GPT-4系列模型生成的数据,基于这些高质量的数据,按照前文介绍的方法进行了数据合成。为了评估合成数据对模型性能的影响,我们设计了消融实验(Ablation Study)。在实验中,我们去除了所有合成数据,仅保留原始的GPT生成数据进行模型训练。实验结果如下所示:去掉合成数据后,模型的整体性能出现了显著下降。这一现象表明,合成数据在提升模型性能方面起到了积极作用,进一步证明了我们所提出的方法在数据增强和多样性方面的有效性。

表5. 合成数据消融实验

3.2 InfinityMM 数据规模Scailing实验

为了进一步分析数据规模扩展(Data Size Scaling Up)对模型性能的影响,我们对模型性能随训练数据量变化的情况进行了详细研究。结果如图所示,随着训练数据量的逐步增加,模型性能呈现出稳定提升的趋势。这一变化曲线清晰表明,扩大指令数据规模对模型性能的提升具有显著的正向影响。

图3.数据规模扩展实验

3.3 视频处理评测

为了增强Aquila-VL-2B处理多图像和视频数据的能力,我们使用了部分相关数据对模型进行了进一步的训练。结果表明,即使在合并多图像和视频数据之前,模型已经表现出处理视频图像的可靠能力。在引入额外的多图像和视频数据进行进一步训练后,模型处理这些数据的能力得到了显著提高。但同时可以看到模型距离目前的SOTA效果仍有差距,仍需进一步提高。

表6.Video-MME评测结果

3.4 更多实验结果

我们在更多的测试集上同目前的SOTA模型进行了性能比较,结果显示Aquila-VL-2B模型仍具备明显优势。

表7.更多评测结果

4总结&未来工作

在本工作中,我们为了提升开源模型的表现,构建了包含千万级别数据的多模态指令数据集Infinity-MM,通过增加数据规模来提升模型性能。同时,提出了一种基于开源模型和标签体系的指令数据合成方法,进一步生成高质量指令数据,扩展了数据集的规模。最终,我们基于Infinity-MM训练了Aquila-VL-2B模型,在同等规模下实现了SOTA效果。

之后我们会从以下几方面对工作进行改进:

1、进一步完善数据合成方法,增加合成数据的多样性和复杂性。

2、进一步增加文档处理类数据数据的规模。

3、基于Infinity-MM训练更多不同规模大小的模型。


点击链接👇,直达数据集

https://www.modelscope.cn/datasets/BAAI/Infinity-MM

相关文章
|
23天前
|
机器学习/深度学习 测试技术
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
时序数据在动态系统和应用中至关重要,但其复杂性使得分析极具挑战。Time-MoE是一种基于稀疏混合专家设计的可扩展架构,旨在预训练更大、更强大的时序预测模型,同时降低推理成本。它在新数据集Time-300B上训练,包含超过3000亿个时间点,跨9个领域,显著提升了预测精度,成为解决时序预测问题的先进方案。
48 9
|
2月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
184 60
|
2月前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
69 1
|
7月前
|
人工智能 搜索推荐 数据可视化
国产黑马一年肝出万亿参数MoE!霸榜多模态
【4月更文挑战第2天】阶跃星辰推出万亿参数的MoE多模态大模型,引领AI新突破。采用混合专家架构,适应不同任务,提升效率与性能。MoE已应用于跃问助手和冒泡鸭AI平台,提供个性化服务与丰富互动体验。然而,巨大模型的训练管理、过拟合、知识表示及伦理问题仍是AGI发展道路上的挑战。
81 4
国产黑马一年肝出万亿参数MoE!霸榜多模态
|
机器学习/深度学习 存储 缓存
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
290 0
|
计算机视觉
10亿参数、多项SOTA,智源开源视觉基础模型EVA
10亿参数、多项SOTA,智源开源视觉基础模型EVA
363 0
|
传感器 人工智能 编解码
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
153 0
|
机器学习/深度学习 人工智能 自然语言处理
业界首个支持9种语言的文图生成模型!智源AltDiffusion开源技术解读
业界首个支持9种语言的文图生成模型!智源AltDiffusion开源技术解读
148 0
|
机器学习/深度学习 人工智能 并行计算
11倍加速蛋白质单体与复合物的结构预测!Colossal-AI团队联合百图生科开源xTrimo Multimer
11倍加速蛋白质单体与复合物的结构预测!Colossal-AI团队联合百图生科开源xTrimo Multimer
122 0