10亿参数、多项SOTA,智源开源视觉基础模型EVA

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 10亿参数、多项SOTA,智源开源视觉基础模型EVA


机器之心编辑部

智源开源了简单又强大、具有 10 亿参数的视觉基础模型 EVA,将最强语义学习与最强几何结构学习相结合,在 ImageNet 分类、COCO 检测分割、Kinetics 视频分类等广泛的视觉感知任务中取得当前最强性能。



作为一种视觉预训练方法,掩码图像建模(Masked Image Modeling,简称 MIM)近期得到了蓬勃发展,自从 BEiT 开始,一系列新方法诸如 SimMIM、MAE、MVP 等被陆续设计出,这个领域也受到了很大关注。然而,在十亿参数量级别的视觉预训练模型中,最具竞争力的模型例如 ViT-g、SwinV2、CoCa 等仍然严重依赖有监督或弱监督训练,以及不可公开访问的数亿级有标签数据。


理想的视觉预训练应当只需简单的操作:譬如抓好语义学习和几何结构学习这两个关键点,基本可以搞定绝大部分的视觉任务。


智源曹越团队最新开源的视觉预训练模型 EVA,将最强语义学习(CLIP)与最强几何结构学习(MIM)结合,仅需使用标准的 ViT 模型,并将其规模扩大到十亿参数(1-Billion)进行训练,即可得到当前最强大的十亿级视觉基础模型 EVA。


具体而言,EVA 的训练方法与 MVP、MILLAN 类似,即通过重构 CLIP 特征来进行掩码图像建模(masked image modeling)。如下图所示,CLIP 模型输入为完整的图像,而 EVA 模型的输入为有遮盖的图像,训练过程是让 EVA 模型遮盖部分的输出去重构 CLIP 模型对应位置的输出,从而以简单高效的方式让 EVA 模型同时拥有了最强语义学习 CLIP 的能力和最强几何结构学习 MIM 的能力。不同于之前的方法,EVA 证明了这种训练方式可以帮助模型将参数扩展到十亿量级,并且在这个参数量级下在广泛下游任务中取得出色的性能。



总结而言,EVA 具有以下特点:


1. 高效


EVA 仅使用开源的纯图像数据即可进行掩码预测任务,不需要预训练阶段重新学习语义以及不需要巨量的成对有标注数据。相比而言,主流标杆性模型(ViT-g、SwinV2、CoCa 等)仍依赖于冗长的有监督或弱监督训练,以及不可公开访问的数亿级有标签数据。


2. 简单


EVA 无需特殊设计网络结构。使用简单的网络结构—标准的 ViT-g,而无需额外特殊设计的算子,使得其非常容易的迁移到广泛的下游任务,并且可以和其他模态共享。

实验


目前,EVA 在主流任务评测中的表现都可圈可点:


1. 多项重要视觉感知任务取得 state-of-the-art 性能


ImageNet 图像分类中取得 89.7% 的 top-1 准确率;Kinetics-700 视频动作识别取得 82.9% 的 top-1 准确率;COCO 目标检测取得 64.7 mAP、实例分割取得 55.5 mAP;LVIS 的实例分割取得 55.0 mAP;语义分割的 COCO-stuff 取得 53.4 mIoU、ADE-20K 取得 62.3 mIoU。



2. 参数量变引发性能质变:在 LVIS 上性能极强;可以稳定并加速 CLIP 训练,产生当前最强的开源 CLIP 模型。


首先,在 LVIS(超过一千类)实例分割任务上表现和 COCO(80 类)相仿,比之前的 SOTA 方法 MAE 高出 5.8 个点;第二,使用 EVA 作为 CLIP 训练的初始化,其性能远超随机初始化的 CLIP 训练,如下图所示,在十亿参数量级下,和 Open CLIP 官方使用完全一样的训练方式下,在几乎所有的零样本基准下均有显著的性能提升,除此之外,EVA 可以极大地稳定巨型 CLIP 的训练和优化过程,训练过程仅需使用 FP16 混合精度,综合来看,EVA 帮助训练得到当前最强且最大的开源 CLIP 模型,已经有团队在尝试使用其帮助 AIGC 模型的生成质量。



圈重点:EVA 全家桶开源!


十亿参数的预训练模型,下游 ImageNet 图像分类、Kinetics 视频动作识别、COCO 和 LVIS 目标检测和分割、ADE20K 语义分割、以及最强 CLIP 模型,全部开源!



欢迎感兴趣的小伙伴前去使用!


目录
打赏
0
0
0
0
367
分享
相关文章
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。
186 77
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能
近年来,视觉语言模型(VLM)取得了显著进展,然而,现有的开源数据和指令数据集在数量和质量上依然落后,基于开源数据训练的模型在效果上仍然远落后于 SOTA 闭源模型或使用专有数据训练的开源模型。为解决以上问题,进一步提升开源模型的性能,2024年10月25日,智源研究院发布并开源了千万级多模态指令数据集Infinity-MM。
FlagEvalMM:智源开源的多模态模型评测框架
FlagEvalMM 是由北京智源人工智能研究院开源的多模态模型评测框架,旨在全面评估处理文本、图像、视频等多种模态的模型。该框架支持多种任务和指标,采用评测与模型推理解耦的设计,提升评测效率,便于快速适配新任务和模型。
101 11
FlagEvalMM:智源开源的多模态模型评测框架
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
261 60
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
122 10
国产黑马一年肝出万亿参数MoE!霸榜多模态
【4月更文挑战第2天】阶跃星辰推出万亿参数的MoE多模态大模型,引领AI新突破。采用混合专家架构,适应不同任务,提升效率与性能。MoE已应用于跃问助手和冒泡鸭AI平台,提供个性化服务与丰富互动体验。然而,巨大模型的训练管理、过拟合、知识表示及伦理问题仍是AGI发展道路上的挑战。
98 4
国产黑马一年肝出万亿参数MoE!霸榜多模态
大羊驼LLaMa竞品来了:AI画图最火公司开源语言模型,最小30亿参数
大羊驼LLaMa竞品来了:AI画图最火公司开源语言模型,最小30亿参数
204 0
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA(2)
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA
214 0

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等