无需新型token mixer就能SOTA:MetaFormer视觉基线模型开源,刷新ImageNet记录

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 无需新型token mixer就能SOTA:MetaFormer视觉基线模型开源,刷新ImageNet记录


来自新加坡国立大学和 Sea AI Lab 的研究者开源了四种 MetaFormer 基线模型,通过使用最基本或者最常见的 token mixer,探索了 MetaFormer 的下限、通用性和潜力。值得注意的是,所提模型之一 CAFormer 基于 ImageNet 常规有监督训练(无额外数据和蒸馏),在 224x224 分辨率上取得 85.5% 的新纪录,相比之前的 SOTA 模型减少了 55% 的参数量和 45% 的计算量。此外,该团队所提出的激活函数StarReLU比常用的GELU减少了71%的计算量,但取得了更好的性能。



论文地址:https://arxiv.org/abs/2210.13452

代码地址:https://github.com/sail-sg/metaformer 

*This work was partially performed when W. Yu was a research intern at Sea AI Lab.


去年,该团队的一篇论文《MetaFormer Is Actually What You Need for Vision》引起研究社区关注。该论文针对 Transformer 模型 “Attention is all you need” 的观点提出了不同看法,即 MetaForemr 猜想 “MetaFormer Is Actually What You Need”。该论文通过把 attention 模块抽象成 token mixer,从而将 Transformer 抽象成通用架构 MetaFormer。为了验证 MetaFormer 猜想,作者把 token mixer 设置为极为简单的池化算子,发现所得模型 PoolFormer 性能居然超过了 ViT/MIL-like/ResNet 等模型,实验结果很好地验证了 MetaFormer 猜想。


图源:该团队去年的论文《MetaFormer Is Actually What You Need for Vision》(CVPR 2022 Oral)


最近,该团队再次进一步探究通用架构 MetaFormer 的各种性质:他们在 MetaFormer 框架下,通过使用最基本或者最常见的 token mixer,引入了几种 MetaFormer 基线模型,并总结了他们的观察。


1.MetaFormer 确保可靠的性能下限。


为了探索模型的性能下限,作者将 token mixer 设定为恒等映射。实验发现,这个名为 IdentityFormer 的简陋模型,在 ImageNet 上竟然能取得超过 80% 的准确率。


2. MetaFormer 使用任意 token mixer 也能工作。


为了探索 MetaFormer 对于 token mixer 的通用性,作者使用全局随机矩阵(随机初始化后固定住)来混合 token。具体地,对于四阶段模型,作者将后两阶段的 token mixer 设置为随机混合,而前两阶段的 token mixer 仍然保持为恒等映射,以避免引入过多计算量和固定参数。所派生的 RandFormer 模型被证明是有效的,准确率相比 IdentityFormer 提高了 1.0%,为 81.4%。这一结果证明 MetaFormer 对于 token mixer 有很好的通用性。因此,当引入新奇的 token mixer 时,请放心 MetaFormer 的性能。


图 1:MetaFormer 基线模型和其他最先进模型在 ImageNet  224x224 分辨率上的性能。 该论文所提模型的具体架构展示在后续的图 2 中。(a) IdentityFormer/RandFormer 取得超过 80%/81% 的准确率,表明 MetaFormer 具有可靠的性能下限,并且使用任意 token mixer 都能很好地工作。图中 ResNet-50 的准确率来自论文《ResNet strikes back》。(b) 使用经典可分离卷积做为 token mixer 的 ConvFormer (可视为纯 CNN)大幅优于 ConvNeXt,而使用可分离卷积和原始 self-attention 作为 token mixer 的 CAFormer 在常规有监督训练下(无额外数据和蒸馏),在 ImageNet 224x224 分辨率上创造了 85.5% 准确率的新记录。


图 2:(a-d)IdentityFormer、RandFormer、ConvFormer 和 CAFormer 的总体框架。与 ResNet 类似,模型采用四阶段架构,阶段 i 具有特征维度为 Di 的 Li 个 block。每个下采样模块由一层卷积实现。第一个下采样的 kernel 大小为 7,stride 为 4,而后三个下采样的 kernel 大小为 3,stride 为 2。(e-h) IdentityFormer、RandForemr、ConvFormer 和 Transformer block 的架构,它们的 token mixer 分别为恒等映射,随机混合,可分离卷积和原始 self-attention。


3. MetaFormer 轻松地提供 SOTA 性能。无需设计新的 token mixer,仅需装备五年前的 “老式” 算子,所衍生的 MetaFormer 具体模型就实现了 SOTA。


ConvFormer 大幅优于 ConvNeXt。通过简单地将 token mixer 设定为可分离卷积,所衍生的纯卷积模型 ConvFormer 性能大幅优于 ConvNeXt。


CAFormer 刷新 ImageNet 记录。通过将四阶段模型的前两个阶段的 token mixer 设置为可分离卷积,后两个阶段设置为原始的 self-attention,所衍生模型 CAFormer 在 ImageNet 无额外数据常规有监督训练下,在 224x224 分辨率上创造 85.5% 准确率的新纪录。


图 3:各种先进模型(图中 Swin 都成了垫底)在 ImageNet 224x224 上准确率、计算量和模型规模的比较。□、△和○分别代表 CNN 类,attention 类和混合类模型。在各个维度的计算量和模型规模下,ConvFormer 均优于同类 CNN 模型;CAFormer 明显优于其他各类模型。值得注意的是 CAFormer 取得新的准确率记录 85.5%,不仅超过之前 MViTv2 取得的 85.3% 的记录,还比 MViTv2 减少了 55% 的参数量和 45% 的计算量。


4. 新型激活函数 StarReLU 超越 GELU。此外,作者还提出了新型激活函数 StarReLU 用以取代常用的 GELU 激活函数。该函数为平方 ReLU 的变体,为消除分布偏移而设计。StarReLU 每个神经元仅需 4 FLOPs,相比 GELU (14 FLOPs)减少了 71% 的计算量,却取得更好的性能。ConvFormer-S18 模型在 ImageNet 数据集上,使用 StarReLU 相比 GELU 准确率提升 0.3%,相比 ReLU 提升了 0.9%。



其中 s 和 b 为所有通道共享的标量,可设为固定值或者可学参数。


以上作者通过将 token mixer 设置为最基本或者最常见的算子(恒等映射、随机混合、可分离卷积和原始 self-attenton)来进一步探索 MetaFormer 架构的下限、通用性和潜力。所提各种 MetaFormer 模型可作为视觉领域可靠的基线。相信当引入更先进 token mixer 或者训练策略时,MetaFormer 类模型会打破记录,取得新的 SOTA。


相关文章
|
机器学习/深度学习 人工智能 自然语言处理
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA(2)
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA
249 0
|
1月前
|
机器学习/深度学习 人工智能 计算机视觉
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
MILS 是 Meta AI 推出的零样本生成高质量多模态描述方法,支持图像、视频和音频的描述生成,无需额外训练。
127 34
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
|
2月前
|
机器学习/深度学习
知识蒸馏技术原理详解:从软标签到模型压缩的实现机制
**知识蒸馏**是一种通过性能与模型规模的权衡来实现模型压缩的技术。其核心思想是将较大规模模型(称为教师模型)中的知识迁移到规模较小的模型(称为学生模型)中。本文将深入探讨知识迁移的具体实现机制。
372 12
知识蒸馏技术原理详解:从软标签到模型压缩的实现机制
|
13天前
|
人工智能 编解码 文字识别
谷歌放大招!多模态模型PaliGemma 2 Mix上线:通吃问答+OCR+检测等多项视觉理解任务,28B参数无需额外加载模型
PaliGemma 2 Mix 是谷歌DeepMind发布的多任务视觉语言模型,支持图像描述、OCR、目标检测等功能,适用于文档理解、科学问题解答等场景。
59 2
|
15天前
|
机器学习/深度学习 人工智能 测试技术
MoBA:LLM长文本救星!月之暗面开源新一代注意力机制:处理1000万token能快16倍,已在Kimi上进行验证
MoBA 是一种新型注意力机制,通过块稀疏注意力和无参数门控机制,显著提升大型语言模型在长上下文任务中的效率。
88 3
|
2月前
|
机器学习/深度学习 人工智能
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架,通过最小化积分Kullback-Leibler散度,指导其他生成模型的训练,提升生成性能。
83 11
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
|
6月前
Meta浙大校友让评估模型自学成才,数据全合成无需人工标注,训练Llama 3 70B超过405B
【9月更文挑战第21天】近日,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。该论文由Meta与浙江大学校友合作完成,提出一种创新的模型评估方法,通过让评估模型自学习训练,无需依赖昂贵且易过时的人工标注数据。此方法利用合成数据,通过迭代生成对比模型输出并训练基于大型语言模型的评估器,从而实现自我迭代改进。研究结果显示,在不使用任何标注偏好数据的情况下,这种方法显著提升了评估模型的性能,甚至超越了一些现有模型。尽管如此,该方法在实际应用中仍需进一步验证。论文地址:https://arxiv.org/abs/2408.02666
111 4
|
6月前
|
机器学习/深度学习 编解码 计算机视觉
阿里发布轨迹可控的DiT视频生成模型—Tora
【9月更文挑战第4天】阿里团队在视频生成领域取得了重要突破,推出了名为Tora的新模型。Tora基于Diffusion Transformer框架,旨在克服现有模型在物体运动控制上的局限。该模型整合了文本、视觉和轨迹条件,通过轨迹提取器、时空DiT和运动引导融合器三大组件,实现了高质量且运动一致的视频生成。Tora在多个基准数据集上表现出色,尤其在高运动保真度方面领先。然而,其应用仍需大量计算资源,并主要聚焦于可控轨迹视频生成。论文详情见:https://arxiv.org/abs/2407.21705
146 1
|
自然语言处理 测试技术 开发者
刷新20项代码任务SOTA,Salesforce提出新型基础LLM系列编码器-解码器Code T5+
刷新20项代码任务SOTA,Salesforce提出新型基础LLM系列编码器-解码器Code T5+
198 0
|
人工智能 自然语言处理 数据可视化
多模态可控图片生成统一模型来了,模型参数、推理代码全部开源
多模态可控图片生成统一模型来了,模型参数、推理代码全部开源
536 0

热门文章

最新文章