论文阅读笔记 | MLP系列——MLP-Mixer

简介: 论文阅读笔记 | MLP系列——MLP-Mixer

paper:MLP-Mixer: An all-MLP Architecture for Vision

code:https://github.com/google-research/vision_transformer

image.png

摘要:


研究人员表明,尽管卷积和注意力都足以获得良好的性能,但它们都不是必需的。为此,作者提出了MLP-Mixer,一种专门基于多层感知机的体系结构。MLP-Mixer包含两种类型的层:一种是独立于每个patch的mpl结构(既混合每个位置的特征);另外一种是跨越不同patch的mlp结构(既混合空间信息)。


在大数据集上或使用现代正则化方案进行训练时,MLP-Mixer在图像分类基准测试中获得了有竞争力的分数,其预训练和推理成本可与最先进的模型相媲美。


1. Introduction


MLP-Mixer完全基于多层感知机,不需要任何的卷积或者是self-attention操作。其有两种mlp的结构:channel-mixing MLPs与token-mixing MLPs。


channel-mixing MLPs允许不同channel之间进行通信(channel间);token-mixing MLPs允许tokens中的不同空间位置进行通信(channel内)。


2. Mixer Architecture


MLP-Mixer的结构如图所示:

image.png

Mixer将不重叠的patch作为输入,每个patch包含了C个维度的信息。假设输入的图像是224x224x3,patch设置大小为7,那么就有32x32个patch,每个patch的维度为7x7x3=147.现在就构成了一个(32x32)x147的二维矩阵。对于矩阵的每一个channel,应用token-mixingMLP,进行32x32个patch的mlp处理;然后应用channel-mixingMLP,进行147个channels的mlp处理。如上图结构的左右两种mlp处理结构所示。


每个Mixer Layer都由以上两种结构组成,其中每一种结构又包含了两层全连接层以及一个非线性激活层。用数学表示为,这里C=channel(147),S=patch(32x32):

image.png

网络的复杂度与patch呈线性关系,而ViT的计算复杂度是二次的,所以总体复杂度与图像中的像素数呈线性关系,就像CNN一样。


Mixer中的每一层(除了初始patch投影层)都采用相同大小的输入,除了MLP层,Mixer还使用了其他标准架构组件:skip-connections and layer normalization。与vit不同,Mixer不使用position embeddings,因为token-mixing MLPs对input tokens的顺序很敏感。最后,Mixer使用一个标准的分类头和全局平均池化层,然后是一个线性分类器。


MLP-Mixer配置如下表所示:

image.png


3. Result


  • 与SOTA的对比:

830d3bb33cbf4a568154d6da1bd9fe1e.png

目录
相关文章
|
机器学习/深度学习 算法 API
XGBoost模型部署与在线预测的完整指南
XGBoost模型部署与在线预测的完整指南
2003 6
|
机器学习/深度学习 数据可视化 算法
ECA-Net:深度卷积神经网络的高效通道注意力
最近,**通道注意力机制**已被证明在提高深度卷积神经网络 (CNN) 的性能方面具有巨大潜力。然而,大多数现有方法致力于开发更复杂的注意力模块以获得更好的性能,这不可避免地增加了模型的复杂性。为了克服性能和复杂性权衡的悖论,**本文提出了一种高效通道注意 (ECA) 模块,该模块仅涉及少量参数,同时带来明显的性能增益**。通过剖析 SENet 中的通道注意模块,我们凭经验表明**避免降维对于学习通道注意很重要**,**适当的跨通道交互可以在显着降低模型复杂度的同时保持性能**。因此,**我们提出了一种无需降维的局部跨通道交互策略,可以通过一维卷积有效实现**。此外,**我们开发了一种自适应选
3078 0
ECA-Net:深度卷积神经网络的高效通道注意力
|
12月前
|
机器学习/深度学习 存储 算法
NoProp:无需反向传播,基于去噪原理的非全局梯度传播神经网络训练,可大幅降低内存消耗
反向传播算法虽是深度学习基石,但面临内存消耗大和并行扩展受限的问题。近期,牛津大学等机构提出NoProp方法,通过扩散模型概念,将训练重塑为分层去噪任务,无需全局前向或反向传播。NoProp包含三种变体(DT、CT、FM),具备低内存占用与高效训练优势,在CIFAR-10等数据集上达到与传统方法相当的性能。其层间解耦特性支持分布式并行训练,为无梯度深度学习提供了新方向。
656 1
NoProp:无需反向传播,基于去噪原理的非全局梯度传播神经网络训练,可大幅降低内存消耗
|
8月前
|
机器学习/深度学习 存储 人工智能
RAG系统文本检索优化:Cross-Encoder与Bi-Encoder架构技术对比与选择指南
本文将深入分析这两种编码架构的技术原理、数学基础、实现流程以及各自的优势与局限性,并探讨混合架构的应用策略。
567 10
RAG系统文本检索优化:Cross-Encoder与Bi-Encoder架构技术对比与选择指南
|
安全 应用服务中间件 Linux
判断一个网站是否使用HTTPS协议
判断一个网站是否使用HTTPS协议
2915 4
|
机器学习/深度学习 存储 搜索推荐
连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用
本文探讨了如何在工业界的连续学习的框架下实现跨域推荐模型,提出了连续迁移学习这一新的跨域推荐范式,利用连续预训练的源域模型的中间层表征结果作为目标域模型的额外知识,设计了一个轻量级的Adapter模块实现跨域知识的迁移,并在有好货推荐排序上取得了显著业务效果。
1425 0
连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用
|
人工智能 开发者
FacePoke:AI时代的面部表情编辑新体验
**FacePoke** 是一款引人注目的开源工具,利用先进的人工智能技术,让用户通过简单的拖拽界面实时编辑面部表情。它支持实时编辑与动画,提供直观的操作体验,适用于艺术项目、视频制作和社交内容等多种场景。FacePoke 的开源特性还允许开发者自由修改和扩展功能。无论是艺术家还是内容创作者,都能轻松提升数字内容的情感表达。
|
机器学习/深度学习 算法 TensorFlow
Inception v3算法的实战与解析
Inception v3算法的实战与解析
【Vscode+Latex】Mac 系统Vscode的LaTeX中插入参考文献
在Mac系统下的VSCode环境中配置LaTeX工作流以便插入和引用参考文献的详细步骤。
1644 0
|
机器学习/深度学习 算法 异构计算
[FNet]论文实现:FNet:Mixing Tokens with Fourier Transform
[FNet]论文实现:FNet:Mixing Tokens with Fourier Transform
296 1