CVPR2021 | 华为诺亚实验室提出Transformer in Transformer

简介: transformer用于图像方面的应用逐渐多了起来,其主要做法是将图像进行分块,形成块序列,简单地将块直接丢进transformer中。然而这样的做法忽略了块之间的内在结构信息,为此,这篇论文提出了一种同时利用了块内部序列和块之间序列信息的transformer模型,称之为Transformer-iN-Transformer,简称TNT。

主要思想

af3976153948be786086b96ff8ff8c52.png

TNT模型把一张图像分为块序列,每个块reshape为像素序列。经过线性变换可从块和像素中获得patch embedding和pixel embedding。将这两者放进堆叠的TNT block中学习。


在TNT block中由outer transformer block和inner transformer block组成。

outer transformer block负责建模patch embedding上的全局相关性,inner block负责建模pixel embedding之间的局部结构信息。通过把pixel embedding线性映射到patch embedding空间的方式来使patch embedding融合局部信息。为了保持空间信息,引入了位置编码。最后class token通过一个MLP用于分类。


通过提出的TNT模型,可以把全局和局部的结构信息建模,并提高特征表示能力。在精度和计算量方面,TNT在ImageNet和downstream 任务上有非常优异的表现。例如,TNT-S所在ImageNet top-1上在只有5.2B FLOPs的前提下实现了81.3%,比DeiT高了 1.5%。

 

一些细节

a8c9b40c78c15a0cdc21488126d4ad09.png

对照这个图,用几个公式来介绍。

940fbd4c6e3c4fe27653b1dcdf70ae22.png

MSA为Multi-head Self-Attention。


MLP为Multi Layer Perceptron。


LN为Layer Normalization。


Vec为flatten。


加号表示残差连接。


前两个公式是inner transformer block,处理块内部的信息,第三个公式是将块内部的信息通过线性映射到patch embedding空间,最后两个公式是outer transformer block,处理块之间的信息。

 

位置编码的方式看下面的图就足了。

a46fc8986ca27876a90555dd86cd5edd.png模型参数量和计算量如下表所示:


7754dcef2eb8c2c9d3a7d8dc84d10374.png

Conclusion

a878a040d1a607b08bd7858c30a6870f.png

相关文章
|
4月前
|
机器学习/深度学习 并行计算 计算机视觉
Jurgen、曼宁等大佬新作:MoE重塑6年前的Universal Transformer,高效升级
本文介绍了一种新型Transformer架构,旨在解决Universal Transformer (UT) 在参数-计算效率上的问题。MoEUT结合了Mixture-of-Experts (MoE) 方法和UT的优点,通过MoE Feedforward Blocks、MoE Self-Attention Layers、Layer Grouping及Peri-LayerNorm等技术创新,实现了更高效的计算和内存使用。实验结果显示,MoEUT在多个语言建模和代码生成任务上显著优于标准Transformer,且计算资源需求更低。
84 5
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024
近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。
|
10月前
|
机器学习/深度学习 算法 数据可视化
Transformer要变Kansformer?用了几十年的MLP迎来挑战者KAN
【5月更文挑战第15天】KANs,一种基于Kolmogorov-Arnold表示定理的新型神经网络,以其独特结构挑战传统的MLP。KANs在边而非节点上使用可学习激活函数,展现出超越MLP的准确性和更快的扩展性。其可解释性优势利于科学应用,但训练速度较慢,未来优化有望改善。KANs在科学任务和潜在的Transformer集成中展示出广阔的应用前景。[链接](https://arxiv.org/pdf/2404.19756)
275 5
|
机器学习/深度学习 数据挖掘 PyTorch
ICLR 2023 | 解决VAE表示学习问题,北海道大学提出新型生成模型GWAE
ICLR 2023 | 解决VAE表示学习问题,北海道大学提出新型生成模型GWAE
164 0
|
机器学习/深度学习 编解码 自然语言处理
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???(一)
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???(一)
261 0
|
编解码 数据可视化 计算机视觉
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???(二)
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???(二)
164 0
|
机器学习/深度学习 量子技术 计算机视觉
CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
245 0
|
存储 并行计算 算法
斯坦福大学CS博士新作:新型Attention提速2-4倍,BERT单节点训练最快
斯坦福大学CS博士新作:新型Attention提速2-4倍,BERT单节点训练最快
291 0
|
机器学习/深度学习 编解码 自然语言处理
CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法
CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法
235 0
|
机器学习/深度学习 算法 测试技术
【论文速递】CVPR2022 - 通过目标感知transformer进行知识蒸馏
【论文速递】CVPR2022 - 通过目标感知transformer进行知识蒸馏
199 0
【论文速递】CVPR2022 - 通过目标感知transformer进行知识蒸馏