CVPR2021 | 华为诺亚实验室提出Transformer in Transformer

简介: transformer用于图像方面的应用逐渐多了起来,其主要做法是将图像进行分块,形成块序列,简单地将块直接丢进transformer中。然而这样的做法忽略了块之间的内在结构信息,为此,这篇论文提出了一种同时利用了块内部序列和块之间序列信息的transformer模型,称之为Transformer-iN-Transformer,简称TNT。

主要思想

af3976153948be786086b96ff8ff8c52.png

TNT模型把一张图像分为块序列,每个块reshape为像素序列。经过线性变换可从块和像素中获得patch embedding和pixel embedding。将这两者放进堆叠的TNT block中学习。


在TNT block中由outer transformer block和inner transformer block组成。

outer transformer block负责建模patch embedding上的全局相关性,inner block负责建模pixel embedding之间的局部结构信息。通过把pixel embedding线性映射到patch embedding空间的方式来使patch embedding融合局部信息。为了保持空间信息,引入了位置编码。最后class token通过一个MLP用于分类。


通过提出的TNT模型,可以把全局和局部的结构信息建模,并提高特征表示能力。在精度和计算量方面,TNT在ImageNet和downstream 任务上有非常优异的表现。例如,TNT-S所在ImageNet top-1上在只有5.2B FLOPs的前提下实现了81.3%,比DeiT高了 1.5%。

 

一些细节

a8c9b40c78c15a0cdc21488126d4ad09.png

对照这个图,用几个公式来介绍。

940fbd4c6e3c4fe27653b1dcdf70ae22.png

MSA为Multi-head Self-Attention。


MLP为Multi Layer Perceptron。


LN为Layer Normalization。


Vec为flatten。


加号表示残差连接。


前两个公式是inner transformer block,处理块内部的信息,第三个公式是将块内部的信息通过线性映射到patch embedding空间,最后两个公式是outer transformer block,处理块之间的信息。

 

位置编码的方式看下面的图就足了。

a46fc8986ca27876a90555dd86cd5edd.png模型参数量和计算量如下表所示:


7754dcef2eb8c2c9d3a7d8dc84d10374.png

Conclusion

a878a040d1a607b08bd7858c30a6870f.png

相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024
近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。
|
5月前
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
159 5
|
机器学习/深度学习 人工智能 算法
业界首个适用于固体系统的神经网络波函数,登上Nature子刊
业界首个适用于固体系统的神经网络波函数,登上Nature子刊
业界首个适用于固体系统的神经网络波函数,登上Nature子刊
|
机器学习/深度学习 算法 数据可视化
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
289 0
|
编解码 数据可视化 计算机视觉
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???(二)
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???(二)
140 0
|
机器学习/深度学习 编解码 自然语言处理
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???(一)
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???(一)
187 0
|
机器学习/深度学习 编解码 自然语言处理
CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法
CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法
204 0
|
存储 并行计算 算法
斯坦福大学CS博士新作:新型Attention提速2-4倍,BERT单节点训练最快
斯坦福大学CS博士新作:新型Attention提速2-4倍,BERT单节点训练最快
267 0
|
机器学习/深度学习 量子技术 计算机视觉
CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
191 0
|
机器学习/深度学习 人工智能 编解码
AAAI 2022 | 无注意力+PatchOut,复旦大学提出面向视觉transformer的迁移攻击方法
AAAI 2022 | 无注意力+PatchOut,复旦大学提出面向视觉transformer的迁移攻击方法
119 0