What？UFO！ | UFO-ViT用X-Norm让你的Transformer模型回归线性复杂度（二）-阿里云开发者社区

What？UFO！ | UFO-ViT用X-Norm让你的Transformer模型回归线性复杂度（二）

2023-05-23 158

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： What？UFO！ | UFO-ViT用X-Norm让你的Transformer模型回归线性复杂度（二）

3UFO-ViT

构建UFO-ViT模型采用了早期视觉转换器模型中的一些架构策略。在本节将介绍几种架构优化技术。总体结构如图2所示。

1、Patch embedding with convolutions

最近的一些研究表明Patch embedding with convolutions可以较好地训练ViT，而不是线性投影。

2、Positional encoding

使用位置编码作为可学习参数。

3、Multi-headed attention

本文所设计的模块是多方向的，以便更好的正则化。将公式3中的γ参数应用于所有Head以衡量每个Head的重要性。

4、Local patch interaction

为自注意力模块设计额外的模块来提取局部特征，目前已不是什么特别的想法。作者选择其中最简单的方法，3×3深度可分离卷积。采用早期在xCiT中提出的LPI，使用堆叠的2个conv-bn-GELU层。

5、Feed-forward network

与传统基于Transformer的模型一样，本文的模型使用4维隐藏MLP的point-wise feed-forward。

6、Class attention

在ImageNet1k实验中使用了CaiT中提供的类注意力层。它帮助Class Token收集空间信息。为了减少计算，只在Class Token上计算Class attention。这与原始文件是一样的。注意，Class Attention由UFO模块组成，而CaiT使用正常的自注意力模块来进行Class attention。

4实验

4.1 Image Classification

消融研究重点是XNorm的重要性，以及在3.3节中解释过的架构优化。作者试验了各种归一化方法。大多数其他归一化方法都不能减少损失。它可以是证明本文的理论解释是合理的隐性证据之一。有趣的是，应用single L2Norm的性能也很差。

用DeiT对三种具有相同结构设计方案的模型进行了实验。如图1所示，所有的模型都显示出比大多数基于Transformer的并发模型更高的性能和参数效率。此外，本文提出的模型在复杂性和数据效率方面有优势，而原始的ViT需要更大的额外数据集，如JFT-300M或ImageNet21k。

4.2 Object Detection with Mask R-CNN

比较CNN和基于Transformer的目标检测和实例分割任务。为了公平比较，所有结果的实验环境都是相同的。所有模型都是在ImageNet1k数据集上预训练的。

本文模型明显优于基于CNN的模型。而且，与容量较低的最先进的视觉Transformer相比，它们取得了更高或更有竞争力的结果。但是使用相同的设计空间，XCiT显示的结果稍微好一些。可能是XCiT模型有更大的嵌入空间d。UFO-ViT-B在bbox检测任务上的表现略低于UFO-ViT-M，但在较小的bbox和整体实例分割得分上更好。

5参考

[1].UFO-ViT: High Performance Linear Vision Transformer without Softmax

What？UFO！ | UFO-ViT用X-Norm让你的Transformer模型回归线性复杂度（二）