What?UFO! | UFO-ViT用X-Norm让你的Transformer模型回归线性复杂度(二)

简介: What?UFO! | UFO-ViT用X-Norm让你的Transformer模型回归线性复杂度(二)

3UFO-ViT


构建UFO-ViT模型采用了早期视觉转换器模型中的一些架构策略。在本节将介绍几种架构优化技术。总体结构如图2所示。

1、Patch embedding with convolutions

最近的一些研究表明Patch embedding with convolutions可以较好地训练ViT,而不是线性投影。

2、Positional encoding

使用位置编码作为可学习参数。

3、Multi-headed attention

本文所设计的模块是多方向的,以便更好的正则化。将公式3中的γ参数应用于所有Head以衡量每个Head的重要性。

4、Local patch interaction

为自注意力模块设计额外的模块来提取局部特征,目前已不是什么特别的想法。作者选择其中最简单的方法,3×3深度可分离卷积。采用早期在xCiT中提出的LPI,使用堆叠的2个conv-bn-GELU层。

5、Feed-forward network

与传统基于Transformer的模型一样,本文的模型使用4维隐藏MLP的point-wise feed-forward。

6、Class attention

在ImageNet1k实验中使用了CaiT中提供的类注意力层。它帮助Class Token收集空间信息。为了减少计算,只在Class Token上计算Class attention。这与原始文件是一样的。注意,Class Attention由UFO模块组成,而CaiT使用正常的自注意力模块来进行Class attention。


4实验


4.1 Image Classification

image.png

消融研究重点是XNorm的重要性,以及在3.3节中解释过的架构优化。作者试验了各种归一化方法。大多数其他归一化方法都不能减少损失。它可以是证明本文的理论解释是合理的隐性证据之一。有趣的是,应用single L2Norm的性能也很差。

用DeiT对三种具有相同结构设计方案的模型进行了实验。如图1所示,所有的模型都显示出比大多数基于Transformer的并发模型更高的性能和参数效率。此外,本文提出的模型在复杂性和数据效率方面有优势,而原始的ViT需要更大的额外数据集,如JFT-300M或ImageNet21k。

4.2 Object Detection with Mask R-CNN

比较CNN和基于Transformer的目标检测和实例分割任务。为了公平比较,所有结果的实验环境都是相同的。所有模型都是在ImageNet1k数据集上预训练的。

本文模型明显优于基于CNN的模型。而且,与容量较低的最先进的视觉Transformer相比,它们取得了更高或更有竞争力的结果。但是使用相同的设计空间,XCiT显示的结果稍微好一些。可能是XCiT模型有更大的嵌入空间d。UFO-ViT-B在bbox检测任务上的表现略低于UFO-ViT-M,但在较小的bbox和整体实例分割得分上更好。


5参考


[1].UFO-ViT: High Performance Linear Vision Transformer without Softmax

相关文章
|
4月前
|
机器学习/深度学习 计算机视觉 异构计算
【YOLOv8改进 - Backbone主干】FasterNet:基于PConv(部分卷积)的神经网络,提升精度与速度,降低参数量。
【YOLOv8改进 - Backbone主干】FasterNet:基于PConv(部分卷积)的神经网络,提升精度与速度,降低参数量。
|
4月前
|
计算机视觉 异构计算
【YOLOv8改进-SPPF】 AIFI : 基于注意力的尺度内特征交互,保持高准确度的同时减少计算成本
YOLOv8专栏介绍了该系列目标检测框架的最新改进与实战应用。文章提出RT-DETR,首个实时端到端检测器,解决了速度与精度问题。通过高效混合编码器和不确定性最小化查询选择,RT-DETR在COCO数据集上实现高AP并保持高帧率,优于其他YOLO版本。论文和代码已开源。核心代码展示了AIFI Transformer层,用于位置嵌入。更多详情见[YOLOv8专栏](https://blog.csdn.net/shangyanaf/category_12303415.html)。
|
5月前
|
机器学习/深度学习 算法 计算机视觉
【YOLOv8改进-损失函数】SlideLoss损失函数,解决样本不平衡问题
YOLO-FaceV2是基于YOLOv5的实时人脸检测模型,采用RFE模块增强小人脸检测,NWD损失处理定位偏差,SEAM注意力模块应对遮挡,Slide Loss解决样本不平衡,提升对难样本的关注。在WiderFace数据集上超越YOLO系列。论文和代码已公开。Slide Loss通过IoU加权,优化边界样本,提高模型性能。
|
6月前
|
机器学习/深度学习
RNN 和 Transformer 复杂度比较
RNN 和 Transformer 复杂度比较
152 0
|
6月前
|
人工智能 搜索推荐 物联网
DoRA(权重分解低秩适应):一种新颖的模型微调方法_dora模型
DoRA(权重分解低秩适应):一种新颖的模型微调方法_dora模型
338 0
|
6月前
|
机器学习/深度学习 编解码 自然语言处理
南开提出全新ViT | Focal ViT融会贯通Gabor滤波器,实现ResNet18相同参数,精度超8.6%
南开提出全新ViT | Focal ViT融会贯通Gabor滤波器,实现ResNet18相同参数,精度超8.6%
193 0
|
6月前
|
机器学习/深度学习 存储 算法
模型部署系列 | 卷积Backbone量化技巧集锦
模型部署系列 | 卷积Backbone量化技巧集锦
94 0
|
机器学习/深度学习
时间序列预测模型 MLP DNN网络详解 完整代码
时间序列预测模型 MLP DNN网络详解 完整代码
170 0
|
机器学习/深度学习 编解码 算法
What?UFO! | UFO-ViT用X-Norm让你的Transformer模型回归线性复杂度(一)
What?UFO! | UFO-ViT用X-Norm让你的Transformer模型回归线性复杂度(一)
120 0
|
数据可视化 计算机视觉
Inception 新结构 | 究竟卷积与Transformer如何结合才是最优的?(二)
Inception 新结构 | 究竟卷积与Transformer如何结合才是最优的?(二)
218 0