全面超越Swin Transformer | Facebook用ResNet思想升级MViT(二)

简介: 全面超越Swin Transformer | Facebook用ResNet思想升级MViT(二)

4实验


4.1 消融实验

1、不同的注意力机制

通过上表关于ImageNet分类和COCO目标检测的实验可以看出,本文提出的HSwin注意力与Pooling可以得到最好性能的结果。

2、位置嵌入

上表比较了不同位置嵌入。可以观察到:

  • 比较(2)与(1),绝对位置仅比无位置略有提高。这是因为pool操作符已经建模了位置信息。
  • (2)比较(3,4)和(1,2),相对位置通过引入转移不变性先验来Pooling Attention,从而带来收益。
  • 最后,在COCO上分解的相对位置嵌入序列比joint相对位置快3.9倍。

3、池化残差连接

image.png

上表研究了池化残差连接的重要性。可以看到:

  • (2)简单地添加残差路径可以改善这两种情况的结果IN-1K(+0.3%)和COCO(+0.8 APbox)的成本可以忽略不计。
  • (3)使用池化残差连接,并在所有其他层中添加Q pooled(stride=1),性能得到显著的提升,特别是在COCO(+1.4 APbox)上。这表明在MViT中,Q pooled块和残差路径都是必要的。
  • (4)仅仅添加(没有残差)更多的Q pooled层stride=1没有帮助。

4、运行时间比较

image.png

5、FPN消融

image.png

如表所示,FPN显著提高了两种Backbone的性能,而MViT-S始终优于ViT-B。MViT-S的FPN增益(+2.9)比ViT-B(+1.5 APbox)大得多,这表明了分层多尺度设计对于密集目标检测任务的有效性。

4.2 ImageNet-1K

image.png

4.3 COCO目标检测

4.4 视频识别


5参考


[1].Improved Multiscale Vision Transformers for Classification and Detection

相关文章
|
计算机视觉
Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地,超越ResNet、CSWin(二)
Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地,超越ResNet、CSWin(二)
112 0
|
机器学习/深度学习 编解码 计算机视觉
Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地,超越ResNet、CSWin(一)
Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地,超越ResNet、CSWin(一)
197 0
|
机器学习/深度学习 编解码 数据可视化
超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer
超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer
161 0
|
机器学习/深度学习 vr&ar 计算机视觉
ShiftViT用Swin Transformer的精度跑赢ResNet的速度,论述ViT的成功不在注意力!(二)
ShiftViT用Swin Transformer的精度跑赢ResNet的速度,论述ViT的成功不在注意力!(二)
218 0
|
机器学习/深度学习 自然语言处理 算法
ShiftViT用Swin Transformer的精度跑赢ResNet的速度,论述ViT的成功不在注意力!(一)
ShiftViT用Swin Transformer的精度跑赢ResNet的速度,论述ViT的成功不在注意力!(一)
217 0
|
机器学习/深度学习 编解码 数据可视化
全面超越Swin Transformer | Facebook用ResNet思想升级MViT(一)
全面超越Swin Transformer | Facebook用ResNet思想升级MViT(一)
275 0
卷爆了 | 看SPViT把Transformer结构剪成ResNet结构!!!(二)
卷爆了 | 看SPViT把Transformer结构剪成ResNet结构!!!(二)
213 0
|
6月前
|
机器学习/深度学习 PyTorch 测试技术
|
21天前
|
机器学习/深度学习 编解码 自然语言处理
ResNet(残差网络)
【10月更文挑战第1天】
|
机器学习/深度学习 算法 计算机视觉
经典神经网络论文超详细解读(五)——ResNet(残差网络)学习笔记(翻译+精读+代码复现)
经典神经网络论文超详细解读(五)——ResNet(残差网络)学习笔记(翻译+精读+代码复现)
3478 1
经典神经网络论文超详细解读(五)——ResNet(残差网络)学习笔记(翻译+精读+代码复现)

热门文章

最新文章