4实验
4.1 消融实验
1、不同的注意力机制
通过上表关于ImageNet分类和COCO目标检测的实验可以看出,本文提出的HSwin注意力与Pooling可以得到最好性能的结果。
2、位置嵌入
上表比较了不同位置嵌入。可以观察到:
- 比较(2)与(1),绝对位置仅比无位置略有提高。这是因为pool操作符已经建模了位置信息。
- (2)比较(3,4)和(1,2),相对位置通过引入转移不变性先验来Pooling Attention,从而带来收益。
- 最后,在COCO上分解的相对位置嵌入序列比joint相对位置快3.9倍。
3、池化残差连接
上表研究了池化残差连接的重要性。可以看到:
- (2)简单地添加残差路径可以改善这两种情况的结果IN-1K(+0.3%)和COCO(+0.8 APbox)的成本可以忽略不计。
- (3)使用池化残差连接,并在所有其他层中添加Q pooled(stride=1),性能得到显著的提升,特别是在COCO(+1.4 APbox)上。这表明在MViT中,Q pooled块和残差路径都是必要的。
- (4)仅仅添加(没有残差)更多的Q pooled层stride=1没有帮助。
4、运行时间比较
5、FPN消融
如表所示,FPN显著提高了两种Backbone的性能,而MViT-S始终优于ViT-B。MViT-S的FPN增益(+2.9)比ViT-B(+1.5 APbox)大得多,这表明了分层多尺度设计对于密集目标检测任务的有效性。
4.2 ImageNet-1K
4.3 COCO目标检测
4.4 视频识别
5参考
[1].Improved Multiscale Vision Transformers for Classification and Detection