全面超越Swin Transformer | Facebook用ResNet思想升级MViT（二）-阿里云开发者社区

全面超越Swin Transformer | Facebook用ResNet思想升级MViT（二）

2023-05-23 168

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 全面超越Swin Transformer | Facebook用ResNet思想升级MViT（二）

4实验

4.1 消融实验

1、不同的注意力机制

通过上表关于ImageNet分类和COCO目标检测的实验可以看出，本文提出的HSwin注意力与Pooling可以得到最好性能的结果。

2、位置嵌入

上表比较了不同位置嵌入。可以观察到:

比较(2)与(1)，绝对位置仅比无位置略有提高。这是因为pool操作符已经建模了位置信息。
(2)比较(3,4)和(1,2)，相对位置通过引入转移不变性先验来Pooling Attention，从而带来收益。
最后，在COCO上分解的相对位置嵌入序列比joint相对位置快3.9倍。

3、池化残差连接

上表研究了池化残差连接的重要性。可以看到：

(2)简单地添加残差路径可以改善这两种情况的结果IN-1K(+0.3%)和COCO(+0.8 APbox)的成本可以忽略不计。
(3)使用池化残差连接，并在所有其他层中添加Q pooled(stride=1)，性能得到显著的提升，特别是在COCO(+1.4 APbox)上。这表明在MViT中，Q pooled块和残差路径都是必要的。
(4)仅仅添加(没有残差)更多的Q pooled层stride=1没有帮助。

4、运行时间比较

5、FPN消融

如表所示，FPN显著提高了两种Backbone的性能，而MViT-S始终优于ViT-B。MViT-S的FPN增益(+2.9)比ViT-B(+1.5 APbox)大得多，这表明了分层多尺度设计对于密集目标检测任务的有效性。

4.2 ImageNet-1K

4.3 COCO目标检测

4.4 视频识别

5参考

[1].Improved Multiscale Vision Transformers for Classification and Detection

全面超越Swin Transformer | Facebook用ResNet思想升级MViT（二）

4实验

4.1 消融实验

1、不同的注意力机制

2、位置嵌入

3、池化残差连接

4、运行时间比较

5、FPN消融

4.2 ImageNet-1K

4.3 COCO目标检测

4.4 视频识别

5参考

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

全面超越Swin Transformer | Facebook用ResNet思想升级MViT（二）

4实验

4.1 消融实验

1、不同的注意力机制

2、位置嵌入

3、池化残差连接

4、运行时间比较

5、FPN消融

4.2 ImageNet-1K

4.3 COCO目标检测

4.4 视频识别

5参考

热门文章

最新文章

相关课程

相关电子书

相关实验场景