3实验
3.1 消融实验
1、Effect of the architecture design
表 2
结果如表 2 所示。总的来说,LIT
在使用更少的 FLOP(3.6G 与 3.8G)的同时,将PVT-S
的Top-1精度提高了0.6%。对于Swin-Ti
将 FLOPs 减少了0.4G,同时实现了同等性能。
还值得注意的是,PVT-S
和 Swin-Ti
的参数总数都减少了。整体性能证明了所提出架构的有效性,这也强调了早期MSA
在PVT
和Swin
中的微小优势。
2、Effect of deformable token merging
表 3
结果如表 3 所示。对于这2个模型,DTM 引入了可忽略的 FLOP 和参数,同时在 Top-1 精度方面分别将 PVT-S 和 Swin-Ti 提高了 0.7% 和 0.3%。
图 2
此外,在图 2 中可视化了学习到的偏移量。如图所示,与之前的统一Patch Merge
策略不同,之前的统一Patch Merge
策略将采样位置限制在绿色矩形内,DTM 根据对象的比例和形状(例如,考拉腿、猫尾巴)。这再次强调了LIT
适应各种几何变换的能力。
3、Effect of MSA in each stage
结果如表4所示。首先,在用标准MSA
层替换PVT-S
中的SRA
层后,观察到 Top-1 准确度提高了1.1%,而FLOPs几乎翻了一番。这表明PVT
在性能和效率之间进行了权衡。
接下来,通过在前2个阶段逐步去除MSA
层,Top-1准确率仅分别下降了0.1%、0.5%。这意味着 PVT 早期阶段的self-attention
层对最终性能的贡献低于预期,并且它们的性能并不比纯MLP
层好多少。这可以归因于浅层更多地关注编码局部信息的事实。
然而,可以观察到在最后2个阶段移除self-attention
时性能大幅下降。结果表明,self-attention
层在后期发挥着重要作用,捕获长距离依赖对于表现良好的分层视觉Transformer
至关重要。
图 3
为了更好地理解这一现象,在不移除任何MSA
层的情况下可视化PVT-S
的注意力概率,如图3所示。首先,第1阶段的注意力图显示query
像素几乎不注意其他位置。
在第2阶段,query
像素的感受野略有扩大,但与第1阶段相似。考虑到PVT-S
在第1阶段只有1个head,在第2阶段只有2个head
,这有力地支持了作者的假设:MSA
层中过少的head
会导致较小的感受野,此时self-attention
几乎等同于FC层。
此外,从最后2个阶段的注意力图中观察到相对较大的感受野。由于大的感受野通常有助于对更长的依赖关系进行建模,这解释了在最后2个阶段移除MSA
层后表4中的巨大性能下降。
3.2 分类
3.3 目标检测
3.4 实例分割
3.5 语义分割
4参考
[1].Less is More: Pay Less Attention in Vision Transformers
5推荐阅读
分割冠军 | 超越Swin v2、PvT v2等模型,ViT-Adaptiver实现ADE20K冠军60.5mIoU