3实验
3.1 消融实验
1、Inception token mixer
表 5
为了评估Inception mixer
中组件的效果,越来越多地从完整模型中删除每个分支,然后在表 5 中报告结果,其中 √ 和 × 表示是否启用了相应的分支。可以观察到,将注意力与卷积和最大池化相结合可以比仅注意力混合器获得更好的准确度,同时使用更少的计算复杂度,这暗示了 Inception Token Mixer
的有效性。
图4
为了进一步探索这个方案,图 4 可视化了 Inception mixer
中 Attention
、MaxPool
和 DwConv
分支的傅里叶谱。可以看到Attention mixer
在低频上有更高的浓度;使用high-frequency mixer
,即卷积和最大池可以促使模型学习高频信息。
总体而言,这些结果证明了 Inception mixer
在扩展 Transformer
在频谱中的感知能力方面的有效性。
2、Frequency ramp structure
表5
在表5中可以清楚地看到,具有 Cl/C↑、Ch/C↓ 的模型优于其他两个模型,这与之前的研究一致。因此,这表明了Frequency ramp structure
的合理性及其在学习辨别视觉表征方面的潜力。
3、可视化
图 5
在图 5 中可视化了 iFormer-S
和 Swin-T
模型在 ImageNet-1K 上训练的 Grad-CAM
激活图。可以看出,与Swin
相比,iFormer
能够更准确、更完整地定位物体。例如,在蜂鸟图像中,iFormer
会跳过树枝并准确地关注包括尾巴在内的整只鸟。
3.2 图像分类
3.3 目标检测与实例分割
3.4 语义分割
4参考
[1].Inception Transformer
5推荐阅读
即插即用 | SIoU 实现50.3 AP+7.6ms检测速度精度、速度完美超越YoloV5、YoloX