Inception 新结构 | 究竟卷积与Transformer如何结合才是最优的？（二）-阿里云开发者社区

Inception 新结构 | 究竟卷积与Transformer如何结合才是最优的？（二）

2023-05-24 166

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Inception 新结构 | 究竟卷积与Transformer如何结合才是最优的？（二）

3实验

3.1 消融实验

1、Inception token mixer

表 5

为了评估Inception mixer中组件的效果，越来越多地从完整模型中删除每个分支，然后在表 5 中报告结果，其中 √ 和 × 表示是否启用了相应的分支。可以观察到，将注意力与卷积和最大池化相结合可以比仅注意力混合器获得更好的准确度，同时使用更少的计算复杂度，这暗示了 Inception Token Mixer 的有效性。

图4

为了进一步探索这个方案，图 4 可视化了 Inception mixer 中 Attention、MaxPool 和 DwConv 分支的傅里叶谱。可以看到Attention mixer在低频上有更高的浓度；使用high-frequency mixer，即卷积和最大池可以促使模型学习高频信息。

总体而言，这些结果证明了 Inception mixer 在扩展 Transformer 在频谱中的感知能力方面的有效性。

2、Frequency ramp structure

表5

在表5中可以清楚地看到，具有 Cl/C↑、Ch/C↓ 的模型优于其他两个模型，这与之前的研究一致。因此，这表明了Frequency ramp structure的合理性及其在学习辨别视觉表征方面的潜力。

3、可视化

图 5

在图 5 中可视化了 iFormer-S 和 Swin-T 模型在 ImageNet-1K 上训练的 Grad-CAM 激活图。可以看出，与Swin相比，iFormer能够更准确、更完整地定位物体。例如，在蜂鸟图像中，iFormer 会跳过树枝并准确地关注包括尾巴在内的整只鸟。