3实验
3.1 消融实验
1、HiLo与其他注意力机制的比较
基于 LITv2-S
,将 HiLo
的性能与 ImageNet-1K
上的其他有效注意力机制进行了比较,包括 PVT
中的空间缩减注意力 (SRA
)、Swin
中的基于移位窗口的注意力 (W-MSA
) 以及Twins
z中的交替的局部和全局注意力 (T-MSA
)。
表 4
在实现中,直接用每个比较方法替换 HiLo
。结果如表 4 所示。总的来说,HiLo
减少了更多的 FLOPs
,同时实现了更好的性能和更快的速度。
图3
此外,在图 3 中,提供了基于不同图像分辨率的更多注意力机制的综合基准,包括 Focal
、QuadTree
和 Performer
。由于并行性较弱,它们甚至比在 GPU 上使用标准 MSA
还要慢。与它们相比,HiLo
在 FLOPs
、吞吐量
和内存消耗
方面取得了具有竞争力的结果。
2、α的影响
图 4
如图 4 所示,由于在 224 × 224 的分辨率和窗口大小为2的情况下,Lo-Fi
的复杂度低于 Hi-Fi
,因此更大的 α 有助于减少更多的 FLOPs
,因为将更多的Head
分配给 Lo-Fi
。
此外,作者发现 HiLo
在 α = 0 时表现不佳,在这种情况下,只剩下 Hi-Fi
,HiLo
只关注高频。作者推测低频在自注意力中起着重要作用。对于其他 α 值,作者发现性能差异约为 0.2%,其中 α = 0.9 实现了最佳性能。
3、架构修改的影响
表 5
基于 LITv2-S
探索架构修改的效果。如表 5 所示,受益于早期扩大的感受野,深度卷积的采用提高了 ImageNet
和 COCO
的性能。接下来,通过去除相对位置编码提高了密集预测任务的 FPS
,但在两个数据集上的性能略有下降。
另注意,由于深度卷积通过零填充对位置信息进行了编码,因此与之前的工作相比,RPE
的消除不会导致性能显着下降。最后,得益于 HiLo
,在 ImageNet
和 COCO
上都获得了更多的模型效率提升。
4、HiLo光谱分析
图 5
在图 5 中,分别可视化了来自 Hi-Fi
和 Lo-Fi
注意力的输出特征图的频率幅度。可视化表明 Hi-Fi
捕获更多的高频,而 Lo-Fi
主要侧重于低频。这与在单个注意力层分离特征图中的高频和低频的目标非常一致。
3.2 图像分类
3.3 目标检测与实例分割
3.4 语义分割
4参考
[1].Fast Vision Transformers with HiLo Attention
5推荐阅读
即插即用 | SIoU 实现50.3 AP+7.6ms检测速度精度、速度完美超越YoloV5、YoloX