3、实验
3.1、消融实验
1、不同形式注意力的对比
为了验证提出的注意力的有效性,将RTFormer
块中使用的注意力替换为不同类型和组合。如表5a所示,给出了多头自注意力
、多头external attention
、GPU-Friendly attention
和交叉分辨注意力
的不同组合的结果。
例如,“GFA+CA”意味着在低分辨率分支中使用GFA,在高分辨率分支中则使用CA。此外,通过M=d×r调整了多头外部注意中的超参数M,其中r是一个缩减率。可以发现,GPU-Friendly attention
优于所有多头外部注意设置,并且在M=d时比最佳注意设置更快,同时,GPU-Friendly attention
比多头自注意力更有效,性能相当。
这表明,在类似GPU
的设备上,GPU-Friendly attention
比多头自注意力
和多头external attention
在性能和效率之间取得更好的平衡。当引入交叉分辨率注意力
时,性能会进一步提高,而FPS仅下降不到2。
2、不同形式的FFN的对比
表5b显示了由两个MLP
层和一个3×3深度卷积层组成的典型FFN
的结果,以及提出的包含两个3×3卷积层的FFN
。结果表明,提出的FFN
不仅在mIoU
上,而且在FPS上都优于典型的FFN
。这表明提出的FFN
更适合于应该考虑类GPU
设备延迟的情况。
3、分组双重标准化中组数的影响
研究了在使用GPU Friendly Attention
对两个分支进行分组双重标准化的情况下,分组数目的影响。表5c显示了不同配置的结果。例如,“8+2”表示在低分辨率分支中使用8个组,在高分辨率分支中则使用2个组。特别是,当组的数目设置为1时,分组的双重归一化会退化为原始的双重归一化。在这里,当组数为8和2时,可以获得最佳mIoU
,这说明分组的双重归一化比原始的双重归一化性能更好。值得注意的是,改变分组双重归一化中的组数并不影响推理效率,这使得GPU Friendly Attention
能够在组数较大时保持较高的FPS。
4、交叉特征的空间大小对交叉分辨率注意的影响
作者还研究了交叉分辨率注意力中交叉特征的空间大小,包括应用6×6、8×8和12×12。如表5d所示,根据FPS
和mIoU
之间的权衡,RTFormer Slim
的交叉特征的8×8空间大小是最佳的。在一定程度上,这表明与高分辨率特征尺寸相近的交叉特征的空间尺寸是合适的,因为RTFormer Slim
的高分辨率特征维数为64,等于8×8。
3.2、泛化性分析
表3显示了关于ADE20K
的结果。RTFormer Base
实现了42.1%的卓越mIoU
和71.4FPS,优于所有其他方法。例如,与DDRNet-23-Slim
相比,RTFormer Slim
实现了更好的mIoU
36.7%,并且保持了几乎相同的速度。图6显示了ADE20K
验证集的定性结果。与DDRNet-23
相比,RTFormer
显示了更好的细节和上下文信息。总之,这些结果表明,RTFormer
在广义场景中的实时语义分割方面也显示出非常有前景的性能。在COCOStuff
上,如表4所示,RTFormer Base
以143.3 FPS的速度达到35.3 mIoU
,以相当的推理速度超过DDRNet-23
约3%,并创下了新的一流水平。
3.3、SOTA对比
3.4、分类实验对比
4、参考
[1].RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer.
5、推荐阅读
即插即用 | CNN与Transformer都通用的Trick,即插即涨点即提速!