3实验
3.1 图像分类
架构设计
结果表明,第3阶段的替换效果最好,ResNet-34的top-1准确率为+1.2%,ResNet-50的top-1准确率为+0.9%。作者怀疑第4阶段替换的性能较差ResNet-50可以归因于可学习参数的增加,这减慢了网络的收敛。
3.2 目标检测
特别是,本文所提X-volution(SA)实现了最好的性能,与ResNet-50相比增加了+1.7boxes AP。通过结合低阶局部特征和高阶长依赖,所提出的X-volution算子比单独的卷积或自注意力算子具有更高的精度。
结果表明,图完备原子算符有助于视觉理解,而现有的计算算符忽略了这一性质。此外,基于PSSA的X-volution也取得了与X-volution(SA)相当的性能,表明在X-volution模块中,近似效果良好,对硬件实现和计算更加友好。
3.3 语义分割
可以观察到,作者提出的X-volution比其他算子的性能要好很多。其中,X-volution(SA)实现了41.1 box AP和37.2 mask AP。
4参考
[1].X-volution: On the Unification of Convolution and Self-attention.