3.4、创新空间注意力与标准卷积
RFA是为了解决空间注意力机制问题而提出的,创新了空间注意力。使用与RFA相同的思想,一系列空间注意力机制可以再次提高性能。RFA设计的卷积运算可以被视为一种轻量级的即插即用模块,以取代标准卷积,从而提高卷积神经网络的性能。因此,作者认为空间注意力机制和标准卷积在未来将有一个新的春天。
感受野的空间特征:
现在给出感受野空间特征的定义。它是专门为卷积核设计的,并根据kernel大小动态生成,如图2所示,以3×3卷积核为例。
在图2中,“空间特征”表示原始特征图,等于空间特征。“感受野空间特征”表示变换后的特征,该特征由每个感受野slider滑块组成,并且不重叠。也就是说,“感受野空间特征”中的每个3×3大小的slider表示提取原始3×3卷积特征时所有感觉野slider的特征。
感受野注意力卷积(RFA):
关于感受野空间特征,作者提出了感受野注意(RFA),它不仅强调了感受野slider内各种特征的重要性,而且还关注感受野空间特性,以彻底解决卷积核参数共享的问题。感受野空间特征是根据卷积核的大小动态生成的,因此,RFA是卷积的固定组合,不能脱离卷积运算的帮助,卷积运算同时依赖RFA来提高性能。
因此,作者提出了感受野注意力卷积(RFAConv)。具有3×3大小卷积核的RFAConv的总体结构如图3所示。
目前,提取感受野特征最常用的方法速度较慢,因此经过不断探索提出了一种快速的方法,通过分组卷积来取代原来的方法。
具体来说,根据感受野大小,使用相应的组卷积大小来动态生成展开特征。尽管与原始的无参数方法(如Pytorch提供的nn.Unfld())相比,该方法添加了一些参数,但速度要快得多。
注意:正如在上一节中提到的,当原始的3×3卷积核提取特征时,感受野空间特征中的每个3×3大小的窗口表示所有感受野滑块的特征。但在快速分组卷积提取感受野特征后,由于原始方法太慢,它们会被映射到新的特征中。
最近的一些工作已经证明信息交互可以提高网络性能。类似地,对于RFAConv,与感受野特征信息交互以学习注意力图可以提高网络性能,但与每个感受野特征交互将带来额外的计算开销。为了确保少量的计算开销和参数数量,通过探索使用AvgPool池化每个感受野特征的全局信息,然后通过1×1组卷积运算与信息交互。最后,softmax用于强调感受野特征中每个特征的重要性。通常,RFA的计算可以表示为:
表示分组卷积,表示卷积核的大小,代表规范化,表示输入特征图,是通过将注意力图与变换的感受野空间特征相乘而获得的。
与CBAM和CA不同,RFA可以为每个感受野特征生成注意力图。标准卷积受到卷积神经网络性能的限制,因为共享参数的卷积运算对位置带来的差异信息不敏感。RFA完全可以解决这个问题,具体细节如下:
由于RFA获得的特征图是“调整形状”后不重叠的感受野空间特征,因此通过池化每个感受野滑块的特征信息来学习学习的注意力图。换句话说,RFA学习的注意力图不再在每个感受野slider内共享,并且是有效的。这完全解决了现有的CA和CBAM对大尺寸kernel的注意力机制中的参数共享问题。
同时,RFA给标准卷积核带来了相当大的好处,但调整形状后,特征的高度和宽度是k倍,需要进行k×k的stride卷积运算,才能提取特征信息。RFAConv创新了标准卷积运算。
此外,空间注意力机制将得到升级,因为作者认为现有的空间注意力机制应该专注于感受野空间特征,以提高网络的性能。众所周知,基于自注意力机制的网络模型取得了巨大的成功,因为它解决了卷积参数共享的问题,并对远程信息进行了建模,但基于自注意力机理的方法给模型带来了巨大的计算开销和复杂性。作者认为通过将一些现有空间注意力机制的注意力放在感受野空间特征中,它以轻量级的方式解决了自注意力机制的问题。
答案如下:
- 将关注感受野空间特征的空间注意力与卷积相匹配,完全解决了卷积参数共享的问题;
- 当前的空间注意力机制本身具有考虑远距离信息的特点,它们通过全局平均池化或全局最大池化来获得全局信息,这在一定程度上考虑了远距离信息。
为此,作者设计了一种新的CBAM和CA,称为RFACBAM和RFACA,它专注于感受野的空间特征。与RFA类似,使用stride为k的k×k的最终卷积运算来提取特征信息,具体结构如图4和图5所示,将这2种新的卷积方法称为RFCBAMConv和RFCAConv。比较原始的CBAM,使用SE注意力来代替RFCBAM中的CAM。因为这样可以减少计算开销。
此外,在RFCBAM中,通道和空间注意力不是在单独的步骤中执行的,因为通道和空间注意力是同时加权的,从而允许在每个通道上获得的注意力图是不同的。
4、实验
4.1、Imagenet-1k
4.2、COCO2017
4.3、语义分割
5、参考
[1].RFAConv: Innovating Spatital Attention and Standard Convolutional Operation.