3、LSCM and LCCM
3.1、LSCM
上下文表述的任务是收获周围的信息,这始终是通过全局池化来完成的。尽管产生了代表整个图像的 High-Level
特征,但此类网络的表示形式无法提供 element-wise
交互。许多替代方法都用于使用密集的注意力图来捕获全局上下文,其中每个像素的重要性都由所有其他像素编码。但是,这些方法需要大量计算。
作为ASU
的核心单元,LSCM
充分利用了计算效率和表示能力。直观地说,有两种方法可以节省计算成本:减少元素的数量和减少特征维度。因此,介绍LSCM
在这两个方面的工作原理。
LSCM
的详细结构如图4(a)所示。令 为输入特征,其中W,H和C分别代表输入 F 的宽度,高度和通道数。为了减少图像元素,首先将池化操作应用于输入特征 F,产生紧凑的表示,其中R中的每个元素代表一个包括像素的图像区域然后,将两个特征 F 和 R flattened 为2个 2D 序列和,促进了后续空间注意力和通道注意力的计算。
在空间注意力中,首先学习2个线性投影,以将输入序列x和x'投射到2个低维嵌入和,其中r是控制特征压缩比的非负尺度因子:
之后,使用和之间的矩阵乘积计算空间像素到区域相关性,该矩阵乘积顺序依次经过线性投影,层归一化ln(·)和sigmoid函数σ(·),产生最终的空间注意力图:
在通道注意中,为了减少特征维度,首先学会了线性投影,以将输入序列x'映射到低维嵌入中,其中中的每个通道代表一组 X' 中的 r 通道。 另一方面,另一个线性投影 还将输入序列x'映射到:
接下来,类似于空间注意力,使用和之间的矩阵乘积计算通道到组通道相关性,该矩阵乘积依次经过线性投影,层归一化LN(·)和Sigmoid 函数σ(·),产生最终通道注意力图:
最后,利用学习到的空间注意力图和通道注意力图分别对输入序列X进行加权,然后使用元素相加进行融合,从而产生了融合特征特征:
其中和分别是元素的相加和相乘。请注意,两个注意力映射和分别以列重新加权和行重新加权的方式与输入序列X相乘。最终,产生的序列被reshape为,与输入特征 F 具有相等的维度。
作者还分析了所提出的 LSCM
的计算复杂度,并将其与最近的自注意力网络进行了比较,因为它们在研究全局依赖性方面都具有强大的表示能力。表2报告了将包括空间注意力和通道注意力放在一起的比较结果。
为了清晰起见只考虑了空间注意力。以前的方法和 LSCM
都涉及两个计算步骤:计算元素上的相似性和重新加权输入特征。在自注意力中,计算密集的空间注意力和重写特征都需要操作,从而导致输入分辨率的二次复杂度。相反,LSCM
只需要与输入分辨率呈线性关系的操作,因为使用全局池化已经大大减少了特征元素。此外,由于生成的注意力图非常简单,重新加权过程只需要操作,而不是自注意力中的。
3.2、LCCM
这里作者将 LSCM
扩展到多个输入版本(称为LCCM
),在Neck
中用于结合多尺度特征。LCCM
以双向方式工作:自上而下和自下而上,分别表示为 LCCM-TD
和 LCCM-BU
。由于它们以类似的方式工作,因此只详细介绍LCCM-TD
,然后指出其与 LCCM-BU
的主要差异。
LCCM-TD
的详细体系结构如图4(b)所示。通常,LCCM-TD
与 LSCM
共享相似的结构,但两个具有不同分辨率的输入。令和分别为高分辨率和低分辨率输入特征。此处,,因为和来自相邻的scale
卷积层。
为了探索跨层相互作用并节省计算成本,必须使用全局池化
在同一时间缩小和的分辨率,然后将2个2D序列和。注意。同时,输入特征也被flattened为2D序列,随后可以按照空间和通道注意力来参与计算。
在空间注意力中,输入特征和经过两个线性投影,分别得到两个低维嵌入和,其中,r是控制特征压缩比的非负比例因子:
之后,使用和之间的矩阵乘积结果计算空间跨层相互作用,这些矩阵乘积被依次馈送到线性投影和Sigmoid
,产生最终空间注意力图:
在通道注意中,线性投影首先将输入序列映射到低维嵌入中。 然后,另一个线性投影 将输入序列映射到:
接下来,类似于空间注意力,使用和矩阵乘积计算跨层相关性,该矩阵乘积依次经过线性投影,层归一化LN
和Sigmoid
,产生最终通道注意力图:
此后,学习的空间注意力图和通道注意图分别对高分辨率输入进行甲醛,并使用元素相加来进行融合,从而产生融合特征:
整个重新加权过程是一种残差功能,以端到端的方式促进培训LCCM-TD
:
请注意,等式(10)中的两个加权操作分别与LSCM
相似。 最终,生成的序列被reshape
为,相对于输入特征,尺寸相等的尺寸,如图2所示。
关于LCCM-BU
,其详细体系结构如图4(c)所示。 对于LCCM-TD
,只有一个差异:当计算空间注意力时,分辨率必须被降采样两次,以进行精确的重新加权和 identity
映射。
4、实验
4.1、SOTA对比
4.2、可视化效果
5、参考
[1].DPNet: Dual-Path Network for Real-time Object Detection with Lightweight Attention
6、推荐阅读
必备技能 | YOLOv6中的用Channel-wise Distillation进行的量化感知训练来自哪里?