超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!(二)

简介: 超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!(二)

3、LSCM and LCCM


image.png

3.1、LSCM

上下文表述的任务是收获周围的信息,这始终是通过全局池化来完成的。尽管产生了代表整个图像的 High-Level 特征,但此类网络的表示形式无法提供 element-wise 交互。许多替代方法都用于使用密集的注意力图来捕获全局上下文,其中每个像素的重要性都由所有其他像素编码。但是,这些方法需要大量计算。

作为ASU的核心单元,LSCM充分利用了计算效率和表示能力。直观地说,有两种方法可以节省计算成本:减少元素的数量和减少特征维度。因此,介绍LSCM在这两个方面的工作原理。

LSCM 的详细结构如图4(a)所示。令  为输入特征,其中W,H和C分别代表输入 F 的宽度,高度和通道数。为了减少图像元素,首先将池化操作应用于输入特征 F,产生紧凑的表示,其中R中的每个元素代表一个包括像素的图像区域然后,将两个特征 F 和 R flattened 为2个 2D 序列和,促进了后续空间注意力和通道注意力的计算。

在空间注意力中,首先学习2个线性投影,以将输入序列x和x'投射到2个低维嵌入和,其中r是控制特征压缩比的非负尺度因子:

image.png

之后,使用和之间的矩阵乘积计算空间像素到区域相关性,该矩阵乘积顺序依次经过线性投影,层归一化ln(·)和sigmoid函数σ(·),产生最终的空间注意力图:

image.png

在通道注意中,为了减少特征维度,首先学会了线性投影,以将输入序列x'映射到低维嵌入中,其中中的每个通道代表一组 X' 中的 r 通道。 另一方面,另一个线性投影  还将输入序列x'映射到:

image.png

接下来,类似于空间注意力,使用和之间的矩阵乘积计算通道到组通道相关性,该矩阵乘积依次经过线性投影,层归一化LN(·)和Sigmoid 函数σ(·),产生最终通道注意力图:

最后,利用学习到的空间注意力图和通道注意力图分别对输入序列X进行加权,然后使用元素相加进行融合,从而产生了融合特征特征:

其中和分别是元素的相加和相乘。请注意,两个注意力映射和分别以列重新加权和行重新加权的方式与输入序列X相乘。最终,产生的序列被reshape为,与输入特征 F 具有相等的维度。

作者还分析了所提出的 LSCM 的计算复杂度,并将其与最近的自注意力网络进行了比较,因为它们在研究全局依赖性方面都具有强大的表示能力。表2报告了将包括空间注意力和通道注意力放在一起的比较结果。

为了清晰起见只考虑了空间注意力。以前的方法和 LSCM 都涉及两个计算步骤:计算元素上的相似性和重新加权输入特征。在自注意力中,计算密集的空间注意力和重写特征都需要操作,从而导致输入分辨率的二次复杂度。相反,LSCM只需要与输入分辨率呈线性关系的操作,因为使用全局池化已经大大减少了特征元素。此外,由于生成的注意力图非常简单,重新加权过程只需要操作,而不是自注意力中的。

3.2、LCCM

这里作者将 LSCM 扩展到多个输入版本(称为LCCM),在Neck中用于结合多尺度特征。LCCM 以双向方式工作:自上而下和自下而上,分别表示为 LCCM-TDLCCM-BU。由于它们以类似的方式工作,因此只详细介绍LCCM-TD,然后指出其与 LCCM-BU 的主要差异。

LCCM-TD 的详细体系结构如图4(b)所示。通常,LCCM-TDLSCM 共享相似的结构,但两个具有不同分辨率的输入。令和分别为高分辨率和低分辨率输入特征。此处,,因为和来自相邻的scale卷积层。

为了探索跨层相互作用并节省计算成本,必须使用全局池化在同一时间缩小和的分辨率,然后将2个2D序列和。注意。同时,输入特征也被flattened为2D序列,随后可以按照空间和通道注意力来参与计算。

在空间注意力中,输入特征和经过两个线性投影,分别得到两个低维嵌入和,其中,r是控制特征压缩比的非负比例因子:

之后,使用和之间的矩阵乘积结果计算空间跨层相互作用,这些矩阵乘积被依次馈送到线性投影和Sigmoid,产生最终空间注意力图:

在通道注意中,线性投影首先将输入序列映射到低维嵌入中。 然后,另一个线性投影 将输入序列映射到:

接下来,类似于空间注意力,使用和矩阵乘积计算跨层相关性,该矩阵乘积依次经过线性投影,层归一化LNSigmoid,产生最终通道注意力图:

此后,学习的空间注意力图和通道注意图分别对高分辨率输入进行甲醛,并使用元素相加来进行融合,从而产生融合特征:

整个重新加权过程是一种残差功能,以端到端的方式促进培训LCCM-TD

请注意,等式(10)中的两个加权操作分别与LSCM相似。 最终,生成的序列被reshape为,相对于输入特征,尺寸相等的尺寸,如图2所示。

关于LCCM-BU,其详细体系结构如图4(c)所示。 对于LCCM-TD,只有一个差异:当计算空间注意力时,分辨率必须被降采样两次,以进行精确的重新加权和 identity 映射。


4、实验


4.1、SOTA对比

4.2、可视化效果


5、参考


[1].DPNet: Dual-Path Network for Real-time Object Detection with Lightweight Attention


6、推荐阅读


必备技能 | YOLOv6中的用Channel-wise Distillation进行的量化感知训练来自哪里?

All are Worth Words | 当 ViT 遇到扩展模型会出现什么样子的火花?

Light-YOLOv5 | SepViT + BiFPN + SIoU成就更轻更快更优秀的 YOLOv5 改进算法

相关文章
|
算法 Go 文件存储
DAMO-YOLO: 兼顾速度与精度的新目标检测框架
我们团队最近开源了DAMO-YOLO!其效果达到了YOLO系列的SOTA,欢迎各位试用!​简介DAMO-YOLO是一个兼顾速度与精度的目标检测框架,其效果超越了目前的一众YOLO系列方法,在实现SOTA的同时,保持了很高的推理速度。DAMO-YOLO是在YOLO框架基础上引入了一系列新技术,对整个检测框架进行了大幅的修改。具体包括:基于NAS搜索的新检测backbone结构,更深的neck结构,精
1094 0
DAMO-YOLO: 兼顾速度与精度的新目标检测框架
|
机器学习/深度学习 编解码 固态存储
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!
754 0
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!
|
5月前
|
机器学习/深度学习 存储 自动驾驶
基于YOLOv8深度学习的高精度车辆行人检测与计数系统【python源码+Pyqt5界面+数据集+训练代码】目标检测、深度学习实战
基于YOLOv8深度学习的高精度车辆行人检测与计数系统【python源码+Pyqt5界面+数据集+训练代码】目标检测、深度学习实战
|
机器学习/深度学习 算法 自动驾驶
YOLOX-PAI:加速YOLOX,比YOLOV6更快更强
本文,我们将逐一介绍所探索的相关改进与消融实验结果,如何基于PAI-EasyCV使用PAI-Blade优化模型推理过程,及如何使用PAI-EasyCV进行模型训练、验证、部署和端到端推理。欢迎大家关注和使用PAI-EasyCV和PAI-Blade,进行简单高效的视觉算法开发及部署任务。
|
机器学习/深度学习 人工智能 监控
基于深度学习的人群密度检测系统(UI界面+YOLOv5+训练数据集)
基于深度学习的人群密度检测系统(UI界面+YOLOv5+训练数据集)
698 0
|
机器学习/深度学习 编解码 固态存储
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!(一)
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!(一)
561 0
|
数据挖掘
CSL-YOLO | 超越Tiny-YOLO V4,全新设计轻量化YOLO模型实现边缘实时检测!!!(二)
CSL-YOLO | 超越Tiny-YOLO V4,全新设计轻量化YOLO模型实现边缘实时检测!!!(二)
166 0
|
机器学习/深度学习 边缘计算 Go
CSL-YOLO | 超越Tiny-YOLO V4,全新设计轻量化YOLO模型实现边缘实时检测!!!(一)
CSL-YOLO | 超越Tiny-YOLO V4,全新设计轻量化YOLO模型实现边缘实时检测!!!(一)
244 0
|
编解码 人工智能 数据可视化
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!(二)
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!(二)
245 0
|
机器学习/深度学习 编解码 算法
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!(一)
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!(一)
267 0