论文题目:
Asymmetric Contextual Modulation for Infrared Small Target Detection 红外小目标检测中的非对称上下文调制
红外小目标数据集
目标个数分布:约90%图片中只有一个目标,约10%图片有多个目标(在稀疏/显著的方法中,可能会因全局独特的假设而被忽略)
目标面积分布:约55%的目标面积占比在0.02%之内(即300300的图片中,目标像素为33)
目标亮度分布:仅有35%的目标亮度是全图最亮。考虑到65%的目标具有与背景非常相似甚至更暗的亮度。
数据集:链接:https://pan.baidu.com/s/1dwLWwtlQcETiKU_4deJvUA?pwd=zwzs
提取码:zwzs
1摘要
首先贡献了一个具有高质量注释的开放数据集。提出了一种非对称上下文调制模块,专门用于检测红外小目标。
2介绍
问题:
1、缺乏公共数据集:深度学习需要数据。
2、最小的内在信息:SPIE将红外小目标定义为256×256图像的总空间范围小于80像素(9×9)。纹理或形状特征的缺乏使得纯粹以目标为中心的表示不足以进行可靠的检测。特别是在深度网络中,小目标很容易被复杂的环境淹没。
3、分辨率和语义学之间的矛盾:红外小目标往往淹没在复杂背景中,信杂比较低。对于网络来说,检测这些虚警较低的暗目标既需要对整个红外图像的高级语义理解,也需要精细分辨率的预测图,这是深度网络的内在矛盾,因为它们通过逐渐减弱特征大小来学习更多的语义表示。
贡献:
提出了一种非对称上下文调制(ACM)机制,这是一种可以集成到多个主机网络中的插件模块。该方法补充了最先进自上而上的高级语义反馈路径,采用反向自下而上的上下文调制路径,将较小尺度的视觉细节编码到更深的层次,我们认为这是为红外小目标实现更好的性能的关键因素。
这种高级和低级特征之间的相互调制以非对称的方式实现的,其中 自上而下 的调制是由传统的全局通道注意调制(GCAM)将高级大规模语义信息传播到浅层,而 自下而上的调制是通过像素级通道注意调制(PCAM)实现的,以保持和突出高级特征中的红外小目标。
全局通道注意调制(GCAM):
全局通道注意力结构可以使神经网络在训练过程中建模特征图各个通道的重要性,自动判断哪些通道上的信息为有用信息,哪些通道上的信息为噪声信息。全局通道注意力结构以SENet的通道注意力结构为基础,添加了批归一化和ReLU激活用于调整权重分布,残差结构增强了模型对强噪声和高冗余数据的处理能力。全局通道注意力模块的输入为尺寸为H×W×C的特征图X,输出为维度是1×1×C的通道权重矩阵。
像素级通道注意调制(PCAM):
像素级通道注意调制(PCAM):
3 SIRST
离群值(outlier):样本中的一个或几个观测值,它们离其他观测值较远,暗示它们可能来自不同的总体。离群点是指与其他观测值有显著差异的数据点。由于目标太小,缺乏内在特征,它们都被归为一个类别,没有进一步区分其特定类别。每个目标都通过观察它的移动顺序来确定,以确保它是一个真正的目标,而不是像素级的脉冲噪声。
3.1 数据集统计
每幅图像的目标数分布如图所示,大约90%的图像只包含一个单一的目标。这一事实支持了许多模型驱动的方法,将检测任务转换为寻找最稀疏或最显著的目标。然而,应该注意的是,大约10%的图像仍然包含额外的目标,这些目标在这种独特的假设下会被忽略。
其中约55%的目标只占图像面积的0.02%。给定一个300×300的图像,目标仅仅是3×3像素。一般来说,检测较小的物体需要更多的上下文信息,而红外小目标由于低对比度和背景杂乱而将这一难度推到极端程度。
只有35%的目标是图像中最亮的。因此,在图像中选择最亮的像素不是一个好主意,导致检测率为0.35,误报率为65%。作为比较,本文提出的方法的检出率为0.84,误报率为0.0065%,要小10000倍。
4 不对称的上下文调制
4.1 Rethinking自上而下的注意力调节
给定具有C通道和大小为H×W的特征图的低水平特征X和高水平特征Y,自上而下的注意力调节可以公式化为
随着网络的深入,这两个假设不一定适用于红外小目标,因为在高层特征中,小目标很容易被背景淹没,并且它们的特征在全球平均池中也会被削弱。
4.2 自下而上逐点注意调制
逐点通道注意力调制模块,其中每个空间位置的通道特征上下文被单独聚合.
4.3 非对称上下文调制模块
同时利用自上而下的全局注意调制和自下而上的局部注意调制,以交换多尺度上下文,从而对语义信息和空间细节进行更丰富的编码。
4.4 FPN和U-Net
构建新的网络,即ACM-FPN和ACM-U-Net,用于红外小目标检测任务。
5 实验
选择FPN和U-Net作为主干部网络,其中ResNet-20是两者的骨干。ROC曲线IoU和所提出的nIoU被选择作为评估指标。SoftIoU作为损失函数,选择Nesterov加速梯度方法作为优化器。0.05的学习率。Bachsize=8,epoch=
300.
数据驱动的方法:
1)顶帽滤波器
2)局部对比度方法(LCM)
3)改进的LCM(ILCM)
4)局部显著性方法(LSM)
5)面核和随机游走器(FKRW)
6)基于多尺度斑块的对比度测量(MPCM)
7)红外斑块图像模型(IPI)
8)基于奇异值部分和的非负性IPI模型(NIPPS)
9)重加权红外斑块张量模型(RIPT)
10)张量核范数部分和(PSTNN)
11)非凸秩近似最小化(NRAM)
5.1 消融实验
1)下采样方案的影响
基于ACM的网络明显优于基于常规ACM的网,尤其是随着网络的深入。结果表明,针对红外小目标检测,有必要定制网络下采样方案。否则,过度的下采样将导致深层中小目标特征的丢失。
2)双向注意调制的影响
单向自上而下的调制模块即图中所示的TopDownLocal,以及双向调制模块,如图7所示的BiLocal。BiLocal总是比TopDownLocal表现得更好,这表明最好使用双向注意力调制,而不是仅使用自上而下的调制。
3)不对称注意调制的影响
通道注意力尺度为局部(BiLocal)或全局的调制方案(BiGlobal)相,ACM模块在自上而下的路径中利用全局通道注意力,并在自下而上的路径中明智地指向局部通道注意力。结果验证了所提出的非对称调制的假设,即自上而下的调制需要全局通道注意模块来处理整个图像的高级语义信息,而自下而上的调制需要逐点通道注意机制来处理低级细节。