快7倍 | SpirDet基于降采样正交重参化+稀疏解码器有效减少延迟，同时提升小目标检测精度-阿里云开发者社区

近年来，由于显著的进展，利用深度学习方法检测红外小目标受到了大量关注。为了提高对小目标的检测能力，这些方法通常保持一条通路，该通路保留了稀疏和微小目标的高分辨率特征。然而，这可能导致冗余和昂贵的计算。

为了应对这一挑战，作者提出了SpirDet，一种用于高效检测红外小目标的新方法。具体来说，为了解决计算冗余问题，作者采用了一种新的双分支稀疏解码器来恢复特征图。首先，快速分支直接预测一个稀疏图，指示潜在的小目标位置（仅占图的0.5%面积)。其次，慢速分支在稀疏图指示的位置进行细粒度调整。此外，作者设计了一个轻量级的DO-RepEncoder，基于降采样正交性的重参化，能有效减少内存消耗和推理延迟。

大量实验表明，提出的SpirDet在显著优于现有先进模型的同时，实现了更快的推理速度和更少的参数。例如，在IRSTD-1K数据集上，SpirDet将提高了4.7，并且相比于之前的先进模型有的加速。代码将向公众开放。

I Introduction

红外小目标检测在多种应用中具有重大潜力，比如海上救援和城市安全。在这些情况下，检测器在确保高准确性的同时提高推理速度是至关重要的。因此，研究高性能且高效的红外小目标检测器是一个突出的研究重点。

红外传感器仅捕获热辐射信号，导致图像缺乏细节。对于红外小目标检测器来说，有必要从较远距离区分目标。因此，这些目标通常在图像中只占据稀疏的像素点，从几个到几十个不等。这形成了红外小目标的两个特点：

小且弱，由于它们体积微小，可辨别的纹理、形状和其他目标信息大大减少。
信号噪声比低，红外图像中大量的噪声干扰可能导致将背景干扰错误地识别为目标。

早期对红外小目标的检测是基于模型的方法，这种方法利用人类的先验知识进行检测，并提供值得称赞的实时性能。然而，这些方法受到手工制作特征的显著限制，导致泛化能力差、准确度低和误检率高。近期的发展将红外小目标检测重新定义为语义分割任务，使用如U-net系列的架构。鉴于目标只占图像像素的稀疏子集，在编码器的下采样阶段存在空间信息丢失的风险。为了提高小目标检测的性能，一些方法在编码器和解码器之间保持高分辨率特征图路径。然而，随着特征图尺寸的增加，计算成本呈平方级增长。

本文的动机是将计算集中在高分辨率（HR）特征图内小目标潜在位置上，以便于执行需要高分辨率的任务，例如小目标的边缘检测和形状学习。为了实现高速度和卓越的性能，本文引入了SpirDet，它利用了红外小目标的几个独特特性。作者提出了双分支稀疏解码器（DBSD）。该解码器使用快速分支直接在低分辨率特征图上预测小目标的粗略位置，随后慢速分支采用稀疏卷积在HR Level 上对这些粗略区域内的位置进行细化。这种细化弥补了将低分辨率图恢复到原始尺度时所经历的性能下降。此外，作者设计了一个重参化的编码器，称为DO-RepEncoder，它在保持高推理速度的同时具有大的模型容量。

如图1所示，SpirDet显著提高了平均交并比（），同时明显降低了推理延迟。在诸如误警率（）、检测概率（）以及每秒帧数（）等指标上，它超越了现有的红外小目标检测方法。

作者的贡献可以总结如下：

提出了一种名为SpirDet的高性能、高速度的网络架构，用于红外小目标检测。它将重参化模块融入到DO-RepEncoder中，在保持模型容量的同时，大幅提升了模型推理速度。
提出了一种双分支稀疏解码器（DBSD），包括快速分支和慢速分支。快速分支生成潜在目标位置的稀疏图，并指导慢速分支进行高分辨率和细粒度的细化。这可以大大降低模型的计算成本。
在NUDT-SIRST 数据集上进行的实验表明，SpirDet算法将现有技术水平提升了2.09%，同时将每秒帧数()提高了三倍。同样地，在IRSTD-1K 数据集上，SpirDet也取得了超越现有技术水平(SOTA)的结果，提升了4.74%，其更是比之前的SOTA快7倍。

II Related Work

Infrared Small Target Detection

在红外小目标检测（IRSTD）领域的流行趋势主要汇聚为两大类：基于模型的方法和数据驱动的方法。基于模型的方法利用人工先验知识进行检测，包括抑制背景策略，构建受人类视觉系统启发的模型，以及采用基于优化的技术。尽管这些方法能够在边缘设备上快速执行，但它们在复杂场景中的泛化能力往往不足。

相反，后者类别将IRSTD视为由深度学习支持的语义分割问题。一些方法通过跨 Level 特征融合捕获高级语义特征，以获得高分辨率、详细的小目标特征。另一系列方法专注于改进小目标上下文信息表示的学习，通常采用注意力机制。此外，某些方法指导网络的焦点关注红外小目标的边缘和形状信息，从而使得小目标的表示更为准确。

数据驱动方法已经显示出相比于基于模型的方法具有更优越的结果。然而，这些方法在速度和性能之间难以达到平衡，这是由于高分辨率小目标特征学习与低网络推理延迟之间的冲突造成的。在本文中，作者通过实施稀疏卷积来解决这一矛盾。

Sparse Convolution Network

稀疏卷积网络最近被公认为是一种基于稀疏先验知识处理任务的有效技术。例如，Yan等人[58]在采用 Voxel 表示的3D目标检测中使用了3D稀疏卷积，跳过非目标特征，从而提高了网络推理的速度。在目标检测领域，Yang等人[57]采用稀疏卷积在高分辨率特征图FPN中精确地定位小目标。Du等人[59]使用Gumbel-Softmax技巧训练 Mask ，通过稀疏卷积实现了对重量级检测 Head 的自适应加速。

在这篇论文中，将稀疏卷积网络融入到IRSTD中。通过学习解码器低分辨率特征图上潜在小目标位置的稀疏图，作者指导稀疏卷积专门对小目标的高分辨率信息进行微调。

III Method

Overall Architecture

所提出的SpirDet的整体架构如图2所示。它包括DBSD和DO-RepEncoder。该网络接收一个红外图像作为输入，并最初使用输入茎（Input Stem）将其重新格式化为所需的输入形状，如图2（a）所示。由四个阶段的RepBlocks组成的DO-RepEncoder，在RepBlock的第一个块中使用卷积进行下采样。

此后，不同层次的特征图经历上采样过程和轻量级融合操作，以捕捉多尺度和上下文信息。如图2（b）所示，轻量级融合将与较浅的特征图连接起来，之后是一个卷积，批量归一化（BN）和ReLU激活，然后直接加到上。最后，DBSD处理特征图，采用快速-慢速双分支（Fast-Slow Dual-branch），输出最终结果。

Dual-branch Sparse Decoder

为了减少在降采样时可能丢失的小目标特征，常见的红外小目标检测架构通常会保持一个高分辨率特征图路径以保障清晰的目标特征。然而，图像中红外小目标的分布通常极为稀疏。一种直观的方法是，限制计算仅限于与目标相关的特征，当卷积在特征图上操作时，自动绕过与目标无关的特征。这种方法引导的计算部分解决了在红外小目标检测中经常遇到的前景和背景类别之间的重要不平衡问题。

在本节中，作者介绍了双分支稀疏解码器（DBSD），它融合了快速分支和慢速分支。快速分支配备了粗略头，能够在较低分辨率特征图上以很小的计算成本快速预测小目标的粗略潜在位置。这些潜在位置随后会经过稀疏采样，生成一个具有低比例的稀疏二值 Mask （例如，整幅图像的0.5%）。该稀疏二值 Mask 进一步转换为一个指示位置的哈希表。此哈希表指导慢速分支的稀疏头在高分辨率特征图上的小目标潜在位置执行集中计算。随后，预测的特征图通过上采样块恢复到原始分辨率。DBSD的具体实现细节如图3所示。

快速分支被设计用来获取稀疏 Mask 。例如，当给定一个原始分辨率的输入时，粗略头接收解码器第层的一个较低分辨率的特征图，产生一个概率图，该图表示网格与红外小物体相关联的可能性。在这里，、和分别表示第层的通道数、高度和宽度。为了简化粗略头的预测任务，作者采用 SoftIoU 损失来监督输出概率图，具体为：

在粗粒度的 GT （GT）是通过使用最大池化操作符得出的地方。因此，_粗粒度 Head _ 可以自信地预测潜在小目标位置的probability map 。概率图然后经过过滤，只保留表现出最高置信度的网格，形成一个稀疏的二值图，其中超参数（例如，0.5%）决定了的保留比例。这一步被称为稀疏采样：

其中，返回经过筛选的网格的二维坐标。

稀疏采样（_sparse sampling_）的动机有两个方面：

管理整个稀疏区域的规模，只有当规模较小时，加速效果才明显；
利用控制与小目标相关的上下文区域的范围。

由于红外小目标极其微小，与目标真正相关的上下文区域也极其稀疏。因此，通过调整，与小目标相关的上下文区域可以大幅度压缩。性能指标受到超参数的极大影响，这将在实验部分进行讨论。

慢分支摄入了一个更高分辨率的特征图，记作，并生成一个与原始分辨率相匹配的概率图。随后，被发送到稀疏头，这是一个高效的组件，利用了稀疏卷积。这种卷积利用稀疏二值 Mask 选择性地在前景区域操作，具体如方程式2所示。

在整个网络推理过程中，仅在 Mask 值为1的位置应用卷积。这种对稀疏性的策略性利用，在处理高分辨率目标相关特征时，显著降低了计算需求。与传统卷积在特征图的每个网格上均匀计算不同，稀疏头的计算显示出空间上的变化。它直接处理与小目标相关的信息，利用稀疏图所起的感兴趣区域（ROI）的作用。这种方法使得它能够更有效地学习到如形状这样的复杂细节。稀疏头通过利用 DWConv 和 PWConv 的有效组合进一步减少计算量，并随后使用卷积整合空间和通道信息。最终，稀疏头生成的特征图通过简单的 -Conv+-双线性操作与输出结合。

DO-RepEncoder

为了在模型性能和推理速度之间达到平衡，作者引入了重参化技术以满足模型的容量和速度需求。受到[62, 63]的启发，作者设计了图4所示的DO-RepEncoder用于特征提取。DO-RepEncoder由不同分辨率的阶段组成，每个阶段包含个RepBlocks。每个RepBlock包含一个深度卷积部分和一个逐点卷积部分，前者采用卷积，后者采用卷积，两者都包含一个路并行的卷积分支，表示为：

在训练期间，Depthwise部分按以下方式计算：

在推理过程中，它会转换成单分支结构，确保模型的运行速度。

多分支设计在训练过程中增强了模型的总体能力。

为了防止在降采样过程中小目标特征减弱，作者提出了一种降采样正交性方法，通过将正交性正则化纳入每个阶段的初始降采样块中，提倡在K个平行卷积之间的权重正交：

其中表示的是

将“降采样正交性”(DO)作为最终损失函数中的一个正则化项，确保在网络训练期间，降采样中的K个并行卷积及其独特的通道负责提取不同的特征。在推理过程中，这些提取多样化特征的K个并行卷积可以重新参数化为单个卷积。因此，“降采样正交性”实现了在模型推理过程中仅用一个降采样卷积来编码小目标多样化特征的目标。

Loss Function

提出的SpirDet的多任务损失函数主要由三个组成部分构成：

输出SoftIoU损失，它衡量了SpirDet的最终输出与 GT 值之间的不一致性。
稀疏SoftIoU损失，它量化了由DBSD的粗粒度头生成的粗粒度概率图与粗粒度 GT 值之间的差异。
正交性正则化损失，它作为在降采样正交性中的正则化项。

因此，总的损失函数可以表示为：

IV Experiment

表1展示了在作者实验中使用的四个公开可获取的红外小目标数据集：NUDT-SIRST，IRSTD-1K，SIRST3 和 NUST。SIRST3 是由 NUAA-SIRST，NUDT-SIRST 和 IRSTD-1K 数据集合并而成的。对于 NUST 数据集，作者将其随机划分为训练集（80%）和测试集（20%）。

Implementation Details

所有模型的训练和实验程序都是在NVIDIA GeForce RTX 3090 GPU上执行的。对于IRSTD-1K，NUDT-SIRST，SIRST3和NUST数据集，作者分别遵循了400、3000、3000和2000个周期的训练计划。使用了AdamW优化器，并伴随余弦退火学习率衰减，初始值为0.0015衰减至最小值0.0005。对于多尺度的SIRST3数据集，所有的图像都被统一调整到的分辨率进行实验。作者通过像素级指标平均交并比（）、目标级指标检测概率（）和误报率（）来评估模型性能，并以每秒帧数（）来评估模型速度。

表2展示了作者提出的SpirDet结合了详细的配置，以适应不同分辨率下的红外小目标检测。"lr"配置是为低分辨率量身定做的，对应于NUDT-SIRST，SIRST3和NUST数据集。't'，'s'，'m'配置是为了处理超过的高分辨率数据，例如IRSTD-1K数据集，并且分别代表了SpirDet的微小、小型和中型变体。

Effectiveness of Our Approach

对所提出的SpirDet与现有顶尖方法进行了全面比较，包括Top-Hat，Max-Median，RLCM，WSLCM，TLLCM，MSLCM，MSPCM，IPI，NRAM，RIPT，PSTNN，MSLSTIPT，ACM，ALCNet，ISNet，RDIAN，DNANet，IST-DUNet，LWNet，RepISD，UIUNet。

在表3中，作者在IRSTD-1K 数据集上比较了各种模型，该数据集以最小的目标比例和最高的分辨率著称。值得注意的是，SpirDet-m模型取得了70.45 的成绩，比之前最佳的65.71（ISTDU-Net）高出约4.74，提高了2个百分点，较低，并且大约有七倍的优势。而且，该模型的参数仅为ISTDU-Net的17%。

SpirDet-t模型在指标上超过了其他轻量级网络，达到了258 的帧率，并且在所有模型中拥有最低的值。在大多数指标上，SpirDet表现出色，参数数量较少，同时较高。这证实了SpirDet在高分辨率场景下具有显著的能力，如图5所示。

在可区分的NUDT-SIRST 数据集上，如表4所示，SpirDet针对当前最佳（SOTA）模型进行了测试。SpirDet分别获得了94.43 ，99.15 和 0.54 ，连续超越了先前最佳结果2.09，0.25和0.01，同时保持的几乎是具有先前最高的DNANet的十倍。

在表5中，作者对SpirDet与其他基于深度学习的网络在SIRST3和NUST数据集上进行了比较实验。实验结果表明，SpirDet几乎在所有性能指标上都达到了最高，同时保持了卓越的速度性能和极少的参数。

前面的结果强调展示了SpirDet在复杂红外场景中卓越的模型定位能力（和）以及详尽的学习能力（）。值得注意的是，即使没有采用额外的加速技术，作者模型的也能与或超过之前的轻量级网络。

此外，作者还提供了如图6所示的四个数据集上的可视化结果，作者提出的SpirDet不仅避免了虚假检测，而且预测的小目标与真实值也高度一致。

Ablation Studies

稀疏度比在DBSD中的影响。 表6显示了对结果有深远影响，它使得、和随的变化而几乎呈单调性变化。当降至0.05%时，它会严格限制小目标潜在区域的范围。正如预期，这导致小目标的误检率降低，同时因为缩小了稀疏头需要计算的范畴而使得增加。然而，这又导致小目标的召回率下降，使得和分别急剧下降至38.63和75.42。

相反，的增加会导致上升，但同时也会迅速降低模型的，特别是在未采用DBSD时，将降至大约159。当增至0.5%时，和达到峰值，然后开始下降。这使作者推测调节了小目标上下文信息的范围，而这一范围的过度扩展可能会干扰模型对小型目标信息的学习。此外，作者还展示了稀疏图的视觉化结果，以证明DBSD的有效性，如图7所示。

DO-RepEncoder的消融研究。在表7中，作者评估了通过DO-RepEncoder应用重参化给SpirDet带来的GMACs和Params的提升。实证数据表明，重参化平均可以将各种模型的大小减少2.5倍。在GMACs指标方面，该模型在推理过程中节省了超过一倍的计算资源，显示出资源的高效性。

在表8中，作者单独进行了关于DO-RepEncoder内下采样正交性约束的消融研究。研究发现，下采样正交性将提升了0.5，提升了大约4。作者通常将DO-RepEncoder配置为并行卷积数量K为4，实验证实当K设为4时，可以获得最佳性能。

Discussions

稀疏操作能否替代注意力机制？ 注意力机制和稀疏操作在红外小目标检测中均有应用，它们之间存在相似性和差异性，如表9所示。正如第IV-C节所述，获取过多的上下文信息可能会导致干扰。

从理论上讲，稀疏操作可以促进与目标相关的局部上下文信息的学习，同时将计算集中在潜在的目标位置上，从而加快计算速度。因此，它可能是一个比注意力机制更优的选择。为了验证这一点，作者将DNANet中的所有注意力机制替换为稀疏操作，并在IRSTD-1K和SIRST-3数据集上进行了实验，结果如表10所示。实验结果表明，稀疏版的DNANet要么与基于注意力的模型性能相匹配，要么超越后者，同时显著提高了推理速度。

不同规范化的影响。 通常，输入图像必须映射到[0, 1]的范围内。一些红外小目标检测器分别计算了不同数据集中像素值的平均值和方差，如图8(a)所示，并使用标准化方法对输入图像进行规范化。这种策略倾向于使不同图像间的像素值分布均匀化。然而，标准化可能会导致图像层次结构的减弱。

值得注意的是，当小目标与背景之间的差异最小时，标准化后的小目标有可能被背景淹没。表11的实验结果表明，简单的规范化方法，如图8(b)所示，仅将图像除以255，可以更有效地保持图像层次结构，从而增强小目标的可区分性。因此，作者主张使用简单的规范化方法替代标准化来规范化输入图像。

下采样正交性分析。图9可视化了在目标周围的离散特征，这些特征是从经过K（K=4）个并行下采样卷积处理后的特征图中提取的。可视化结果突出了两个关键观察点。首先，通过应用下采样正交性（DO），目标特征在特征图中明显不同，而不使用DO的特征图包含更多的背景干扰。其次，在没有DO的特征中，一些通道将小目标信息退化为了全零特征，这种情况在实施DO时不会出现。总之，将DO应用于K个并行下采样卷积不仅有效地防止了小目标特征的消失，而且促进了这些特征更加多样化的编码。这增强了模型学习小目标形状等特征的能力。

快速分支中哪一层是更好的输入？ 快速分支的作用是为慢速分支中的精细化计算提供目标潜在位置。因此，如图10所示，不同尺度的特征图作为快速分支的输入会导致不同粒度的潜在位置。

此外，表12展示了使用不同分辨率特征图作为快速分支输入的效果。潜在位置的粒度随特征图的分辨率而变化。实验结果表明，在保持较低分辨率的同时，最大化快速分支的分辨率尺寸，可以显著提高结果。

更多可视化结果。图11展示了在IRSTD-1K数据集上，所提出方法与SOTA方法的视觉结果。如图所示，SpirDet的误检率要低得多，同时学习到小型目标更好的形状。例如，在XDU110、XDU354和XDU845中，尽管许多网络能够识别出小型目标的存在，但作者的网络在形状保真度方面更接近于 GT 情况（GT）。

例如，在XDU192图像中，SpirDet可以定位所有小型目标，而比较方法则存在遗漏。通过DBSD获得的稀疏潜在目标位置区域在图12中展示。所有目标都通过DBSD真正地被识别。同时，许多可能的目标位置区域同样被用作候选区域，这确保了SpirDet的召回率。

V Conclusion

在本文中，作者介绍了SpirDet，这是一种专为红外小目标检测量身定制的新方法。通过利用稀疏性和重参化机制，SpirDet能够在较低的计算成本下高效地检测高分辨率特征图上的小目标。在多个公开数据集上的实验结果表明，SpirDet显著提高了推理速度，同时在全球四个公开数据集上保持了性能。将来，稀疏性和重参化机制有望应用于视频序列中，用于检测红外小目标。

参考

[1].SpirDet: Towards Efficient, Accurate and Lightweight Infrared Small Target Detector.

快7倍 | SpirDet基于降采样正交重参化+稀疏解码器有效减少延迟，同时提升小目标检测精度

I Introduction