本文核心贡献如下:
- 提出异常感知检测头:首个将统计异常检验集成于YOLO检测头的模块,通过指数分布假设显式建模背景,将小目标视为统计异常,有效控制误报率。
- 实现资源节俭性:在仅用10%训练数据时仍保持90%全数据性能,轻量版AA-YOLOv7t参数比EFLNet少6倍,适合边缘部署。
- 增强多场景鲁棒性:在噪声干扰、领域迁移、跨模态推理下表现优异,误报率显著低于现有方法。
- 提供通用设计:仅修改检测头,可无缝集成于各类YOLO骨干及实例分割网络,自适应不同检测阈值。
博主简介
AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者
深耕计算机视觉与深度学习领域,专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践,旨在打通从学术研究到产业应用的最后一公里。
💡 未来方向与使命
秉持 “让每一行代码都有温度” 的技术理念,未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新,共同推动技术边界,以坚实的技术能力赋能实体经济与行业变革。
0.原理介绍
论文:https://www.sciencedirect.com/science/article/pii/S0952197626004677
摘要:红外小目标检测是国防应用中的一项具有挑战性的任务。在此类任务中,复杂的背景和极小的目标尺寸常常导致使用传统目标检测器时产生大量误报。为克服这一局限,我们提出了一种异常感知版本的YOLO检测器,该检测器在其检测头中集成了统计异常检测测试。通过将小目标视为背景之外的意外模式,AA-YOLO有效地控制了误报率。我们的方法不仅在多个红外小目标检测基准上取得了有竞争力的性能,而且在训练数据有限、存在噪声和领域迁移的场景下也表现出了显著的鲁棒性。此外,由于仅修改了检测头,我们的设计具有高度通用性,已成功应用于包括轻量级模型在内的各种YOLO骨干网络。当集成到实例分割YOLO中时,它也提供了有前景的结果。这种多功能性使得AA-YOLO成为资源受限的实际部署中一个有吸引力的解决方案。
1. 引言
红外小目标检测是国防领域中一项极具挑战性但又至关重要的任务,其特点是目标尺寸极小、背景复杂以及学习条件困难。为应对这些挑战,研究者提出了基于深度学习的红外小目标检测方法,并取得了最先进的性能。这些方法利用密集嵌套架构或注意力机制等技术,来减轻小目标的信息损失并减少与背景元素的混淆。
然而,当前SOTA红外小目标检测方法由于依赖分割网络而面临局限性。一个主要问题是它们的评估受主观标注的影响很大。具体而言,标注者可能会标注整个车辆或突出具有高红外响应的最显著区域,导致矛盾的训练信号。这些不一致性会显著影响训练过程和像素级评估指标。此外,基于分割的方法常常遭受以下问题:(i) 对特征图进行二值化时的目标碎片化,以及 (ii) 邻近问题,即两个邻近目标被错误地检测为单个对象。这些问题会影响计数精度,特别是在民用安全等关键领域。
像YOLO这样的目标检测算法通过边界框回归显式定位目标,并具有更快的推理时间,有助于降低这种风险。虽然从像素级标注切换到目标级标注时,标注主观性的影响较小,但对于小目标来说,这种影响仍然不可忽视。实际上,Cheng等人强调,即使是微小的定位误差也会严重影响小目标的交并比指标,从而损害YOLO网络的训练和评估。近期的研究通过降低IoU损失对小目标的影响并提出替代损失函数来解决这些问题。虽然有效,但SOTA方法通常会导致复杂的、任务特定的模型,可能无法很好地适应资源有限的现实场景。
在本文中,我们主张一个互补的方向:将红外小目标检测视为相对于背景的统计异常。通过将小目标视为背景之外的意外模式,我们采用一个统计假设检验框架,其中背景分布被建模为零假设。重要的是,这个检验是在潜在空间中进行的,并且对背景结构的要求极低。我们基于最大熵原理,依靠一种实用的指数建模来推导一个可解释的目标性分数,该分数能严格控制误报。与传统的目标检测器不同,我们的方法显式地建模了潜在空间中目标小目标的意外性,从而能够实现 (i) 有效的异常识别和 (ii) 对误报的显式控制。我们的方法在不同类型的资源约束下都表现出了强劲的性能:
- 数据约束:即使在仅使用10%的数据进行训练时,我们的方法在SIRST完整数据集上仍能保持至少90%的性能。
- 计算约束:即使使用更轻量的网络,我们的方法也能与SOTA相竞争,使其适用于资源受限的设备部署。
- 通用设计:我们的方法易于实现,仅需对检测头进行简单修改。这使得我们的方法具有高度的适应性和用户友好性。
基于这些原因,我们的异常感知YOLO成为计算和数据资源有限的现实应用中一个引人注目的解决方案。我们的主要贡献总结如下:
- 我们提出了一个简单而有效的YOLO检测头,称为异常感知检测头,它集成了统计异常检验以改进红外小目标检测。我们的方法提供了一个异常信息目标性分数,经验上能有效抑制背景。
- 通过将我们的AADH模块添加到几个传统的YOLO骨干网络(尤其是轻量级网络)中,我们缩小了与SOTA方法的性能差距。值得注意的是,AA-YOLOv7t在著名的红外小目标检测基准上取得了SOTA结果,同时其训练参数比EFLNet少六倍。当集成到实例分割YOLO中时,它也给出了有前景的结果。
- AADH在资源约束环境、迁移学习、噪声数据推理和操作场景中显著提高了鲁棒性。
- 最后,我们的AADH通过将所有背景值约束为零,简化了检测阈值的选择。
2. 相关工作
2.1. 红外小目标检测方法
红外小目标检测的特殊性在于目标的尺寸极小且对比度低,这使得在复杂背景下检测它们尤为困难。研究人员开发了各种超越传统方法的基于深度学习的策略。这些方法主要分为两类。
分割方法。分割网络因其固有的提取细粒度特征的能力而在红外小目标检测方法中特别受欢迎。为了进一步增强小目标检测并减少与背景杂波的混淆,Zhang等人、Yuan等人、Hu等人在其骨干网络中引入了注意力机制。具体而言,RDIAN集成了基于卷积的多方向引导注意力机制来增强深层的小目标特征,而SCTransNet和DATransNet则依赖近期基于Transformer的骨干网络来提高全局场景理解能力。深度神经网络的一个重要问题是其池化层,这会降低小目标的信息量。为了缓解这个问题,Li等人引入了DNANet,这是一种密集嵌套的U形骨干网络,在广泛使用的红外小目标检测基准上取得了优异的性能。其他方法尝试通过引入替代损失函数来解决基于IoU的指标对小目标的局限性。例如,MSHNet提出了一种对位置和尺度敏感的损失,当与简单的U-Net架构结合时,显著提高了性能。
然而,这些方法对分割图二值化时出现的碎片化问题并不鲁棒,这会扭曲目标计数。此外,它们容易出现邻近误差,即两个相邻的目标被错误地合并。这促使研究者探索使用带有边界框回归的目标检测器来进行红外小目标检测。
目标检测方法。目标检测涉及检测图像中感兴趣的目标并用边界框标识其位置。为此提出了几种深度学习方法,包括流行的YOLO框架。虽然YOLO检测器在各种应用中都以低推理时间取得了优异的性能,但由于两个关键因素,它们难以检测小目标:(1) 目标和背景样本之间的类别不平衡;(2) 对小目标的边界框定位误差容忍度低,因为即使是微小的偏移也会导致IoU大幅下降。为了解决这些问题,研究者引入了专门的损失函数来增加少数类别样本的相对重要性。此外,Yang等人通过其尺度动态损失,提出降低IoU指标在小目标损失中的权重。EFLNet的作者更进一步,用Xu等人提出的归一化Wasserstein距离取代了基于IoU的损失。EFLNet在红外小目标检测基准上的性能尤其值得注意,它超越了基于分割的SOTA方法,为基于YOLO网络的红外小目标检测设定了新的性能标准。
值得注意的是,现有论文通常仅部分涉及资源约束的各个方面。虽然已经提出了一些用于红外小目标检测的轻量级检测器,但它们在这种约束环境下的鲁棒性很少被评估。本文旨在通过引入一个简单、资源高效且通用的方法,不仅在红外小目标检测上实现SOTA性能,而且还展示其鲁棒性,从而弥补这些差距。
2.2. 异常检测
目标的小尺寸、缺乏结构性和稀缺性使其成为异常检测的自然候选对象。实际上,这项任务旨在识别偏离标准的罕见事件,并且仅有有限的样本可用。根据Ruff等人的研究,这些方法可分为四大类:基于距离的方法、基于重建的方法、一类分类方法和概率方法。基于重建的方法将难以准确重建的输入检测为异常。一类分类方法(如Deep SVDD)仅使用正常样本进行训练,并学习一个围绕它们的紧凑表示或边界,将异常值标记为异常。概率方法则旨在对正常数据的概率密度函数进行建模,将低似然的样本识别为异常。一个值得注意的例子是在高光谱异常检测中广泛使用的Reed-Xiaoli算法。注意,假设检验也属于这一类。尽管有潜力,但将异常检测集成到用于红外小目标检测的端到端监督学习框架中仍然有限。例如,Shi和Wang将小目标视为红外背景中的"噪声",将检测问题重新定义为去噪任务。类似地,Deng等人使用VAE以无监督方式对背景建模,然后将监督检测算法应用于所得的差异图像。虽然前景可期,但我们认为,将异常的概念显式地集成到监督检测流程中以引导特征提取,可以提高鲁棒性和准确性,特别是在传统方法常常失效的挑战性场景中。
3. 提出方法
我们的目标是通过在YOLO类型网络中引入基于异常的先验信息,来改进小目标检测,尤其是在挑战性条件下。为此,我们训练网络的目标不是像传统检测网络那样估计目标与非目标数据点之间的决策边界,而是识别与背景模型的偏差。这是通过使用一种概率异常检测方法来约束特征提取来实现的。将这个统计标准集成到YOLO网络的训练循环中,确保收敛后,只有目标违反了学习到的背景模型。
3.1. 统计异常检验的公式化
我们的贡献在于使用多个拒绝零假设𝐻₀的统计检验,重新估计YOLO检测头为每个边界框预测的目标性分数。为此,我们考虑来自维度为𝐻×𝑊×𝐶的最终特征图的𝑁个体素,其中𝐻、𝑊和𝐶分别是特征图的高度、宽度和通道数。每个体素𝑣_𝑘由一个𝐶维随机变量𝑋_𝑘 = (𝑋_{𝑘,1}, … , 𝑋_{𝑘,𝐶})表示,其中𝑋_{𝑘,1}, … , 𝑋_{𝑘,𝐶}被假设为独立同分布。需要注意的是,跨特征通道的独立同分布假设是一种简化,并未严格反映CNN学习到的依赖关系。然而,在我们的上下文中,这个假设的目的不是描述特征激活的精确生成过程,而是为异常检测提供一个易于处理且可解释的零假设。根据零假设𝐻₀,一个给定的体素属于背景类。我们这里的重点是控制第一类错误率,即当𝐻₀实际为真时拒绝它的概率。在多假设检验的背景下,这启发了一个受族系误差率启发的公式,我们的目标是限制至少有一个背景体素被错误标记为异常的概率。
设𝜃为拒绝阈值,𝐹为检验函数,𝜇为一种度量。置信水平为̃𝛼的FWER定义为:
P_{𝐻₀} (∃𝑘 ∈ [[1, 𝑁]], 𝐹(𝜇(𝑋_𝑘)) < 𝜃) < ̃𝛼。 (1)
为了计算FWER,我们将𝐹定义为p值函数。给定一个观测值𝑥_𝑘,p值表示为:
𝐹(𝜇(𝑥_𝑘)) = P_{𝐻₀} (𝜇(𝑋_𝑘) ≥ 𝜇(𝑥_𝑘))。 (2)
现在让我们关注我们的问题,以明确定义𝐻₀和𝐹。首先,注意我们的目标不是完美拟合背景体素的潜在分布,而是选择一个合理的零假设以实现有效的异常区分,这对于我们的操作目标来说是足够的。由于动态纹理,对红外背景分布进行建模可能具有挑战性。然而,我们的异常检验在潜在空间中进行,在该空间中,无论输入图像的复杂性如何,背景体素特征在ReLU激活后往往聚集在零附近。在这个潜在空间中,假设指数分布是有充分理由的,因为它是在固定均值的非负变量中具有最大熵的分布。因此,根据最大熵原理,这使其成为偏差最小的选择,仅引入了已知的约束。注意,这个假设在实践中得到了验证,因为替代假设会导致较差的检测性能,这表明指数假设更好地与潜在特征的结构保持一致。因此,我们将零假设𝐻₀定义为假设每个体素遵循一个具有参数𝚲 = [𝜆₁, … , 𝜆_𝐶]ᵀ的𝐶维指数分布ᵀ。
然后,可以考虑两种在指数假设下具有封闭形式分布的聚合度量𝜇:
- 𝜇₁(𝑋_𝑘) = min{𝑋_{𝑘,1}, … , 𝑋_{𝑘,𝐶}} – 在这种情况下,通道值的最小值服从参数为𝜆_{𝜇₁} = ∑{𝑖=1}^{𝐶} 𝜆_𝑖的指数分布。检验函数𝐹简化为:
𝐹(𝜇₁(𝑥_𝑘)) = 𝑒^{-𝜆{𝜇₁} ⋅ min{𝑥_{𝑘,1},… ,𝑥_{𝑘,𝐶}}}。 (3)
在实践中,每个𝜆_𝑖被估计为特征图中第𝑖个通道在空间维度上平均激活值的倒数。 - 𝜇₂(𝑋_𝑘) = ∑{𝑖=1}^{𝐶} 𝑋{𝑘,𝑖} – 假设所有𝜆_𝑖都等于𝜆_{𝜇₂},则总和服从形状参数等于求和变量数、比率参数等于公共指数分布参数𝜆_{𝜇₂}的厄兰分布,得到:
𝐹(𝜇₂(𝑥_𝑘)) = 𝛤(𝐶, 𝜆_{𝜇₂} ∑{𝑖=1}^{𝐶} 𝑥{𝑘,𝑖}) / 𝛤(𝐶), (4)
其中𝛤(⋅)和𝛤(⋅, ⋅)分别是Gamma函数和上不完全Gamma函数。这里,𝜆_{𝜇₂}被计算为特征图中所有体素平均激活值的倒数。
我们的消融研究表明,度量𝜇₂优于𝜇₁。这种优越性可能源于𝜇₁的一个关键局限性,它隐含地假设所有通道必须同时表现出类似目标的行为,即一旦有一个通道表现出类似背景的𝑥_{𝑘,𝑖}值,那么所有其他通道也必须如此。这种假设与在通道间提取多样化和互补特征的目标相冲突,可能降低表示的整体判别能力。因此,我们在本研究的其余部分采用𝜇₂。
图2显示了我们的检验函数的形状。我们以显著性(即− ln 𝐹(𝜇(𝑥_𝑘)))报告分数,以增强可解释性。据我们所知,在这种检测环境中使用指数假设先前尚未被探索过。其主要优势在于它能够显式地将背景激活推向零,从而简化了实际条件下检测阈值的选择。
注 – 我们使用式(4)中定义的统计检验,研究了偏离假设的背景分布对异常检测性能和FWER控制的影响。模拟使用来自不同分布的背景进行。我们执行40次试验,每次试验有10,000个统计检验,得到的检测率和FWER行为如图3所示。理想情况下,FWER曲线应遵循对角线𝑦 = 𝑥:对于名义水平̃𝛼,每幅图像观察到至少一次错误检测的概率应接近̃𝛼。在名义场景中,背景遵循多元指数分布,所有通道具有均匀参数𝜆_{𝜇₂} = 1/3。异常使用以1/𝜆_{𝜇₂} + 0.5为中心的截断正态分布模拟,比例为1%。进一步在背景分布的两种偏差下评估性能:跨通道相关的𝜆_𝑖值,以及以1/𝜆_{𝜇₂}为中心的正态背景分布。如图3(a)所示,两种偏差都降低了召回率,其中高斯背景由于与异常分布的重叠增加而导致最显著的性能下降。为了解决这些偏差,我们还测试了一种修改后的方法,在𝜇₂中纳入超指数假设以适应不同的𝜆值。如图3(b)所示,虽然这在较低阈值下改善了FWER控制,但并未显著提高检测率。考虑到超指数方法的计算复杂性增加,我们保留了具有相同𝜆_𝑖值假设的简化检验。最后,我们评估了对加性高斯白噪声的敏感性。当噪声标准差超过𝜎 = 0.3时,召回率显著下降,但FWER控制保持稳健。总体而言,偏差主要影响检测率而非误报。在实践中,我们优先优化特征提取以平衡召回率和误报率,因为严格遵守特定的背景分布并非必要——我们只需要可靠地拒绝零假设。
3.2. 在YOLO框架内的集成
架构概述。整体架构如图4所示。输入图像首先由标准YOLO网络处理。为确保我们方法的通用性,我们只修改YOLO网络的检测头。具体来说,我们将目标性分数的预测与边界框坐标和类别分数的预测解耦。然后,我们使用我们的异常感知检测头重新估计目标性分数,该检测头集成了所提出的统计异常检验。这个过程产生新的目标性分数,范围从0到1,现在反映了相对于学习到的背景分布的异常概念。包括AADH在内的整个网络使用目标性分数的均方误差损失进行端到端训练。我们将得到的架构称为AA-YOLO。当指定所使用的骨干网络时,该网络被称为AA-YOLOv7等。
异常感知检测头。如图4所示,AADH由三个主要组件组成。首先,一个空间滤波模块旨在捕获和聚集每个预测边界框中心体素周围的相关空间上下文。该模块包括两个具有3×3卷积核的卷积层,每个卷积层后跟一个批量归一化层和ReLU激活。输出是一个𝐶通道的特征图,然后进行统计检验− ln(𝐹_{𝜇₂})。注意,由于四舍五入问题,我们使用当𝑥 → +∞时𝛤(𝑎, 𝑥)函数的近似值。
函数𝐹_{𝜇₂}的行为强调了𝐶的选择会影响𝐹的锐度。我们的消融研究表明设置𝐶 = 8可获得最佳检测性能。为了确保统计检验的输出分数落在0和1之间,我们采用一个由𝛼参数化的缩放和零中心化sigmoid激活函数,该函数有效地处理了输出分数的不对称性。此激活函数定义为𝜎_𝛼(𝑥) = 2/(1+𝑒^{-𝛼𝑥}) − 1。鉴于我们的统计检验产生的分数缓慢增加并且对于目标达到特别高的值,较小的𝛼有助于拉伸sigmoid曲线,使其能更好地捕捉我们输出分数的细微差别。根据经验,我们在消融研究中发现设置𝛼 = 0.001能获得最佳性能,因为它提供了灵敏度和特异性之间的适当权衡。我们的AADH在每个检测尺度上单独应用,以有效识别不同大小的目标。然后使用YOLO框架的标准多尺度融合机制融合产生的检测结果,该机制结合了所有尺度的检测。
4. 实验与结果
4.1. 实验设置
数据集。为评估我们的方法,我们采用了两个广泛使用的红外小目标检测基准:SIRST数据集和IRSTD-1k数据集。SIRST数据集是最早公开发布的真实图像红外小目标数据集之一,是文献中常用的参考基准。它由427幅256×256像素的单光谱红外图像组成。为了在资源约束学习设置下评估我们的方法,我们在SIRST数据集的25幅图像子集上进行训练,这不到总数据集的10%。为确保我们的结果不受特定训练集的影响,我们随机选择三个不重叠的25幅图像集,并报告这些集上的平均结果。除SIRST外,我们还考虑了具有挑战性的IRSTD-1k数据集,这是一个近期发布的基准,提供了更大的1000幅图像集合,分辨率为512×512像素。两个数据集均按60:20:20的比例划分为训练集、验证集和测试集,我们使用Dai等人为SIRST提供的划分,以及Yang等人为IRSTD-1k提供的划分。为满足YOLO网络的输入尺寸要求,所有图像都使用双三次插值上采样到640×640。
基线。我们使用几种不同大小的基于YOLO的架构来评估我们的方法,包括YOLOv7和轻量级版本如YOLOv7-tiny和YOLOv9-tiny。我们还将我们的方法与Yang等人提出的损失和模块相结合。我们进一步探索了我们的方法在检测之外的应用,将AADH集成到一个标准的实例分割网络中,即YOLOv5-seg。我们不仅将我们的方法与没有AADH的标准YOLO基线进行比较,还与先进的SOTA方法进行比较,包括基于分割的方法如DNANet、AGPCNet、SCTransNet、SIRST-5K、MSHNet、DATransNet,以及基于YOLO的检测器如EFLNet和YOLO+PConv+SD。所有YOLO基线均使用Nvidia V100或A100 GPU从头开始训练600个轮次,以使方法有足够的时间收敛,使用SGD优化器,批量大小为16。所有方法的额外训练细节见附录C。注意,我们的比较侧重于基于深度学习的SOTA红外小目标检测方法,因为传统方法已被超越。
评估指标。我们的评估依赖于标准的对象级指标,即F1分数和平均精度,即精确率-召回率曲线下的面积。为确定真正例,我们采用一个宽松的标准:如果检测到的对象与真实标注的IoU至少为5%,则被视为真正例。使用这个低阈值是为了避免在第1节中提到的主观标注情况下对结果进行惩罚。我们还提出了APₛ指标,它计算极小对象的AP。我们还报告了实例分割方法的IoU,可与附录A中报告的SOTA分割IoU进行比较。最后,为了更深入地了解方法的灵敏度和检测能力,我们在附录A中提供了它们的精确率、召回率和每幅图像的误报率。注意,对于分割方法,我们使用Li等人提供的代码将预测的分割图转换为对象级预测,该代码采用形态学算子。
4.2. 在两个红外小目标检测基准上的新SOTA结果
定量结果。表1表明,我们的AADH模块在SIRST和IRSTD-1k数据集上,无论编码器类型、训练参数量或初始性能水平如何,都一致地提升了各种YOLO基线的对象级性能。例如,我们最小的骨干网络YOLOv9t在集成AADH后,在SIRST数据集上F1分数提升了2.9%,在IRSTD-1k数据集上APₛ提升了4.0%。与SOTA方法相比,我们的方法(i)优于基于分割的方法,(ii)有益于Yang等人提出的方法,并且(iii)与EFLNet竞争。值得注意的是,我们性能最佳的配置AA-YOLOv7t在IRSTD-1k上的APₛ比EFLNet提高了1.1%,同时训练参数少六倍,且设计简洁。虽然像SCTransNet和MSHNet这样的SOTA分割网络在F1分数上提供了有竞争力的性能,但它们的AP分数落后于SOTA目标检测器,尤其是在IRSTD-1k数据集上。这种差距源于高误报率,这是由于在不同检测阈值下对特征图进行二值化时的目标碎片化造成的——这是目标检测器固有地避免的问题。
最后但同样重要的是,AA-YOLOv5-seg获得的结果尤其有前景,因为它在SIRST数据集上与SOTA分割方法竞争,达到了相似的对象级和像素级指标。尽管它在IRSTD-1k的对象级指标上略逊于最佳分割方法,但在IoU方面显著优于它们。值得注意的是,我们的AADH显著提升了YOLOv5-seg的像素级性能。这种改进可归因于红外小目标检测任务带来的挑战,YOLOv5-seg难以同时学习分割和边界框回归。添加我们的统计检验模块有助于缓解这些挑战,从而显著促进训练过程。这些发现表明,我们的方法有潜力改进用于红外小目标检测的实例分割方法。将对象级检测与细粒度的像素级表示相结合,为未来的研究指明了一个有前景的方向。
注 – 表2中呈现的SOTA分割方法的结果可能与原始论文中报告的结果略有不同。这种差异源于我们的模型选择方法,与原始研究不同。具体来说,我们基于验证集性能选择最佳模型,而原始论文通常针对测试集进行优化。通过将模型选择与测试集性能解耦,我们旨在确保公平和无偏的评估过程,从而避免对测试集的过拟合。
定性分析。图5显示,与YOLOv7t和EFLNet相比,我们的方法产生了非常干净的目标性分数图,只有小目标分数从接近零的背景中浮现出来。优化过程是这种行为的关键,因为它使网络能够以如下方式调整特征表示:(1) 目标与零假设𝐻₀足够不同,允许准确检测,以及 (2) 背景区域倾向于符合𝐻₀,从而减少误报。这种通过端到端训练实现的对齐,使我们的检验在操作上有效且鲁棒:它允许高精确率,即使在低检测阈值下也是如此,这由图6提供的精确率曲线所证实。图7进一步说明,与SOTA和基线方法相比,我们的方法在非常低的阈值下能更好地控制每幅图像的误报数量,这与我们在合成实验中观察到的受FWER启发的行为一致。至关重要的是,这使我们能够在所有图像上使用一个固定的低阈值,避免了根据图像内容或训练条件手动调整阈值的需要。如表3所示,AA-YOLOv7t在三个数据集上始终实现了低的最优阈值和最小的标准差,表明与其他检测器相比,它对数据集特定调整的敏感性降低。这是对现有方法(例如标准YOLO)的一个显著操作优势,因为我们的方法即使在低阈值下也表现出非常少的误报,使我们能够设置一个鲁棒的默认值,同时将误报风险降至最低。
4.3. 在挑战性条件下更强的鲁棒性
评估方法的鲁棒性对于确保其在现实应用中的可靠性、准确性和安全性至关重要,因为这些应用中的数据通常不完美、稀缺且不确定。为了进一步评估AA-YOLO的优势,我们在各种挑战性条件下评估其鲁棒性。
小样本训练。图8(a)显示了在仅使用SIRST数据集的10%进行训练时,所比较方法获得的结果。我们所有的AA-YOLO变体都取得了强劲的性能,接近使用完整数据集获得的性能。这种在资源约束环境下的鲁棒性源于我们显式地使用背景信息来区分目标像素,这有助于弥补标注数据的缺乏。相比之下,DNANet和EFLNet虽然表现尚可,但未能匹配我们AA-YOLO变体的性能,而YOLO基线则更吃力。
噪声数据推理。为了评估对噪声的鲁棒性,我们向测试集添加了标准差𝜎=0.1的高斯噪声。如图8(b)(i)所示,将AADH集成到YOLO基线中显著增加了它们对噪声输入的鲁棒性。此外,我们表现最佳的模型AA-YOLOv7t在F1分数上超过EFLNet 4个多点,展示了卓越的对噪声输入的鲁棒性。图9展示了一个在特别嘈杂数据上推理的示例,我们的方法没有产生误报,突显了AADH在此背景下的鲁棒性。
迁移到另一个数据集。我们还评估了检测器从SIRST数据集到更具挑战性的IRSTD-1k数据集的可迁移性。图8(b)(ii)显示,我们的方法提升了几个YOLO基线的性能。例如,AADH使YOLOv7t提高了12.5个百分点,达到的F1分数仅比直接在IRSTD-1k数据集上训练时低7.4个百分点。
迁移到另一种模态。最后,我们使用手机摄像头拍摄的图像在真实世界操作场景中评估我们的算法,该摄像头在RGB模态下工作,因此代表了一种不同的传感场景。全分辨率图像见附录B;它们描绘了一个天空场景,前两幅图像中可见一架无人机,后两幅中则没有。图10显示了EFLNet和我们最好的检测器AA-YOLOv7t产生的检测结果,两者都设置了0.1的检测阈值。我们的方法成功检测到了前两幅图像中的无人机,没有误报。相比之下,EFLNet难以检测到无人机,并产生了大量误报。尽管树上的误报可能不关键,但天空中的误报突显了EFLNet虚构目标的倾向。这显示了在无目标场景下评估红外小目标检测算法的重要性。在VEDAI数据集上进行的实验进一步证明了我们的方法对领域迁移的鲁棒性。具体而言,表6的最后两列显示,使用我们的AADH模块在红外图像上训练并在RGB图像上测试时,迁移性能显著提升。AA-YOLOv7t甚至超过了EFLNet,强调了其在跨领域场景中的有效性。
5. 消融研究
本节提供了对三个组件进行的消融研究结果:(1) 统计检验的公式,(2) AADH中的通道数,以及 (3) 激活函数𝜎_𝛼中的参数𝛼。我们还提供了我们方法的计算消耗。
统计检验公式。表4使用YOLOv7t骨干网络比较了AADH的三种统计公式:使用𝜇₁度量的公式、使用𝜇₂度量的公式和高斯背景假设。
比较清楚地显示,𝜇₂显著优于𝜇₁:F1分数提高了1.7%。这种优越的性能可归因于𝜇₁的局限性,它假设一旦一个通道包含目标信息,所有通道都包含。这种假设阻碍了网络提取多样化特征,从而降低了提取特征的质量。我们还考虑了一个替代假设,即背景遵循高斯分布。知道𝐶个独立的标准正态随机变量之和服从自由度为𝐶的𝜒²分布,对𝑋_𝑘的检验函数简化为𝛤(𝐶/2, 1/2‖𝑋_𝑘‖²₂) / 𝛤(𝐶/2)。然而,这个假设导致检测性能略差,表明指数假设与潜在特征的结构更好地对齐。
AADH中的通道数。图2说明了𝐹和−ln 𝐹对于不同𝐶值的变化,其中𝐶的选择影响𝐹的锐度。因此,我们使用YOLOv7t骨干网络对AADH中的参数𝐶进行消融研究。表4中呈现的结果显示,非常低的𝐶值导致性能差,而过高的值则导致训练困难,使网络更难收敛。为了平衡性能和稳定性,我们建议将通道数𝐶设置在5到8之间,因为这个范围避免了上述问题并确保了最佳结果。
𝜎_𝛼激活函数中的𝛼参数。表4的最后三行显示,𝛼的选择对性能有影响。具体来说,设置𝛼=0.001在使用AA-YOLOv7t时能获得最佳性能。
计算消耗。表5对我们的方法进行了计算分析,包括模型参数量和以GFLOPs表示的浮点运算数,以及每秒帧数。我们的结果显示,将AADH模块添加到YOLO基线仅带来可忽略的参数和FLOPs增加。重要的是,它实现了合理的FPS,能够实时处理。这表明我们的方法在显著提高挑战性条件下的性能和鲁棒性的同时,保持了基线YOLO模型的可部署性。值得注意的是,我们的AA-YOLOv7t优于EFLNet,而后者的参数量是其6倍,GFLOPs是其7倍。此外,当与更轻的骨干网络结合时,我们的方法实现了与EFLNet相当的性能,同时使用的参数量少25倍,GFLOPs少19倍。这种计算成本的大幅降低使我们的方法成为现实应用中一个有吸引力的解决方案。
6. 关于我们方法通用性的讨论
我们提出了一个新颖的检测头AADH,专门为红外小目标检测设计。如前几段所示,我们的方法不仅使任何基于YOLO的模型与SOTA检测器竞争,而且显著增强了在挑战性条件下的鲁棒性,从而增加了其可信赖性。我们贡献的简洁性——一个添加到YOLO网络末端的轻量级模块——使其能够无缝集成到各种架构和约束中。
任务通用性。我们方法的一个特别值得注意的方面是其跨任务的通用性。由于我们的方法仅依赖于形状和模式分析,与红外成像的特定物理先验无关,它似乎自然适用于红外小目标检测之外的其他极小目标检测任务。例如,在遥感中,检测复杂环境中的小型物体是一个常见的挑战。这个任务与红外小目标检测不同,它包含更多的物体,其中一些更大且分辨率更好。因此,质疑红外小目标检测方法能否有效地泛化到此类任务是合理的。为了解决这个问题,我们在VEDAI数据集上评估了我们方法的有效性。结果显示,YOLO基线在这个任务上表现不佳,尽管它们简单且操作上吸引人。相比之下,将我们的模块集成到任何YOLO检测器中,无论其大小或复杂性如何,都能产生与EFLNet相比极具竞争力的性能,同时训练参数显著减少,并在各种场景下表现出鲁棒性。这些发现表明,我们的方法可以自信地用于在各种小目标检测任务中取得优异性能,特别是在数据或资源有限的设置中。
架构通用性。我们的模块化设计提供了架构灵活性,使我们能够应对广泛的挑战。通过将轻量级网络与我们的AADH模块结合,即使在资源受限的设置中,我们也能实现高性能。此外,我们方法的模块化促进了不同任务的适应,例如实例分割,这有助于克服常见问题,如目标邻近和碎片化。这导致了准确的像素级预测,同时保持了对象级精度。我们的设计也非常适合涉及架构约束的场景。例如,当训练条件非常困难时,依赖编码器的预训练权重来增强检测器的性能和鲁棒性通常是有益的。然而,现成的预训练权重仅适用于标准编码器。与文献中许多依赖定制编码器的红外小目标检测特定方法不同,我们可以轻松地将AADH添加到具有通用编码器的YOLO中,因此可以考虑使用预训练权重。鉴于自监督学习的最新进展已在各种视觉任务中展现出相当大的影响,这一优势尤为重要。
局限性与展望。虽然我们的方法非常适合于检测意外和罕见的事件,但在检测大量的大目标时存在局限性。如图11所示,与SOTA方法相比,AA-YOLO在VEDAI数据集中倾向于低估大型和多架飞机。这个结果与理论预期一致:这样的对象相对于背景不再符合统计异常的条件,因此超出了我们基于异常的检测策略的范围。为了量化这些观察到的局限性,我们重新审视了第3.1节中进行的模拟。在名义情况下,我们将异常比例从0.05%变化到20%,并测量对检测率和误报的影响,如图12(a)所示。我们的发现表明,对于低于1%的异常比例,对召回率的影响仍然有限。然而,超过这个阈值,性能下降变得显著。值得注意的是,FWER的控制基本不受影响;只有检测率下降。从上下文来看,一张640×640像素图像的1%对应于4096像素,这意味着在实践中,该方法可以有效处理数十个小目标。对于中等大小的对象,稀有性是关键:在召回率显著受影响之前,每幅图像只能容纳2到4个这样的对象。我们考虑的数据集和应用远未达到这些边缘情况,这表明我们的方法仍然非常适用于涉及多个小目标的场景。为了在实践中增强鲁棒性,我们建议未来的实践者使用更鲁棒的𝜆参数估计器,以减轻异常值的影响。如图12(b)所示,这种调整有助于在较低阈值下保持召回率并减少性能下降。另一个引人注目的前景是利用时间数据,不仅提高检测性能,而且通过跨多帧计算背景参数来实现更鲁棒的估计。最后,未来研究的一个有前景的方向是调查YOLO网络在特征提取过程中的潜在偏差,因为这些特征的分布可能受到固有约束。理解这些偏差可以在训练期间实现更有效地从背景中分离异常。
7. 结论
在本文中,我们提出了AA-YOLO,一种简单而有效的方法,用于改进红外图像中小目标的检测。我们的方法包括将统计异常检验直接集成到YOLO类型网络的检测头中,从而能够将目标检测为与背景分布的偏差。我们的方法不仅改进了任何YOLO检测器的小目标检测,而且在两个广泛使用的红外小目标检测基准上取得了SOTA结果。最后但同样重要的是,我们的AA-YOLO在小样本训练中表现出的鲁棒性尤其令人印象深刻,并且我们方法的通用性使其能够适应各种资源严重受限的场景。