小目标检测新方法SCTransNet | 空间通道交叉Transformer & 互补前馈达成完美语义信息传递

简介: 小目标检测新方法SCTransNet | 空间通道交叉Transformer & 互补前馈达成完美语义信息传递

红外小目标检测(IRSTD)最近从U形神经模型中获益良多。然而,现有的技术在目标与背景高度相似的情况下,很大程度上忽视了有效的全局信息建模。

作者提出了一个空间通道交叉Transformer网络(SCTransNet),它利用空间通道交叉Transformer块(SCTBs)在远程跳跃连接之上,以解决上述挑战。在所提出的SCTBs中,所有编码器的输出与交叉 Transformer 互动生成混合特征,这些特征重新分配给所有解码器,以在完整尺度上有效加强目标与杂波之间的语义差异。

具体而言,SCTB包含以下两个关键元素:

  1. 空间嵌入的单头通道交叉注意力(SSCA),用于交换局部空间特征和全级全局通道信息,以消除编码器之间的歧义,促进图像的高级语义关联;
  2. 一个互补的前馈网络(CFN),通过多尺度策略和跨空间通道信息交互,增强特征的判别性,促进有益信息传递。

SCTransNet有效地编码了目标与背景之间的语义差异,从而提升了其内部表征,以准确检测小红外目标。

在三个公开数据集NUDT-SIRST、NUAA-SIRST和IRSTD-1k上的大量实验表明,所提出的SCTransNet优于现有的IRSTD方法。

代码:https://github.com/xdFai

1 Introduction

红外小目标检测(IRSTD)在交通监控,海上救援,以及目标预警中发挥着重要作用,在这些领域需要将复杂场景背景中的小目标分离出来。由于场景动态性质所带来的挑战,单帧IRSTD已经引起了相当多的研究关注。这个方向上的早期方法采用了图像滤波,人类视觉系统(HVS),以及低秩近似技术,同时依赖于复杂的手工特征设计,经验观察,和模型参数的微调。然而,由于缺乏对整个场景的可靠的高级理解,这些方法表现出较差的鲁棒性。

近期,基于学习的方法因其强大的数据驱动特征挖掘能力而变得更为流行。为了捕捉目标的轮廓并减轻因目标尺寸小而导致的性能下降,这些方法将IRSTD问题视为语义分割任务,而不是传统的目标检测问题。与自动驾驶中的通用目标分割不同,远程感知应用中红外检测系统的成像机制导致图像中的小目标表现出以下特点:

  • 1) 暗淡且小:由于远程成像,红外目标尺寸小,通常表现出低信杂比,容易沉浸在重噪声和背景杂波中。
  • 2) 无特征:热成像目标缺乏颜色和纹理信息,不精确的相机对焦可能导致目标模糊。这些因素在设计IRSTD的特征提取技术时提出了特殊挑战。
  • 3) 不确定的形状:红外目标的尺度和形状在不同场景下变化显著,这使得检测问题变得相当具有挑战性。

为了在复杂背景下识别小型红外目标,已经提出了许多基于学习的方法,其中神经网络的U形结构受到了广泛关注。这些网络包括编码器、解码器和长距离跳跃连接。非对称上下文调制(ACM)网络最初证明了跨层特征融合在保留红外目标特征方面的有效性。这是通过使用非对称的自上而下和自下而上的结构双向聚合高层语义信息和低层细节来实现的。

随后,特征融合策略在红外目标检测任务中被广泛采用。一些最近的方法通过改进跳跃连接,促进有益特征向解码器组件的传递。受到嵌套结构的启发,DNA-Net开发了一个密集嵌套的交互模块,以促进高低 Level 特征之间的逐步互动并自适应地增强特征。此外,还有一些方法专注于开发更有效的编码器和解码器。例如,UIU-Net将较小的U-Net嵌入到U-Net中,以学习目标的局部对比信息,并执行交互式跨注意力(IC-A)进行特征融合。

尽管上述基于卷积神经网络(CNN)的方法取得了满意的结果,但它们缺乏对目标综合属性的编码能力,遗漏了其判别性特征。为了解决这一问题,MTU-Net 采用了一种多级的视觉 Transformer (ViT)-CNN混合编码器,以利用所有编码特征之间的空间相关性来进行上下文信息的聚合。然而,一个简单的空间ViT-CNN混合模块不足以理解图像的全局语义,这会导致高误报率。

为了进一步剖析这个问题,作者在图1(c)-(f)中分别展示了ACM,DNA-Net,UIU-Net和MTU-Net的框架,以及不同解码器 Level 的注意力图的可视化。作者观察到,当现有模型将其注意力集中在高层特征中背景杂波的局部区域时,会发生误报。换句话说,误报通常是由更深层次背景的不连续性建模造成的。作者将这个问题归因于以下三个主要原因:

1) 不同特征层级之间的语义交互并未良好建立。由于红外小目标尺寸较小,其展现的特征有限。多次下采样过程不可避免地导致空间信息的丢失。这极大地影响了网络中层级与层级之间的特征交互,最终导致对全局语义信息的编码能力不足。

2) 特征增强未能弥合编码器和解码器之间的信息差距。编码器的输出特征与解码器的输入特征之间存在语义差距。简单的跳跃连接和密集嵌套模块不足以增强特征对解码器的有利响应,因此使得从红外图像到分割空间的映射关系建立变得具有挑战性。

3) 在更深层次中目标与背景的长距离上下文感知不准确。红外小目标可能与场景背景高度相似。一个强大的检测器不仅要感知到目标的局部显著性,还需要对背景的连续性进行建模。卷积神经网络(CNNs)和普通的ViTs在这方面并不完全具备所需的能力。

为了解决上述问题,作者提出了一个空间通道交叉变换网络(SCTransNet)用于红外小目标检测(IRSTD),旨在在更深层次区分小目标和背景干扰。如图1(g)所示,SCTransNet在原始跳跃连接上增加了多个空间通道交叉变换块(SCTB)(第III-B节),与所有编码器和解码器建立显式关联。具体来说,SCTB由两个组件组成:空间嵌入的单头通道交叉注意力(SSCA)(第III-B1节)和互补的前馈网络(CFN)(第III-B2节)。

SSCA在所有 Level 上应用通道交叉注意从特征维度学习全局信息。此外,在特征协方差计算之前,使用深度卷积进行局部空间上下文混合。这一策略提供了两个优点:

  • 首先,它利用卷积的局部连接性以较小的计算开销突出了局部空间上下文,从而增加了红外小目标的显著性。
  • 其次,它确保在注意矩阵计算过程中隐式捕获全 Level 特征像素之间的上下文化全局关系,从而增强背景的连续性。

在SSCA完成跨层级信息交互之后,CFN通过两个互补的阶段在每一层级上进行特征增强。起初,它使用多尺度深度卷积来增强目标邻域空间响应,并在像素 Level 上汇总跨通道的非线性信息。随后,它通过全局平均池化逐通道估计总的空间信息,并将不同语义模式之间的局部跨通道交互作为注意力图创建。上述策略有两个优点:

  1. 多尺度空间建模可以强调目标与背景之间的语义差异。
  2. 建立局部空间全局通道(LSGC)与全局空间局部通道(GSLC)的互补相关性,可以促进红外图像与语义图之间的接口。

得益于上述结构(图1(g)),SSC-TransNet比其他方法能更好地感知图像语义,从而减少误报。主要贡献如下:

  1. 作者提出了SCTransNet,它利用多个空间通道交叉Transformer块(SCTB)连接所有编码器和解码器,以预测在网络更深层中目标及其背景的上下文。
  2. 作者提出了一个空间嵌入式单头通道交叉注意力(SSCA)模块,以促进所有特征 Level 之间的语义互动并学习图像的长距离上下文相关性。
  3. 作者设计了一种新颖的互补前馈网络(CFN),通过交叉空间-通道信息来增强目标和背景之间的语义差异,弥合编码器和解码器之间的语义差距。

2 Method

这一部分详细阐述了所提出的空间通道交叉变换网络(SCTransNet)用于红外小目标检测。作者在III-A节中首先介绍所提出的SCTransNet的整体结构。随后,在III-B节中,作者详细阐述空间通道交叉变换块(SCTB)的技术细节及其内部结构:空间嵌入的单头通道交叉注意力(SSCA)和互补的前馈网络(CFN)。

Overall pipeline

如图2所示,给定一个红外图像,SCTransNet最初采用四个组的ResNet-10和最大池化层来获取高级特征 ,()。其中是通道维度,,,,。

接下来,作者使用大小为,,和的卷积核和步长对进行斑块嵌入,分别获得嵌入层,()。这些层随后被送入SCTB进行全尺度语义特征融合并获得输出,(),它们的大小与相同。SCTB的细节将在下一节提供。通过特征映射(FM)恢复到原始编码处理的大小,这包括双线性插值、卷积、批量归一化和ReLU激活。

同时,作者采用残差连接来合并编码器和解码器之间的特征。上述过程的数学表达为:

最后,采用通道域交叉注意力(Channel-wise Cross Attention, CCA)来融合高低层次的特征,随后使用两个CBL块进行解码。

为了提高梯度传播效率和特征表示,采用了一种多尺度深度监督融合策略来优化SCTransNet。具体来说,对于每个解码器的输出 ,使用  卷积和sigmoid函数,获得显著性图 ,其表示为:

接下来,将低分辨率的显著图  ()上采样至原始图像大小,并将所有的显著图融合在一起以获得 。

其中  表示通道拼接, 表示双线性插值。最后,计算整体显著图与真实值(GT) 之间的二值交叉熵(BCE)损失,如下所示,并将这些损失结合起来。

 (5)  (6)

在该文中, 代表对应不同损失函数的权重。在这项工作中, 和  是根据经验设置为1的。

Spatial-channel Cross Transformer Block

近期,像MLP-mixer 和 Poolformer 这样成功的架构都考虑到了在构建上下文信息时空间和通道信息之间的交互。然而,传统的CCT过度关注建立通道信息,而忽略了空间信息在邻近建模中的关键作用。

为了解决这个问题,作者开发了一个空间-通道交叉变换块(SCTB),作为一个空间-通道混合单元,以混合全级编码特征。如图3所示,给定第级特征 ,(),其中,SCTB的过程可以定义为:

 (9)  (10)

其中LN表示层归一化, ()以及拼接的标记是SSCA的五个输入,表示SSCA的输出,代表SCTB的输出。下面分别描述SSCA:空间嵌入的单头通道交叉注意力;以及CFN:互补的前馈网络。

Iii-B1 Spatial-embedded single-head channel-cross attention

在图3(a)中,考虑到执行层归一化(LN)的五个输入标记和,自监督空间通道注意(SSCA)的启动点是计算单层特征与全层拼接特征之间的局部空间通道相似性,以建立全局语义。

因此,SSCA使用四个输入标记作为 Query ,一个拼接标记作为键和值。这是通过利用卷积来整合逐像素的跨通道上下文,然后应用深度卷积来捕获局部空间上下文来完成的。从数学上讲,

其中  和  是  的逐点卷积, 和  是  的深度卷积。接下来,作者将 ,,和  分别 Reshape 为 , 和 。SSCA 过程定义如下:

 

其中  是SSCA的输出, 代表不同 Level 的基于协方差的注意力图, 表示实例规范化操作,而  是一个可选的温度因子,定义为 。

值得注意的是,作者在两个方面与常见的通道交叉注意力机制不同:图像块不包含位置编码,并且作者使用单个头学习注意力矩阵。这些策略将在消融研究 IV-E1 中详细比较其有效性。

Iii-B2 Complementary Feed-forward Network

如图4(a)所示,先前的研究总是将单一尺度的深度可分卷积纳入标准的前馈网络中,以增强局部关注。最近,最先进的多尺度特征网络(MSFN)采用不同核大小的深度可分卷积的两条路径,以增强多尺度表示。然而,上述方法局限于特征表示的局部空间全局通道范式。

实际上,全局空间和局部通道信息(图4(b))同样重要。因此,作者设计了一个复合特征网络(CFN),它结合了两种特征表示的优势。

在图3(b)中,给定一个输入张量 ,CFN首先建模多尺度的LSGC信息。具体来说,在层归一化之后,CFN使用卷积将通道维度增加一个因子,并将特征图等分为两个分支,分别利用和深度卷积增强局部空间信息。然后通过通道拼接多尺度特征并将它们恢复到原始维度。以上过程可以定义为:

 

在这段文本中, 表示  卷积, 和  分别代表33 和 55 的深度卷积。这里, 表示沿着通道维度将特征向量划分为两个相等的部分。

接下来,CFN构建GSLC信息。由于在测试阶段小目标检测图像输入的分辨率不同,作者首先使用空间维度的全局平均池化(GAP)来近似特征的总空间信息,而不是使用计算密集型的空间MLPs来精确计算全局空间信息。然后,作者采用尺寸为3的一维卷积来捕捉空间压缩特征的本地区域通道信息,如下所示。

其中  是广播的哈达玛积。通过融合互补的空间和通道信息,CFN在目标定位和背景全局连续性的方面增强了特征的表示。

IV Experiments and Analysis

Evaluation metrics

作者使用几个标准指标将提出的SCTransNet与现有最先进(SOTA)方法进行了比较。

交并比(IoU): IoU是一个像素 Level 的评估指标,定义为:

在这里, 和  分别表示交集区域和并集区域的大小。 是样本的数量, 表示真实阳性像素的数量, 和  分别代表 GT 和预测阳性像素的数量。

标准化交并比(nIoU):nIoU是IoU的标准化版本,表示为

F-measure (F):它评估了在像素 Level 上的漏检和误报,给定如下

在这段文本中,"" 和 "" 分别表示精确率和召回率。

检测概率():  是正确预测的目标数量  与所有目标数量  的比率,表示为:

遵循[22],如果目标质心的偏差小于3,作者认为目标被正确预测。

误报率 ():  是另一种目标 Level 的评估指标。它是错误预测的目标像素数  与图像中所有像素数  的比例,表示为:

再次,如果目标质心的偏差超过3,作者将这些像素分类为错误预测。

除了固定阈值的评估方法外,作者还利用接收者操作特性(ROC)曲线来全面评估模型。ROC用于描述在不同下的的变化趋势。

Experiment settings

数据集: 在实验中,作者使用了三个公共数据集,分别为:NUAA-SIRST,NUDT-SIRST,以及IRSTD-1k,这些数据集分别包含427、1327和1000张图像。作者采用了[22]中的方法来划分NUAA-SIRST和NUDT-SIRST的训练集和测试集,以及[34]中的方法来分割IRSTD-1k。因此,所有的划分都是标准的。

实现细节: 作者采用结合了ResNet-10的U-Net作为检测的主干网络。 Patch 嵌入的核大小和步幅大小为16,SCTB的数量为4,在CFN中的通道扩展因子为2.66。SCTransNet在训练时没有使用任何预训练权重,每张图像都经过归一化处理,并随机裁剪成256256的 Patch 。

为了避免过拟合,作者通过随机翻转和旋转来增强训练数据。模型使用Adam优化器进行训练,初始学习率为0.001,并采用余弦退火策略逐渐将学习率降至。批量大小和周期大小分别设置为16和1000。所提出的SCTransNet是在单个Nvidia GeForce 3090 GPU、Intel Core i7-12700KF CPU和32 GB内存上使用PyTorch实现的。训练过程大约耗时24小时。

Baseline 方法: 为了评估SCTransNet的表现,作者将SCTransNet与现有的SOTA IRSTD方法进行了比较。具体来说,作者在NUAA-SIRST、NUDT-SIRST和IRSTD-1k数据集上,将其与六种已确立的传统方法(Top-Hat,Max-Median,WSLCM,TLLCM,IPI,MSLSTIPT)以及七种基于学习的方法(ACM,ALCNet ,RDIAN,DNA-Net,ISTDU,UIU-Net,和MTU-Net)进行了比较。

为了保证公平的对比,作者使用与SCTransNet相同的训练数据集重新训练了所有基于学习的方法,并根据原始论文采用了它们设定的固定阈值。

这些技术的大多数开源实现可以在以下链接找到:https://github.com/XinyiYing/BasicIRSTDhttps://github.com/xdFai

Quantitative Results

定量结果展示在表1中。总的来说,基于学习的方法在目标检测准确性和目标轮廓预测方面显著优于传统算法。同时,SCTransNet也优于所有其他算法。在IoU、nIoU和F-measure这三个指标上,SCTransNet在所有三个公开数据集上都明显领先。这表明SCTransNet具有很强的保留目标轮廓的能力,并且能够区分目标与背景之间的像素级信息差异。

作者还注意到,尽管SCTransNet没有获得最佳的和,例如,在NUDT-SIRST中,DNA-Net的只比SCTransNet高0.2,然而作者的目标检测误报率却是DNA-Net的一半以上。这证明SCTransNet在误报和检测精度之间取得了优越的平衡,这一点从显著高的综合指标F-measure可以体现出来。接下来,作者全面地将当前算法与最具有竞争力的深度学习方法,DNA-Net和UIU-Net进行了比较。

表2给出了不同算法在三个数据上的平均指标,作者可以观察到,在最高性能下,SCTransNet拥有可接受的参数,并且优于强大的UIU-Net。

图5展示了各种基于竞争学习算法的ROC曲线。很明显,SCTransNet的ROC曲线优于所有其他算法。例如,通过适当地选择一个分割阈值,SCTransNet在NUAA-SIRST和NUDT-SIRST数据集上实现了最高的检测准确率,同时保持了最低的误报率。

表3展示了在不同阈值下,图5的曲线下面积(AUC):  和 。可以看出,SCTransNet在各种各样的误报率下始终达到最优的检测性能。同时,在经历相同的连续阈值变化时,与其他方法相比,SCTransNet的曲线更加连续且平滑。这一观察表明,SCTransNet显示出卓越的可调适应性。

Visual Results

七个代表性算法在NUAA-SIRST、NUDT-SIRST和IRSTD-1k数据集上的定性结果在图6和图7中给出。其中,传统的算法如Top-Hat和TTLCM常常产生大量的误报警和漏检。此外,即使在目标被检测到的情况下,其轮廓也常常不清晰,这阻碍了对目标类型的进一步准确识别。

在学习型算法中,SCTransNet实现了精确的目标检测和有效的轮廓分割。如图6(2)所示,SCTransNet成功地区分了两个位置相近的目标,而其他深度学习方法往往将它们合并为一个目标。这表明SCTransNet准确地区分了图像中的每个元素。

在图6(d)中,只有SCTransNet准确地从山脉中分离出无人机的形状。这是因为SCTransNet不仅学习了目标的特征,还构建了关于背景的高级语义信息,从而准确地捕捉到了背景的整体连续性。在图6(f)中,除了当前方法和DNA-Net外,其余方法在草地上的石头上产生了误报警。这可以归因于它们仅构建局部对比度信息,并且没有在图像上建立远距离依赖的限制。

E. Ablation Study

在这一部分,作者逐步将深度监督(DS)、SSCA、CFN和CCA模块整合到 Baseline UNet-Res10中,以验证上述模块对于红外小目标检测的有效性。结果展示在表4中。作者观察到,随着所提及模块的加入,算法性能持续提升。特别是SSCA模块显著提高了算法的IoU、IoU和F-measure值,分别提升了4.66%、4.93%和2.87%。这有效地证明了目标全层次信息建模的有效性。接下来,作者将深入讨论所提出的SSCA和CFN模块,并将采用的CCA模块与其他在IRSTD中实现的特征融合方法进行比较。

V-B1 Impact of SSCA Block

为了证明所提出的选择性通道变换块(SCTB)的有效性,作者展示了多头交叉注意力(MCA)以及三种网络结构变体:带有位置编码的SSCA(_SSCA w PE_)、带有多头的SSCA(_SSCA w MH_)以及不带空间嵌入的SSCA(_SSCA w/o SE_)。

SSCA w PE:在块嵌入阶段,作者引入位置编码。为了适应不同大小的测试图像,作者采用插值方法来缩放位置编码矩阵,确保算法的正常运作。

SSCA w MH:作者使用典型的多头交叉注意力机制来替代SSCA中的单头交叉注意力机制,以验证单头策略在提取红外小目标有限特征方面的有效性。

无SE的SSCA:为了验证局部空间信息编码的有效性,作者在SCTB中移除了在QKV矩阵生成过程中的深度卷积。

如表5所示,SSCA在三个数据集上的IoU、IoU和F-measure值均高于MCA和变体_SSCA w PE_。这表明SCTransNet可以通过全面的信息交互比MCA更好地感知小目标和复杂背景之间的信息差异。这也说明,绝对位置编码不适合IRSTD任务。这是由于在可变大小图像输入中位置嵌入矩阵的缩放,导致小目标位置编码信息不准确,从而影响目标像素的预测。

与SSCA相比,_SSCA w MH_ 在SIRST-1K数据集上的IoU、IoU和F-measure值分别下降了1.15%、1.52%和0.73%。这是因为多 Head 策略复杂化了红外小目标特征映射空间,这对于从特征有限的目标中提取信息相当不利。因此,在SCTransNet中,作者为IRSTD使用了单 Head 注意力。

比较SSCA及其变体_SSCA w/o SE_,作者发现局部空间嵌入可以显著提高在三个公共数据集上红外小目标检测的性能。图8中展示的可视化图进一步说明了这种策略的有效性。这归功于局部空间嵌入在深层中捕捉目标的具体细节和背景潜在空间相关性的能力。因此,这种方法减少了漏检的情况,并提高了检测过程的置信度。

V-B2 Impact of CFN Block

前馈网络(FFNs)被用于加强特征内的信息相关性并引入非线性激化以丰富特征表示。在本节中,作者基于SCTransNet使用了五种不同的FFN模型来与所提出的CFNs进行比较。如图9所示,作者使用了典型的FFN(用于图像分类的ViT),在局部空间内嵌入的LeFF(用于图像恢复的Uformer),基于门控卷积的GDFN(用于图像恢复的Restormer),基于多尺度深度卷积的MSFN(用于图像去雨的Sparse transformer),以及不带全局空间和局部通道模块的变体CFN(_CFN w/o GSLC_)。

如表6所示,LeFF在指标上略优于FFN,这表明在前馈神经网络中采用的局部空间信息聚合对于红外小目标检测(IRSTD)是有效的。因为门控卷积倾向于将红外小目标视为噪声并将其滤除,这就导致了GDFN的检测准确性较低。作者还发现,除了CFN方法之外,MSFN优于所有方法,这证明了多尺度结构在交互空间信息方面比单尺度结构具有更强的能力。最后,作者观察到变体_CFN w/o GSLC_的性能不如MSFN。

然而,当作者引入GSLC模块时,CFN在NUAA和NUDT数据集上达到了IoU和nIoU的最优值。此外,网络的参数和计算复杂性几乎保持不变,这证明了本文提出的互补机制对于IRSTD任务的有效性和实用性。如图10所示,在互补机制的帮助下,网络能更有效地增强红外小目标,并在建筑和丛林背景中抑制杂波,从而提高了目标检测的准确性。

V-D3 Impact of CCA Block

正如第二节A部分提到的,跨层特征融合可以促进增强目标信息的保持。在本节中,作者利用三种来自不同IRSTD方法的跨层特征融合结构,即ACM、AGPC和AFFPN,来替换SCTransNet中使用的CCA模块。这种替换产生了变体结构,分别为C.ACM、C.AGPC和C.AFFPN。如表7所示,结果表明,SCTransNet在NUAA和NUDT数据集上获得了最高的IoU和nIoU值,同时具有最低的模型参数和计算复杂度。这展示了作者所使用的CCA的有效性。

Robustness of SCTransNet

在实际的红外检测系统中,焦平面阵列(FPN)的非均匀响应可能导致红外图像中的条纹噪声。这对红外STD方法的噪声免疫性和泛化能力提出了挑战。图11显示了带有真实条纹噪声的红外图像在各种检测方法下的视觉效果。很明显,噪声破坏了目标局部邻域信息。

在图11(1)中,只有SCTransNet准确检测到两个目标,而其他方法出现漏检和误报。在图11(2)中,条纹图像中还存在着一块盲元,这干扰了对建筑物语义的理解。因此,ACM、RDIAN和MTU-Net在盲元周围产生了误报。能够明确建立关于目标和背景的完整层次上下文信息,正是SCTransNet更为鲁棒的原因所在。

V Conclusion

在本文中,作者提出了一种用于红外小目标检测的空域-通道交叉Transformer网络(SCTransNet)。SCTransNet利用空域-通道交叉Transformer块建立编码器和解码器特征之间的关联,以预测更深网络层中目标和背景的上下文差异。作者引入了一种空间嵌入的单头通道交叉注意力模块,它通过局部空间特征与全局全层次通道信息的交互,建立目标和背景之间的语义相关性。作者还设计了一个互补的前馈网络,该网络采用多尺度策略并交叉空域-通道信息,以增强目标和背景之间的特征差异,从而有效促进将红外图像映射到分割空间。作者对三种公共数据集上方法的全面评估显示了所提技术有效性和优越性。

参考

[1].SCTransNet: Spatial-channel Cross Transformer Network for Infrared Small Target Detection

相关文章
|
3月前
|
机器学习/深度学习
YOLOv8改进 | 2023注意力篇 | MLCA混合局部通道注意力(轻量化注意力机制)
YOLOv8改进 | 2023注意力篇 | MLCA混合局部通道注意力(轻量化注意力机制)
117 1
|
3月前
|
机器学习/深度学习
YOLOv5改进 | 2023注意力篇 | MLCA混合局部通道注意力(轻量化注意力机制)
YOLOv5改进 | 2023注意力篇 | MLCA混合局部通道注意力(轻量化注意力机制)
143 0
|
3月前
|
机器学习/深度学习 编解码 自然语言处理
YOLOv8改进 | 主干篇 | RevColV1可逆列网络(特征解耦助力小目标检测)
YOLOv8改进 | 主干篇 | RevColV1可逆列网络(特征解耦助力小目标检测)
97 0
YOLOv8改进 | 主干篇 | RevColV1可逆列网络(特征解耦助力小目标检测)
|
5月前
|
机器学习/深度学习 人工智能 算法
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
67 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
视觉 注意力机制——通道注意力、空间注意力、自注意力
本文介绍注意力机制的概念和基本原理,并站在计算机视觉CV角度,进一步介绍通道注意力、空间注意力、混合注意力、自注意力等。
755 0
|
3月前
|
机器学习/深度学习 编解码 自然语言处理
LRP-QViT完美而来 | 输出层分配相关性+剪切通道让Swin Transformer量化后居然涨1.5个点
LRP-QViT完美而来 | 输出层分配相关性+剪切通道让Swin Transformer量化后居然涨1.5个点
125 0
|
3月前
|
机器学习/深度学习 编解码 自然语言处理
YOLOv5改进 | 主干篇 | RevColV1可逆列网络(特征解耦助力小目标检测)
YOLOv5改进 | 主干篇 | RevColV1可逆列网络(特征解耦助力小目标检测)
37 2
|
12月前
|
机器学习/深度学习 人工智能 算法
基于Transformer的人工神经网络,将有机结构的图像转换为分子结构
基于Transformer的人工神经网络,将有机结构的图像转换为分子结构
181 0
|
9月前
|
机器学习/深度学习 编解码 索引
神经网络风格化过程的特征控制
翻译:《Controlling Perceptual Factors in Neural Style Transfer》
|
10月前
|
自动驾驶 计算机视觉
使用扩张卷积的语义分割
使用扩张卷积训练语义分割网络。语义分割网络对图像中的每个像素进行分类,从而生成按类分割的图像。语义分割的应用包括自动驾驶的道路分割和医疗诊断的癌细胞分割。
56 0