一、本文介绍
本文聚焦于利用U - Net v2中的SDI模块优化RT-DETR的目标检测网络模型。SDI
模块相较于传统模块独具特色,它融合了先进的特征融合思想,借助精心设计的结构,在确保计算资源高效利用的前提下,巧妙地融合不同层级特征的语义信息与细节,实现特征的全方位增强。在应用于RT-DETR
的改进过程中,SDI
模块能够助力模型更精准地聚焦于图像中的目标物体,有效抑制背景及其他干扰因素,凸显目标的关键特征与位置信息,从而大幅提升RT-DETR
在复杂场景下的目标检测精度与稳定性。
专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、SDI介绍
U-NET V2: RETHINKING THE SKIP CONNECTIONS OF U-NET FOR MEDICAL IMAGE SEGMENTATION
U-Net V2
中的SDI模块
在整个网络架构中起着关键作用,其设计旨在解决传统模型在特征融合方面的不足,通过独特的结构原理实现更高效的语义信息和细节融合,从而提升医学图像分割的性能。
2.1 设计出发点
在传统的U - Net模型
中,基于U - Net
的模型连接方式在整合低层次和高层次特征时可能效果不佳。
- 编码器提取的低层次特征通常保留更多细节但缺乏足够语义信息且可能含噪声,高层次特征虽有较多语义信息却因分辨率降低缺少精确细节。
- 简单的拼接融合依赖网络学习能力,在医学影像数据有限的情况下是个挑战,且会增加GPU内存消耗和计算量。
因此,需要一种更有效的方式来融合不同层次的特征,这就是SDI模块
的设计出发点。
2.2 SDI结构原理
- 首先,对编码器生成的每一层级(i)的特征$f{i}^{0}应用空间和通道注意力机制
应用空间和通道注意力机制 \varphi{i}^{s}和和 \phi{i}^{c},公式为,公式为 f1i=ϕci(φsi(f0i))$使特征能够整合局部空间信息和全局通道信息。然后应用1×1卷积将$f{i}^{1}的通道数减少到c(超参数),得到f_{i}^{2}$。 - 在解码器的每一层级i,以$f{i}^{2}为目标参考,调整其他层级特征图的大小使其与f{i}^{2}分辨率匹配,对于j < i:f3ij=D(f2j,(Hi,Wi))(D为自适应平均池化);j = i时:f3ij=(I)(f2j)(I为恒等映射);j > i时:f3ij=U)(f2j,(Hi,Wi))(U为双线性插值)。接着对调整后的特征图f{ij}^{3}应用3\times3卷积进行平滑,得到f{ij}^{4}=\theta{ij}\left(f{ij}^{3}\right)。最后,将所有调整为相同分辨率的第(i)层级特征图通过逐元素哈达玛积(H)进行融合,公式为f5i=H([f4i1,f4i2,⋯,f4iM])并将f_{i}^{5}发送到第i$层级解码器进行后续处理。
2.3 优势
- 从实验结果来看,在皮肤病变分割和息肉分割数据集上,U - Net V2相比其他先进方法有更好的分割效果。
- 在计算复杂度、GPU内存使用和推理时间方面,U - Net V2也表现出优势。相比UNet++,U - Net V2引入的参数更少,GPU内存使用量更低,FLOPs和FPS更优,说明SDI模块在提升性能的同时没有带来过多的计算和存储负担。
论文:https://arxiv.org/pdf/2311.17791
源码:https://github.com/yaoppeng/U-Net_v2三、实现代码及RT-DETR修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: