一、本文介绍
本问给大家带来的改进机制是UNetv2提出的一种多层次特征融合模块(SDI)其是一种用于替换Concat操作的模块,SDI模块的主要思想是通过整合编码器生成的层级特征图来增强图像中的语义信息和细节信息。该方法已在多个公开的医学图像分割数据集上进行了验证,包括皮肤病变分割和息肉分割,展示了其在这些分割任务中相比于现有方法的效果。所以其的一开始提出使用于分割,但是其也可以用于目标检测,亲测效果非常好,同时该结构主要是可以用于替换我们各种Neck中的结构形成二次创新比如之前的BiFPN,我们可以用其替换其在的Fusion操作从而形成二次创新。
欢迎大家订阅我的专栏一起学习YOLO!
专栏目录:YOLOv8改进有效系列目录 | 包含卷积、主干、检测头、注意力机制、Neck上百种创新机制
专栏回顾:YOLOv8改进系列专栏——本专栏持续复习各种顶会内容——科研必备
二、SDI的框架原理
2.1 SDI的基本原理
SDI(Semantic and Detail Infusion)模块是UNetV2模型的一个组成部分。UNetV2包含三个主要模块:编码器、SDI模块和解码器。在SDI模块中,首先应用空间和通道注意机制对编码器生成的每个层级的特征进行处理。
SDI模块的主要思想是通过整合编码器生成的层级特征图来增强图像中的语义信息和细节信息。具体来说:
1. 特征提取和整合:首先,编码器针对输入图像生成多层级的特征。然后,通过空间和通道注意机制处理每个层级的特征,以便特征能够整合局部空间信息和全局通道信息。
2. 高级特征和低级特征的融合:对于每个层级的特征图,SDI模块将包含更多语义信息的高级特征和捕捉更精细细节的低级特征进行融合。这通过简单的哈达玛积(Hadamard product)操作来实现,从而增强了每个层级特征的语义和细节。
3. 特征传递和分割:经过精炼的特征随后传递给解码器,用于解析重构和图像分割。SDI模块可以无缝集成到任何编码器-解码器网络中。该方法已在多个公开的医学图像分割数据集上进行了验证,包括皮肤病变分割和息肉分割,展示了其在这些分割任务中相比于现有方法的优越性,同时保持了计算和内存效率。
图中的SDI模块部分 (b) 展示了该模块是如何对第三层级的特征(l=3)进行精细化处理的。我们可以从以下几个步骤来理解SDI模块的工作原理:
- 上采样(UpSample):通过上采样过程,SDI模块将来自更低层级的特征图(l=2)的尺寸增加,使其与当前层级的尺寸匹配。这有助于将更细节的信息带入当前的特征图中。
- 身份映射(IdentityMap):这通常表示特征图在不经任何修改的情况下直接传递到下一个操作。在这里,它可能表示第三层级的特征图在没有任何变化的情况下,直接传递到SDI模块进行处理。
- 下采样(DownSample):与上采样相反,这一步将更高层级的特征图(l=4)的尺寸减小,以匹配第三层级的尺寸。这有助于将更高层次的语义信息带入当前层级。
- 注意力的应用:应用空间和通道注意机制对编码器生成的每个层级的特征进行处理。这个过程使得特征能够整合局部空间信息和全局通道信息
总结:这一机制我觉得大家可以理解成一种融合了注意力机制的Concat操作