MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇

简介: MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇

在标准的医院血液检查中,传统的流程需要医生通过显微镜手动从患者的血液显微图像中分离白细胞,然后通过自动白细胞分类器对分离的白细胞进行分类,以确定血样中不同类型白细胞的数量和体积,从而帮助疾病诊断。这种方法不仅耗时且费力,而且由于诸如图像质量和环境条件等因素可能导致错误,这可能潜在地导致后续分类和误诊。当代白细胞检测方法在处理具有较少白细胞特征的图像以及不同白细胞之间尺度差异方面存在局限性,导致大多数情况下结果不满意。

为了解决这些问题,本文提出了一种创新的白细胞检测方法:多级特征融合与变形自注意力DETR(MFDS-DETR)。为了解决白细胞尺度差异问题,作者设计了一个高级筛选特征融合金字塔(HS-FPN),实现了多级融合。这种模型使用高级特征作为权重通过通道注意力模块过滤低级特征信息,然后将筛选的信息与高级特征合并,从而增强模型的特征表达能力。此外,作者通过在编码器中集成多尺度可变形自注意力模块并在解码器中使用自注意力和交叉可变形注意力机制来解决白细胞特征稀缺问题,有助于提取白细胞特征图的全局特征。

通过使用私有WBCDD、公共L1SC和BCCD数据集与其他最先进的白细胞检测模型进行比较,证明了所提出MFDS-DETR方法的有效性、优越性和通用性。

源代码和WBCDD数据集: https://github.com/JustIC03/MFDS-DETR

1 Introduction

近年来,严重疾病的全球发病率如急性白血病等显著上升。这些疾病的初级诊断工具是常规血液测试,医生需要使用显微镜检查患者的血涂片显微图像。诊断基于白细胞的不同类型和比例。自动化白细胞分类通常作为血液学分析技术,用于对血液图像中的白细胞进行分类。这种技术通常通过检查形态、大小、色素和核仁特征等属性,准确地划分不同的白细胞类型。然而,白细胞分类模型的应用通常需要经验丰富的医生手动从患者的血液显微图像中分离白细胞,这是一个劳动密集且耗时的过程,容易出错。

此外,图像质量和环境条件等因素可能影响该过程,导致后续分类的潜在错误。这些错误可能误导医生的判断,导致患者安全问题。为了解决这些问题,研究行人一直在探索白细胞目标检测。本研究旨在自动准确地确定血液显微图像中白细胞的位置并计数不同类型的白细胞。这种方法可以加快医生的诊断和治疗决策过程,从而提高患者护理,具有非常重要的研究意义。

传统的白细胞目标检测在血液显微图像中常常遇到以下挑战:

  1. 不同的医院使用不同的设备捕捉血液图像,产生的图像具有不同的颜色配置。这种变化可能导致白细胞检测的效率降低。
  2. 白细胞图像中可识别特征的有限数量也提出了高效检测的障碍。
  3. 不同医院设备在不同放大 Level 下产生的血液图像中白细胞大小存在不一致性。此外,不同白细胞类型之间固有的尺寸差异也会加剧这些尺寸差距,从而对白细胞检测的有效性产生负面影响。
  4. 与其他自然图像相比,白细胞医学显微镜图像通常具有低分辨率和不同的成像模式。这些图像中目标与自然图像中的物体之间巨大的几何外观差异给传统的目标检测算法带来了显著的挑战。

为了解决与血液显微镜成像相关的白细胞目标检测所面临的挑战,本文提出了一种基于多级特征融合与变形自注意力DETR(MFDS-DETR)的方法。设计了一个高级筛选特征融合金字塔(HS-FPN),以促进多级融合,并考虑了白细胞和不同白细胞之间的尺寸差异的独特特性。在HS-FPN中,高级特征作为权重通过通道注意力模块过滤低级特征信息。过滤后的信息与高级特征合并,从而增强模型的特征表达能力。

此外,为了解决白细胞中特征稀缺问题,在编码器中引入了多尺度可变形自注意力机制。这有助于提取白细胞特征图的全局特征。接下来,使用自注意力和交叉可变形注意力机制,解码器从编码器的全局特征中学习要检测的目标。然后,在二分图中将解码器的输出与 GT 值进行匹配,以获取目标的位置和类别。这个过程实现了白细胞的自动检测。

与现有的白细胞检测方法相比,MFDS-DETR有效解决了显微镜血液图像中白细胞特征有限的挑战。此外,它减少了图像中不同白细胞之间尺寸差异对建模过程有效性的影响。本研究的贡献主要可以总结如下:

在细粒度白细胞检测领域,作者提出了一个名为MFDS-DETR的新颖方法。这种基于多尺度融合和可变形自注意力的方法由四个关键组成部分组成: Backbone 网络、高级筛选特征融合金字塔、编码器和解码器。

在作者团队的关联医学专业人士的指导下,作者为现有的公开可用的白细胞分类数据集LISC打上目标帧。作者还与作者的合作伙伴医院合作,开发了作者自己的白细胞检测数据集WBCCD,该数据集将通过作者GitHub仓库中的下载链接向其他研究行人提供。

白细胞检测领域的发展严重依赖于数据集的现状。现有的公开可用的LISC和BCCD白细胞数据集已经收集了很长时间,但规模较小且质量较差。因此,作者决定将作者的WBCCD数据集贡献给其他研究行人,为该领域的发展做出重要贡献。

作者提出了创新的HS-FPN。与基于自然图像的传统特征融合方法不同,这个模块是根据白细胞固有的尺寸差异进行设计的。这一重大转变极大地增强了模型在白细胞检测数据集上的特征表达能力。

作者提出的模型MFDS-DETR在白细胞检测方面优于其他先进和 Baseline 模型。这一点由在两个公共数据集LISC和BCCD以及作者持有的私有WBCCD白细胞细粒度检测数据集中获得的优秀检测结果所证实。这些结果强调了作者的模型的有效性和广泛适用性。

2 Related Work

卷积神经网络(CNN)系列模型是一种高效且精确的一阶段目标检测机制,在目标检测领域得到广泛应用。因此,它成为许多专注于白细胞目标检测的研究[31]的组成部分。[1]利用SSD和YOLOv3模型进行自动化白细胞检测,实现了对11种外围白细胞的检测。值得注意的是,白细胞图像只是血液图像的一个小部分。

为了解决当前检测方法在处理较小目标时的相对较差性能,[2]提出了SO-YOLO,该模型首先使用CNN提取图像特征,然后使用YOLO进行白细胞目标检测。为了进一步提高模型的性能,[3]提出了MID-YOLO,这是一个用于白细胞图像的一阶段CNN检测器。该模型利用注意力机制,在公开的Raabin-WBC数据集上表现出优越的检测性能。[4]使用EfficientNet作为 Backbone 网络来提高模型的效率和灵活性,并提出了TE-YOLOF检测器。[32]将这个问题应用于急性淋巴细胞白血病的诊断,通过使用YOLOv4目标检测算法,该算法目前被用作预筛选的重要辅助工具。[5]提出了基于改进的YOLOv5的白细胞检测模型YOLOv5-CHE。该模型解决样本缺乏和类别差异问题,通过将坐标注意力机制集成到卷积层中,增强了模型的特征提取能力。

考虑到单模型使用可能导致偏差,[6]设计了一个基于YOLOv3、YOLOv3-SPP和YOLOv3-tiny的集成模型,在IoU为0.5时,平均精确度(AP)达到88.6%。[7]提出了一种基于Twin-Fusion-Feature CenterNet(TFF-CenterNet)的白细胞检测方法,以减轻白细胞染色程度变化带来的问题。这种方法通过优化特征融合金字塔,解决了染色程度差异问题。

尽管单阶段目标检测模型的速度可能较低,但检测精度仍然落后于两阶段目标检测模型。[8]使用Faster R-CNN进行目标检测,并实验性地证明了使用ResNet-50作为 Backbone 网络可以获得更高的识别准确性。[9]通过在特征融合金字塔模块中添加注意力机制,改进了Mask R-CNN模型的多尺度特征融合能力,从而提高了检测准确性。[33]将YOLOv5与RetinaNet模型相结合,通过空间布置和表型特征准确量化淋巴细胞,并验证了网络性能,例如应用图像修改,如模糊、锐利、亮度和对比度等。[34]使用YOLOv8与DETR进行数千白细胞的检测,并使用DETR在单张图像中处理多个主题以提高检测准确性。

然而,这些关于白细胞目标检测的研究使用卷积神经网络(CNNs)来提取特征,然后进行目标定位和分类。这种方法受到卷积运算符的影响,无法学习白细胞图像的全局特征,从而阻碍了外周血白细胞的准确定位和分类。此外,白细胞的检测效果受到以下两个挑战的限制:

与自然图像的成像技术不同,白细胞的医学显微镜图像具有低分辨率。与白细胞固有的特性相结合,这导致白细胞图像中通常特征不足。

不同医院的显微镜仪器放大倍数各异,白细胞的大小也不均匀,导致白细胞之间存在尺寸差距。

为了解决上述挑战,通常采用多尺度特征融合。这个过程涉及将深度特征与浅层特征融合,从而使浅层特征具有强大的语义信息。存在两种多尺度特征融合方法:并行多分支网络和串行跳跃连接结构。并行多分支网络通常使用不同的卷积来提取同一特征图的特征,然后使用拼接来融合提取的特征。这种思想体现在GoogLeNet的Inception模块中,它使用各种卷积来提取同一特征图的特征,然后按通道维度将它们组合。

类似地,SSPNet在三种不同的方式下对同一特征图进行池化,然后将它们拼接在一起以获得多尺度融合特征图。DeepLabv3+采用ASSP结构进行特征融合,通过空卷积在不同尺度上获得特征,并通过上采样进行尺度统一操作。TridentNet和Big-Little Net采用类似的策略,后者使用BL模块更灵活地处理不同尺度的信息。与并行拼接方法相反,串行跳跃连接结构通常针对 Backbone 网络中不同层的输出进行多尺度融合。

特征金字塔网络(FPN)通过以统一尺度上采样高级特征,然后将它们与底层特征相加来实现多尺度特征融合。然而,由于FPN对高级目标信息存在歧义,PANet在FPN之上添加了双向特征融合模块,以增强局部定位信息。基于这些方法,BiFPN提出了一种更简洁的双向特征融合,Balanced FPN在集成和优化所有尺度的特征之前将它们与原始尺度特征相加。CE-FPN通过利用高级语义特征和注意力机制进行选择性特征融合来改进集成和优化过程。FaPN还设计了特征选择和特征对齐模块来提高FPN中特征融合的准确性,以应对潜在的FPN特征错位问题。

尽管这些多尺度特征融合方法具有重要的参考价值,但它们本质上基于自然图像设计。虽然其中一些方法在白细胞检测方面有效,但它们没有考虑白细胞显微图像的实际特性,从而限制了模型的检测效果。作者提出的MFDS-DETR网络模型有效解决了这些局限性。该模型首先通过 Backbone 网络从白细胞显微图像中获取多尺度特征图,然后使用设计好的HS-FPN进行特征融合。它将多尺度可变形自注意力机制集成到编码器操作中,以获取白细胞显微图像的全局特征,并最终使用解码器获得白细胞的位置和类别。作者的创新模型使用高级特征作为权重来过滤低级特征,将过滤后的特征与高级特征融合,从而显著增强模型检测效果。

此外,通过将多尺度可变形自注意力机制用于提取图像特征,作者的模型显著降低了复杂性并提高了检测效果。

3 Method

Overall Architecture

MFDS-DETR模型的整体结构如图1所示,包括四个关键组成部分: Backbone 网络、HS-FPN、编码器和解码器。 Backbone 网络的主要作用是提取白细胞的多种尺度图像特征,从而促进后续过程中的增强特征融合。HS-FPN是一个设计并改进的特性金字塔,用于容纳白细胞图像的特征,解决了白细胞图像中特征有限和白细胞直径差异的问题。HS-FPN通过使用HS-FPN中的通道注意力(CA)模块,将高级语义特征作为权重进行低级特征过滤。这些过滤后的特征按点与高级语义特征逐点相加,实现多尺度特征融合,从而最终提高模型的特征表达能力。编码器模块的主要功能是学习白细胞图像的全局特征。

通过集成多尺度可变形自注意力模块,模型可以学习白细胞图像在不同尺度下的全局特征。相反,解码器在输出与 GT 值之间进行二分图匹配,以确定目标的位置和类别。这通过使用自注意力和交叉可变形机制,从编码器的全局特征中学习要识别的物体来实现。

Backbone Network

MFDS-DETR的特征提取过程中,使用增强版的ResNet-50作为 Backbone 网络。ResNet-50利用残差连接来缓解梯度消失问题,从而促进收敛并解决深度神经网络通常伴随的退化问题。

由于白细胞图像中特征的缺乏,作者对原始ResNet-50模型进行了增强,通过在 Backbone 网络中添加了一个卷积模块。这个模块的设计是为了提取更深层次的语义信息,从而提高模型的检测效果。与ResNet-50类似,这个卷积模块首先通过卷积使用卷积块减少通道数量,然后通过卷积缩减特征图大小,最后通过另一个卷积增加通道数量。

High-level Screening-feature Pyramid Networks

在白细胞数据集中,白细胞识别任务受到多尺度问题的挑战,这使得模型难以准确地识别白细胞。这种复杂性源于不同类型白细胞的直径通常存在差异,即使在同一显微镜下,相同类型的白细胞在不同的显微镜下成像也可能看起来大小不同。

为了应对白细胞数据集中固有的多尺度挑战,作者开发了基于层次尺度的特征金字塔网络(HS-FPN)来实现多尺度特征融合。这使得模型能够捕获更全面的白细胞特征信息。

HS-FPN的结构如图2所示,包括两个主要组成部分:

  1. 特征选择模块;
  2. 特征融合模块。

首先,不同尺度的特征图在特征选择模块中经历筛选过程。然后,通过选择性特征融合(SFF)机制,这些特征图中的高级和低级信息协同地整合在一起。这种融合产生了具有丰富语义内容的特点,这对于检测白细胞显微图像中的细微特征非常有用,从而增强了模型的检测能力。关于SFF机制及其对模型性能的影响的详细说明将在随后的消融研究部分提供。

特征选择模块: 在这个过程中,CA模块和维度匹配(DM)模块起着关键作用。CA模块首先处理输入特征图,其中表示通道数,表示特征图的高度,表示特征图的宽度。这个特征图经过两个池化层--全局平均池化和全局最大池化处理后,得到的结果特征被结合在一起。然后,使用Sigmoid激活函数来确定每个通道的权重值,从而得到每个通道的权重,。

池化有许多基本用途:它降低特征图的维数并减少特征图的维度;消除冗余数据,压缩特征并减少参数数量;并实现翻译、旋转和尺度不变性。在CA模块中,全局平均池化和全局最大池化被用来计算每个通道的平均值和最大值。最大池化的主要目的是从每个通道中提取最相关的数据,而平均池化是为了均匀地从特征图中获取所有数据,以最小化过度损失。

因此,在CA模块中,将这两种池化方法结合使用,可以方便地从每个通道中提取最代表性的信息,同时最小化信息损失。过滤后的特征图随后通过乘以权重信息与相应尺度的特征图进行维度匹配来生成。在特征融合之前,跨各种尺度的特征图的维度匹配至关重要,因为它们具有不同的通道数。为了实现这一点,DM模块应用一个卷积将每个尺度特征图的通道数减少到256。

特征融合模块:  Backbone 网络生成的多尺度特征图包含丰富的语义信息,但目标定位相对较粗。相反,低尺度特征提供精确的目标位置,但包含有限语义信息。解决这个困境的常见方法是直接将上采样的高级特征和低尺度特征像素值求和,为每个层增加语义信息。然而,这种技术没有进行特征选择,只是将多个特征层的像素值简单相加。为了解决这一局限性,在本研究中,作者开发了SFF模块。该模块通过使用高级特征作为权重来过滤低尺度特征中包含的必要语义信息。

如图3所示,给定一个输入高级特征和一个输入低尺度特征,高级特征首先使用一个大小为2,核大小为3x3的转置卷积(T-Conv)进行扩展,得到特征大小。

然后,为了统一高级特征和低尺度特征的维度,作者使用双线性插值来向上或向下采样高级特征,得到特征。接下来,使用CA模块将高级特征转换为相应的注意力权重,以过滤低尺度特征,在获得具有相同维度的特征后。

最后,将过滤后的低尺度特征与高级特征融合,以增强模型的特征表示,并得到。方程(1)和(2)说明了特征选择的融合过程:

在图像采样过程中,作者使用转置卷积和双线性插值相结合来恢复高级特征图的尺度。双线性插值简单且快速,能够直接操作图像的像素进行图像缩放。

转置卷积的优势包括:

  1. 通过可学习的参数适应数据,使得输出不仅放大特征图,而且以卷积的形式重构输入,这是通过在特征图扩展后通过填充零实现卷积运算;
  2. 它可以处理非均匀采样问题,通过在不同的输出图像位置采样输入图像的不同区域。

作者的消融实验进一步证实了转置卷积和双线性插值的组合优于仅使用双线性插值。

Deformable Self-attention Module

变形自注意力模块主要由两个组成部分构成:偏移模块和注意力模块。接下来,将对它们的各自实现进行全面描述。

偏移模块:如图4所示,在将向量集成到偏移模块之前,必须将其转换为特征图,然后生成输入 Query 向量,同时考虑参考点的坐标。对 Query 向量应用线性变换,得到偏移,同时对输入特征图应用类似的方法,得到内容特征图。

然后,根据参考点的偏移确定每个参考点的感兴趣点(采样点),并使用双线性插值实现每个点的输出。如图4所示,每个 Query 向量具有个注意力头,每个注意力头与个偏移点相关联。在本研究中进行的实验中,和的值分别为8和4。

注意力模块:如图4所示,注意力模块的过程开始于对输入 Query 向量的线性变换。然后,使用Softmax函数生成每个偏移的权重向量。Offset模块中确定的每个偏移的输出与相应的权重向量相乘。然后将结果汇总,得到。

接下来,将每个参考点对应的注意力头连接起来,得到最终的向量,称为。最后,对采样后的输出向量进行线性变换,得到最终的输出值。该过程的方程见(3)、(4)、(5)和(6)。

 

因为MFDS-DETR使用了HS-FPN模块来促进 Backbone 网络特征输入的多尺度特征融合,所以编码器输入包含多尺度特征图。

为了提取不同尺度下的白细胞特征信息,使用了一个多级可变形注意力模块。这个模块不仅允许学习输入参考点尺度的偏移,还允许根据这些尺度中归一化参考点之间的相对位置进行偏移学习。模块计算每个尺度的偏移输出向量。然后,不同尺度的结果向量进行加权并集成,得到最终的输出向量。计算多尺度可变形注意力的方程见(7)。

其中表示注意力头数,表示多尺度数,表示采样点数。第个注意力头和第层采样点的参考点权重表示为。对应于输入向量转换后的特征图。

参考点在第个注意力头和第层采样点处的绝对坐标表示为。参考点在第个注意力头和第层采样点处的偏移表示。内容特征图中的当前采样点对应的采样值由给出。

Encoder and Decoder

编码器在从白细胞图像中提取全局特征方面起着关键作用。编码器的输入是一个多级特征图,集成空间位置编码和尺度编码,如图1所示。编码器内的每一层都由一个可变形自注意力模块和一个前馈网络(FFN)组成。由于参考点位置对可变形自注意力有显著影响,因此它通过确定每个尺度像素点的中心坐标并进行归一化来初始化。一旦定义了参考点位置,多级可变形自注意力模块就会生成输出向量。

在本研究中,可变形自注意力配置为八个注意力头,每个头关注不同方向上的偏移。为了降低梯度消失的风险并加速模型收敛,使用加法和归一化(Add and Norm)方法中的残差结构来生成和归一化输出向量。

然后,这些输出向量经过FFN网络结构处理,这是一个多层感知机,负责扩展和减少维度,使模型能够学习特征之间的更多非线性相关性。在本研究中的消融实验表明,在MFDS-DETR模型中,六层编码器性能最佳。

解码器在建立各种检测到的特征表示之间的关系以及确定目标的准确位置和类别方面起着关键作用。如图1所示,解码器每一层由两个组件组成:自注意力特征提取模块和交叉注意力特征提取模块。自注意力特征提取模块包括一个自注意力模块和一个前馈网络(FFN),结构上类似于编码器中的组件。

然而,与编码器不同的是,交叉注意力特征提取模块的键和 Query 来自位置编码(Object Queries),而其值来自从编码器最后一层提取的全局特征。

Joint Loss Function

组合损失函数见公式(8)。

该复合损失函数由三个主要组成部分组成:分类损失、回归损失和辅助损失。分类和回归损失用于优化模型并确定最佳匹配值。相反,辅助损失用于加速模型的收敛。首先,辅助损失计算解码器每个输出层的分类损失和回归损失。

3.6.1 Classified Losses

由于解码器包含100个目标 Query 框,而白细胞图像的真实目标通常只有2或3个白细胞,因此正负样本之间的不平衡可能会发生。因此,作者引入了Focal损失函数来解决这个不平衡问题。Focal损失函数的计算见公式(9)。

Focal损失函数包括两个超参数:和。在这里,表示数据集中每个类别所占的比例,而被分配值为2。在这种设置下,在Focal损失函数中用于平衡数据集中的不均匀比例。同时,表示困难样本和简单样本对总损失函数的加权贡献。

3.6.2 Regression Loss

由于L1损失函数受到白细胞输入图像大小的影响,作者通过将L1损失函数与GIoU损失函数相结合,形成了一种新的回归损失函数来解决这个问题。这可以通过公式(10)来表示:

和分别表示使用Hungarian算法配对的预测框和目标框。和是两个超参数,分别表示GIoU损失和L1损失的权重,表示GIoU损失函数,而L1损失函数是目标框和预测框位置之间的绝对值差异。

3.6.3 Ancillary Losses

相比之下,辅助损失主要用于加速模型训练。虽然原始模型仅使用编码器最后一层的输出来预测目标,但辅助损失利用编码器每一层的输出进行预测。此外,为每个编码器层计算分类和损失函数以简化模型训练。因此,最终损失函数如公式(8)所示,其中每个解码器层作为模型的终端层进行预测。在这里,“N”表示解码器层的数量。

4 Experiment

Dataset

为了验证模型,作者使用了三个数据集:白细胞检测数据集(WBCDD)、L1SC和BCCD。公开的L1SC和BCCD数据集用于评估模型的泛化能力。

相比之下,WBCDD数据集是专门为这项研究构建的。

图5显示了来自每个数据集的白细胞图像,而表1和表2详细列出了每个数据集中各种细胞类型的数量。

作者从多个当地医院获取了WBCDD数据集。在实验室环境中,医生在显微镜下审视患者的血细胞图像,并使用LabelMe软件对白血细胞边界框进行标注,以构建该数据集。

该数据集包括684个样本,涵盖五种不同类型的白细胞:中性粒细胞(NEU)、嗜酸性粒细胞(EOS)、单核细胞(MON)、嗜碱性粒细胞(BAS)和淋巴细胞(LYM)。在实验之前,作者将数据集划分为训练集和测试集,其中训练集包含540个图像样本,测试集包含144个样本。

L1SC数据集是一个早期的白细胞数据集,由健康个体的外周血样本衍生而来。这些玻片经过Gismographic方法染色,然后在Sony型号SSCD50AP相机和Axioskope 40显微镜下以100倍放大进行观察。一位专业的血液学家将250张血细胞图像分为五个细粒度类别。

然而,由于这个数据集是分类的,作者在医生的指导下使用LabelMe工具进行标注,使其适合作者的目标检测模型。在实验之前,作者将这个数据集划分为训练集,包括200张图像,和测试集,包括50张图像。

BCCD数据集是一个公开的白细胞图像标注数据集。Gismo-right染色方法用于准备这个数据集,然后在配备100倍放大CCD彩色摄像头的标准光学显微镜下进行可视化。血液专家为这个集合提供了标注。这个包含364张图像的集合分为三个类别:白细胞(WBCs)、红细胞(RBCs)和血小板。

与前两个数据集不同,BCCD数据集包括血液细胞和血小板标注。因此,这个数据集中的血液细胞显示出密集分布,其中不同血液细胞之间存在目标粘附和遮挡的实例。在实验开始之前,数据集被划分为一个包含292张图像的训练集和一个包含72张图像的测试集。

白细胞检测的发展离不开数据集的大小和质量。由于现有的公开可用的L1SC数据集已经收集了很长时间,而且存在数据集大小不足的问题,因此模型无法在这个数据集上训练得很好。此外,现有公开可用的BCCD数据集的标注不仅包括血细胞,还包括血小板,导致数据集中血细胞的分布非常密集。不同血细胞之间还存在目标粘附和遮挡,严重影响模型的实际有效性。

因此,作者从当地医院收集数据,并和专业实验室医生合作,通过显微镜观察患者血液图像。作者还使用了LabelMe工具来标记白细胞目标框,并最终建立了WBCCD数据集。同时,作者决定将这个数据集公开给该领域的其他研究行人,以促进白细胞检测领域的进一步发展。

Experimental setup

作者使用Python语言并在PyTorch深度学习框架中实现了MFDS-DETR模型。由于MFDS-DETR模型在小型数据集上的收敛速度较慢,作者首先在公开的MS COCO数据集上训练它,然后使用迁移学习概念在白细胞目标检测数据集上进行微调。实验设置包括配备24GB内存的NVIDIA GeForce RTX 3090和Ubuntu 20.04操作系统作为硬件配置。

模型采用批量大小为100进行训练。 Backbone 网络的学习率设置为0.00002,编码器和解码器的学习率分别为0.0002,HS-FPN的学习率设置为0.0003。采用StepLR学习率衰减策略,每40个批次将学习率减少为原始值的0.1倍。使用AdamW优化器进行模型调优,参数,,权重衰减设置为0.0001。

Comparison of other methods

通过在几个不同的白细胞目标检测数据集上执行比较实验来评估MFDS-DETR模型的有效性和泛化能力。这个比较实验分别对三个数据集:WBCDD、L1SC和BCCD进行单独实验。作者将MFDS-DETR模型与白细胞目标检测领域的传统模型进行对比,如Faster R-CNN, SSD, RetinaNet, DETR, Deformable DETR, TE-YOLOF和YOLOv5-ALT。

MFDS-DETR模型在白细胞检测数据集上的结果如表3所示。提出的MFDS-DETR模型在WBCDD数据集上实现了79.7%和97.2%的AP和,分别。这些结果表明,通过使用多尺度和全局特征提取,作者的模型可以有效提高白细胞目标检测的准确性。

与传统的两阶段目标检测模型(Faster R-CNN)相比,MFDS-DETR模型在AP和上分别提高了21.5%和23.5%。与使用多级特征提取的传统单阶段目标检测模型(如SSD)相比,MFDS-DETR模型在AP和上分别提高了15.5%和16.7%。此外,与利用全局特征提取的目标检测模型(如DETR)相比,MFDS-DETR模型在AP和上分别提高了12.9%和10.8%。

此外,表3中每个白细胞类别的AP值有助于更深入地分析模型的改进。在WBCDD数据集中,值得注意的是,Eosinophils和Lymphocytes的AP值与 Baseline 模型(Deformable DETR)相比有显著改善,分别提高了10.5%和6.6%。此外,作者的模型MFDS-DETR在当前最先进的白细胞检测方法(TE-YOLOF和YOLOv5-ALT)中脱颖而出。

为了进一步评估模型的泛化能力,作者在LISC和BCCD数据集上对模型进行了相同的实验。如表4和表5所示,模型在LISC数据集的和方面表现优越。

尽管其仅比Faster R-CNN和 Baseline 模型(Deformable DETR)低0.1%,但模型在所有细胞类型的检测中均达到最优结果,除了中性粒细胞。这可以归因于LISC数据集中的中性粒细胞被分割为具有独特核的核细胞,与其他白细胞类型不同。

此外,在BCCD数据集中,作者的模型在所有指标方面均优于其他模型,从而进一步证实了作者提出的白细胞检测模型MFDS-DETR可以更精确地分类和定位白细胞。

Ablation study

白细胞检测的有效性受到所使用数据集的大小和质量的显著影响。LISC数据集,由于其收集时间较早,其大小有限且质量不佳。相比之下,BCCD数据集的标注不仅包括白细胞,还包括血小板,导致数据集中血细胞分布密集。这导致在数据集中不同血细胞类型之间经常出现目标粘附和遮挡。

鉴于这些特性,作者仅将这些两个公共数据集用于评估模型在不同条件和下的泛化能力,并选择不使用它们进行消融实验。作者仅使用WBCDD数据集来探索不同组件和特定参数配置对MFDS-DETR模型性能的影响。

4.4.1 Comparison of different multi-level feature fusion strategies

由于白细胞之间的尺寸差距,作者设计HS-FPN模块选择性地将高级语义信息与低级特征融合,以实现更准确的白细胞定位和分类。

为了证明HS-FPN模块在融合多尺度特征方面的有效性,将其与其他多尺度特征融合方法进行了比较,例如FPN, BiFPN, PaFPN, 和 FaPN。如表6所示,HS-FPN通过提高AP额外3.6%的性能超过了FPN。

此外,它还通过提高和分别4.1%和4.6%。与其他最先进的FPN模型相比,HS-FPN在白细胞检测方面表现出优越的性能。这些结果证实了HS-FPN有效地选择高级语义信息,将其用作权重过滤低级特征,从而促进白细胞图像中高级语义信息与低级属性的更有效融合。不同FPN变体的AP曲线如图6所示。图6(a)显示了AP曲线,而图6(b)特别说明了当IoU阈值为0.5时的AP曲线。

Table 6进一步说明了,在HS-FPN模块中,通过使用如转置卷积和双线性插值等上采样技术,相比仅使用双线性插值进行上采样,作者能够更有效地增强模型的检测能力。

4.4.2 The comparison between the number of encoder layers and decoder layers

在MFDS-DETR模型中,编码器的作用对于使模型能够学习全局特征至关重要。为了强调全局特征学习的重要性,作者检查了改变编码器层数的影响。

如表7所示,去掉编码器会导致AP下降2.8%,相应的和分别下降3.2%和3.0%。使用单个编码器层并未提高性能,反而导致了轻微的性能下降。这表明单个编码器层不足以准确地从图像中提取全局特征。

编码器层的数量与AP成正比,突显了编码器在处理白细胞及其空间配置方面的基本作用。这个实验强烈强调了学习全局特征的重要性。图7(a)显示了不同编码器层数的AP曲线,而图7(b)则展示了当IoU阈值为0.5时的AP曲线。

在MFDS-DETR解码器中,各种检测特征表示之间的交互建模起着关键作用。在本研究中,作者调整了解码器层数以证实解码器的重要性。如表8和图8所示,解码器层数的减少导致检测性能一致下降。具体而言,当作者将单个编码器层用作模型的预测输出时,AP,和分别下降了1.6%,2.7%和2.6%。

4.4.3 Comparison of different position coding methods

在MFDS-DETR模型中,作者遇到了三种不同的位置编码:输出编码(目标 Query )、尺度编码和空间位置编码。为了增强图像的全局特征学习,图像必须进行序列化操作。然后,空间位置编码被添加到每个序列块中,以表示序列化图像在原始图像中的位置。

与DETR模型不同,MFDS-DETR中的空间位置编码仅在编码器中添加,因为使用了可变形注意力,并且解码器中的参考点由输出确定,因此无需向空间位置编码添加关键值。然而,对于多尺度特征图,空间位置编码在不同的尺度下是相同的,导致无法区分位置。因此,为了区分不同尺度的输入,MFDS-DETR引入了尺度位置编码。输出编码是输出预测帧位置的必要位置编码。

空间位置编码主要采用两种方法:学习位置编码(Learned PE)和固定编码(Sin PE)。实验结果证实了尺度编码和空间位置编码的必要性。

如表9所示,空间位置编码和尺度编码的缺失导致AP分别下降了3.1%和3.4%。此外,固定位置编码在编码器中比学习位置编码更有效。图9展示了各种位置编码的AP曲线。

4.4.4 Comparison of joint loss functions

为了强调模型各个组件在联合损失函数中的重要性,作者进行了不同组合的损失排列的消融实验。在MFDS-DETR的联合损失函数中,采用了三种类型的损失:分类损失、回归损失和辅助损失。回归损失包含了L1边界框损失函数和GIoU损失函数。分类损失函数对模型的训练至关重要,不能省略。

因此,在本研究中,作者训练了一个不包含边界框距离损失的模型和一个不包含GIoU损失的模型。此外,为了确定辅助损失的重要性,作者训练了一个不包含这个损失的模型。

如图10和表10所示,GIoU损失比L1损失更为重要。L1损失的缺失导致AP下降1.4%,而GIoU损失的缺失导致AP下降1.9%。此外,实验表明,与不包含辅助损失的模型相比,AP下降了4.5%,进一步证实了该损失函数在模型训练中的重要性。

Model visualization analysis

为了更生动地说明模型的预测效果,图11展示了模型预测的类别和位置,以及来自WBCDD数据集的原始图像类别和目标框。实际为黑色框,其他框代表作者MFDS-DETR模型预测的结果和置信 Level 。绿色、橙色、紫色、蓝色和黄色框分别表示淋巴细胞、中性粒细胞、粒细胞、嗜酸性粒细胞和单核细胞。从图中可以看出,作者的模型对于所有五种白细胞图像的预测都获得了高置信度和精确的预测位置,从而证明了其显著的效力和重要的应用价值。

5 Conclusion

在本文中,作者提出了MFDS-DETR模型,详细介绍了其网络结构和联合损失函数。网络结构包括 Backbone 网络、层次尺度特征金字塔网络(HS-FPN)、编码器和解码器。 Backbone 网络的主要功能是从白细胞图像中提取多尺度特征,从而实现后续多尺度特征融合。HS-FPN针对白细胞的特有特征进行了定制,采用了通道注意力模块,将高级特征图作为权重用于筛选低级特征。这些筛选后的特征与高级特征相融合,从而丰富了低级特征,并注入了重要的语义信息。编码器利用可变形自注意力提取图像的全局特征,而解码器则使用自注意力和交叉可变形注意力学习目标的定位。

此外,针对该模型设计的联合损失函数包括分类损失、回归损失和辅助损失。模型通过分类和回归损失进行优化,主要目标是确定最适合的匹配值。辅助损失有助于加速模型的收敛,通过在每个层计算解码器输出的分类和回归损失。

在随后的比较实验部分,作者将作者专门设计的MFDS-DETR模型与其他先进的白细胞目标检测模型进行了对比,使用的数据集有三个,分别是WBCDD、LISC和ALL-IDB,以证明作者模型的有效性和泛化能力。此外,作者在WBCDD数据集上进行了消融实验,以确定模型中关键组件的重要性,如位置编码、编码器、解码器和联合损失函数。最后,作者利用可视化和模型效果分析来进一步证实作者模型的有效性。

白细胞检测的进步受到可用数据集的大小和质量的限制。LISC数据集是一个长期公开的资源,但其规模较小。此外,BCCD数据集不仅标注了各种血细胞,还包括血小板,导致了一个密集而复杂的数据集,特点是目标粘附、遮挡和图像质量不佳。认识到这些限制,作者决定向领域内的研究行人发布WBCCD数据集,期望这个高质量的数据集能够推动白细胞检测领域的发展。

作者的研究对白细胞检测领域做出了重要贡献,但作者必须承认其局限性。为了提高MFDS-DETR模型的鲁棒性和泛化能力,未来的研究应致力于收集更大规模和更多样化的数据集以进行进一步验证。此外,考虑到医学影像技术和深度学习方法的快速发展,作者需要不断改进和适应作者的模型,以保持其在实际应用中的相关性和实用性。

参考

[1].Accurate Leukocyte Detection Based on Deformable-DETR and Multi-Level Feature Fusion for Aiding Diagnosis of Blood Diseases.

相关文章
|
2月前
YOLOv5改进 | Neck篇 | 2024.1最新MFDS-DETR的HS-FPN改进特征融合层(轻量化Neck、全网独家首发)
YOLOv5改进 | Neck篇 | 2024.1最新MFDS-DETR的HS-FPN改进特征融合层(轻量化Neck、全网独家首发)
132 4
|
机器学习/深度学习 PyTorch 算法框架/工具
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
|
2月前
|
机器学习/深度学习 固态存储 算法
目标检测的福音 | 如果特征融合还用FPN/PAFPN?YOLOX+GFPN融合直接起飞,再涨2个点
目标检测的福音 | 如果特征融合还用FPN/PAFPN?YOLOX+GFPN融合直接起飞,再涨2个点
78 0
|
2月前
YOLOv8改进 | Neck篇 | 2024.1最新MFDS-DETR的HS-FPN改进特征融合层(降低100W参数,全网独家首发)
YOLOv8改进 | Neck篇 | 2024.1最新MFDS-DETR的HS-FPN改进特征融合层(降低100W参数,全网独家首发)
67 2
|
2月前
|
机器学习/深度学习 计算机视觉
YOLOv8改进 | 细节涨点篇 | UNetv2提出的一种SDI多层次特征融合模块(分割高效涨点)
YOLOv8改进 | 细节涨点篇 | UNetv2提出的一种SDI多层次特征融合模块(分割高效涨点)
100 2
|
2月前
|
机器学习/深度学习 自动驾驶 计算机视觉
YOLOv8改进 | Neck篇 | Slim-Neck替换特征融合层实现超级涨点 (又轻量又超级涨点)
YOLOv8改进 | Neck篇 | Slim-Neck替换特征融合层实现超级涨点 (又轻量又超级涨点)
142 2
|
3月前
|
机器学习/深度学习 编解码 定位技术
【论文速递】ECCV2022 - 开销聚合与四维卷积Swin Transformer_小样本分割
【论文速递】ECCV2022 - 开销聚合与四维卷积Swin Transformer_小样本分割
|
5月前
中文核心论文实战:基于通道注意力cbam+lstm的工业用电功率预测时间序列
中文核心论文实战:基于通道注意力cbam+lstm的工业用电功率预测时间序列
40 0
|
11月前
|
机器学习/深度学习 存储 自动驾驶
FastPillars实时3D目标检测 | 完美融合PointPillar、YOLO以及RepVGG的思想(一)
FastPillars实时3D目标检测 | 完美融合PointPillar、YOLO以及RepVGG的思想(一)
910 0
|
11月前
|
数据可视化 Go 计算机视觉
FastPillars实时3D目标检测 | 完美融合PointPillar、YOLO以及RepVGG的思想(二)
FastPillars实时3D目标检测 | 完美融合PointPillar、YOLO以及RepVGG的思想(二)
142 0