用于半监督医学图像分割的多模态对比互学习和伪标签再学习方法

简介: 用于半监督医学图像分割的多模态对比互学习和伪标签再学习方法

论文题目:Multi-modal contrastive mutual learning and pseudo-label re-learning for semi-supervised medical image segmentation


论文链接:https://zhenghuaxu.info/files/2023_MedIA.pdf


导读

本文提出了一种全新的半监督对比学习医学图像分割框架,该框架能在少量标注数据大幅提高多模态医学图像数据的分割性能。该框架使用一种新颖的区域相似性对比 (ASC) 损失来利用跨模态信息和不同模态之间的预测一致性来进行对比相互学习。同时还包括一个软伪标签再学习 (PReL) 方案,以解决不同模式之间可能出现的性能差距。在两个公共多模态数据集上的实验表明,与使用 100% 标记数据的全监督分割方法相比,Semi-CML 优于最先进的半监督分割方法,并实现了相似或更好的性能,同时将数据标注成本降低了 90%。


方法


2d35e243b3c2501f90763c456f8da4f3.png

Semi-CML网络框架使用了多模态数据进行半监督对比学习分割。该框架包括双模态监督损失,交叉模态MSE和ASC无监督损失。对于ASC无监督损失,我们从配对的跨模态数据(实线箭头)中构建正样本对,并从未配对的跨模态数据(虚线箭头)和未配对的同模态数据(未显示)中构建负样本对。根据构建的正负样本对,我们使用Dice指标来计算ASC损失。最后的优化目标则是通过最小化ASC损失,使矩阵中的正样本对(红色区域)更接近(颜色更深),并使负样本对(棕色区域)距离更远(颜色更浅)。


半监督对比学习


如上图1所示。Semi-CML框架可以通过低耦合一致性损失使用大量未标记数据对多模态数据进行跨模态知识互动学习。具体来说,我们为两种不同模态构建了两个具有相同结构的U-Nets(Ronneberger等人,2015)作为分割网络骨干。然后,通过两个U-Nets的前向传播获得两种模态的两个小批量预测图,其中两种模态的标记批用于监督学习。其次,对于两种模态之间的互动学习,两种模态的未标记批用于MSE损失进行简单的互动学习和提出的区域相似度对比损失进行深入的互动学习。


使用 BMA 教师模型的软伪标签再学习


6e3f52e5a984c912645ad746fc10ea38.png


如上图2所示,左半部分展示了使用BMA更新策略生成教师模型的详细pipeline,其中BMA教师模型的生成仅在阶段1(L1时期之前)运行。右半部分则展示了使用先前生成的BMA教师模型为低性能和高性能模态进行软伪彩标签重新学习的pipeline,其中重学习监督在阶段2(L1时期后)进行。


软伪标签重新学习策略首先使用高性能模态的模型来设计一种新颖的最佳模型移动平均(BMA)自我集成技术,以生成在阶段1(即半监督联合多模态学习(Semi-CML)收敛之前的某个时期,即L1)期间的优化和可靠的教师模型。然后,在阶段2(L1时期后),使用BMA教师模型和蒙特卡洛抽样来生成具有更高可靠性的软伪标签。最后对于低性能模态,则使用软伪标签进行重新学习。该方法主要是通过提高低性能模态的分割精度来提高网络整体的分割性能。


实验结果


4a6dfc1c5addc617d335d5280dcb65d2.png


与最先进的全监督方法的比较


如上表1,作者将他们的方法与使用1%,5%和10%标记数据的完全监督方法(称为Sup)在两个数据集上进行比较。结果表明,我们的半监督模型在两个数据集的任何模态中都有显著提高。例如,当仅使用1%的Hecktor数据标记时,我们的方法在CT和PET模态上的DSC结果分别为0.2837和0.4260,但如果使用完全监督学习方法(Sup),它们仅为0.1106和0.2807。此外,我们的方法在使用5%标记数据的情况下,在BraTS上T2和T1CE模态的DSC结果比Sup高0.1577和0.2269,而在使用10%标记数据的情况下,T1和FLAIR模态的DSC结果比Sup高0.1784和0.1038。最后,将我们的方法与使用更多标签的完全监督解决方案进行比较:我们模型(使用10%标记数据)的分割结果超越了使用50%标记数据的Sup的大多数结果,并接近了使用100%标记数据的Sup的结果。特别是在Hecktor数据集上,我们的方法(使用10%标记数据)通常胜过了使用100%标记数据的完全监督方法。以上实验证明了Semi-CML方法可以利用大量未标记数据大幅提高模型分割性能。


与最先进的单模态半监督方法的比较


作者使用多模态数据进行模型训练,并在模型测试时采用单模态图像进行推理。为了将所提方法与最先进的单模态半监督分割方法进行对比,作者列举了几种单模态的半监督分割方法(MT,ICT,DTC,DTML,SASS,UAMT,UMCT和SPCT,这些半监督方法都是为单模态图像设计的),如上表1所示,Semi-CML方法的明显优于所有最先进的单模态半监督分割方法。Semi-CML方法与全监督方法相比,半监督方法获得了一定的性能提升,这表明半监督分割方法可以有效利用未标记的数据以提高模型性能。


与最先进的多模态半监督方法的比较

b2c03366dafdd353f1d771d85789ccf1.png


使用多模态数据可以提高模型的性能,因此在医学图像分割任务中使用多模态信息是非常重要的。此外,作者提出的方法在两个数据集上几乎所有情况下都优于现有的两种多模态半监督方法(即DAFNet和FewGAN)以及扩展的多模态半监督模型。甚至在DAFNet、FewGAN和扩展的多模态半监督方法使用两种模态进行推理时,作者提出的方法(仅使用一种模态进行推理)也可以获得竞更好的性能。这是因为多模态半监督基线通常是高度耦合的融合网络,因此在推理阶段需要双模态信息以确保令人满意的结果;因此,当只有一种模态时,由于缺乏另一种模态的信息,它们通常会出现巨大的性能下降。例如上表2所示,在执行T2-T1CE双模态推理时,MM-UAMT的DSC为0.7069,但仅使用T1CE推理时,它的DSC仅为0.1066。然而,对于作者提出的方法,两种模态的学习分割模型是相对独立的,因此仅需要一种模态进行推理,其单模态推理结果接近或甚至超过多模态基线的双模态推理结果。所以作者提出的方法在临床实践中更容易使用,因为它只需要一种医学图像来获得令人满意的分割结果,这大大减少了患者的时间成本。


结论


这篇论文提出了一种名为Semi-CML的多模态半监督分割框架。该框架使用未标记的多模态数据进行互相监督学习来实现准确的医学图像分割。具体来说,在面积相似度对比损失的帮助下,一种模态模型可以从另一种模态中学习补充信息,同时可以提高所有模态的分割性能。此外,我们设计了基于BMA教师模型的软伪标签重新学习方案,以进一步提高低性能模态的分割性能。多个数据集结果表明,Semi-CML(仅使用少量标记数据)的性能接近或甚至优于使用100%标记数据的完全监督方法,且通常也优于最先进的半监督解决方案。此外,在仅有一种模态数据时执行推理时,相应的分割结果接近甚至超过了使用多模态数据进行推理的最先进的半监督多模态模型的结果。因此,该方法在临床实践中具有很强的应用价值。


image.png


如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!欢迎添加小编微信号: cv_huber,备注"CSDN",加入 CVHub 官方学术&技术交流群,一起探讨更多有趣的话题!


目录
相关文章
|
8天前
|
机器学习/深度学习
大模型开发:解释卷积神经网络(CNN)是如何在图像识别任务中工作的。
**CNN图像识别摘要:** CNN通过卷积层提取图像局部特征,池化层减小尺寸并保持关键信息,全连接层整合特征,最后用Softmax等分类器进行识别。自动学习与空间处理能力使其在图像识别中表现出色。
31 2
|
9月前
|
机器学习/深度学习 数据采集 存储
【3-D深度学习:肺肿瘤分割】创建和训练 V-Net 神经网络,并从 3D 医学图像中对肺肿瘤进行语义分割研究(Matlab代码实现)
【3-D深度学习:肺肿瘤分割】创建和训练 V-Net 神经网络,并从 3D 医学图像中对肺肿瘤进行语义分割研究(Matlab代码实现)
164 0
|
9月前
|
机器学习/深度学习 存储 算法
【使用深度学习的城市声音分类】使用从提取音频特征(频谱图)中提取的深度学习进行声音分类研究(Matlab代码实现)
【使用深度学习的城市声音分类】使用从提取音频特征(频谱图)中提取的深度学习进行声音分类研究(Matlab代码实现)
152 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习应用篇-自然语言处理[10]:N-Gram、SimCSE介绍,更多技术:数据增强、智能标注、多分类算法、文本信息抽取、多模态信息抽取、模型压缩算法等
深度学习应用篇-自然语言处理[10]:N-Gram、SimCSE介绍,更多技术:数据增强、智能标注、多分类算法、文本信息抽取、多模态信息抽取、模型压缩算法等
|
11月前
|
机器学习/深度学习 存储 缓存
深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制
深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制
深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制
|
机器学习/深度学习 数据可视化 自动驾驶
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
165 0
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
|
机器学习/深度学习 人工智能 自然语言处理
多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构
多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构
414 0
|
机器学习/深度学习 存储 自然语言处理
大规模蛋白质翻译后修饰提取模型BioBERT,具有远程监督和置信度校准
大规模蛋白质翻译后修饰提取模型BioBERT,具有远程监督和置信度校准
162 0
|
机器学习/深度学习 自动驾驶 算法
深度学习/自动驾驶数据集大集合(目标检测/图像分割/语义分割/图像分类/)
深度学习/自动驾驶数据集大集合(目标检测/图像分割/语义分割/图像分类/)
346 0
|
机器学习/深度学习 数据采集 存储
如何检测文本(NLP)和图像(计算机视觉)数据漂移
在现实世界中,数据以各种系统和格式记录,并且不断变化。 这些变化可能会随着便携式系统的老化和机械破裂而引入噪音,或者在生产过程发生根本变化或消费者行为变化的情况下发生。 这些变化对预测的准确性有影响,因此有必要测试在模型开发过程中所做的假设在模型投入生产时是否仍然有效。

热门文章

最新文章