【论文原文】:CRNet: Cross-Reference Networks for Few-Shot Segmentation
获取地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Liu_CRNet_Cross-Reference_Networks_for_Few-Shot_Segmentation_CVPR_2020_paper.pdf
博主关键词: 小样本学习,语义分割,孪生网络
推荐相关论文:
【论文速递】IJCV2022 - CRCNet:基于交叉参考和区域-全局条件网络的小样本分割
摘要:
在过去的几年里,最先进的图像分割算法是基于深度卷积神经网络的。为了渲染一个具有理解概念能力的深度网络,人类需要收集大量像素级注释数据来训练模型,这是耗时且繁琐的。为了解决这一问题,最近提出了小样本分割。小样本分割的目的是学习一种只需要少量训练图像就可以推广到新类的分割模型。本文提出了一种用于小样本分割的交叉参考网络(CRNet)。与以往只预测查询图像中的掩码不同,本文提出的模型同时对支持图像和查询图像进行预测。通过交叉引用机制,我们的网络可以更好地找到两幅图像中同时出现的物体,从而帮助完成小样本分割任务。 此外,我们还开发了一个掩码优化模块,用于对前景区域的预测进行循环优化。对于k-shot学习,我们建议对部分网络进行微调,以利用多个标记的支持图像。在PASCAL VOC 2012数据集上的实验表明,我们的网络达到了最先进的性能。
简介:
自ImageNet分类挑战[4]取得巨大成功以来,深度神经网络已广泛应用于视觉理解任务,如目标检测、语义分割和图像字幕。由于其数据驱动特性,通常需要大规模标记数据集来实现深度模型的训练。然而,在语义分割、实例分割和视频分割等任务中,收集标记数据可能是非常昂贵的。此外,数据收集通常是针对一组特定的类别。以前课上学到的知识很难直接转移到看不见的课上。直接微调训练模型仍然需要大量新的标记数据。另一方面,为了解决这一问题,提出了小样本学习。在小样本学习任务中,在先前任务上训练的模型被期望只使用少量标记的训练图像就可以泛化到未见过的任务。
Fig. 1. 我们提出的CRNet与以前工作的比较。之前的工作(上半部分)是单方面用支持图像来指导查询图像的分割,而在我们的CRNet中(下半部分)支持图像和查询图像可以相互指导分割。
本文的目标是小样本图像分割。对于一个新的物体类别,小样本分割的目的是在只看到少数标记样本的情况下找到该类别的前景区域。以前的许多工作将小样本分割任务制定为引导分割任务。引导信息从查询图像中用于前景预测的标记支持集中提取,通常采用不对称的双分支网络结构实现。 以地面真相查询掩码为监督,对模型进行优化。
在我们的工作中,我们认为查询集和支持集的角色可以在小样本分割模型中切换。具体来说,支持图像可以指导查询集的预测,相反,查询图像也可以帮助对支持集进行预测。 受图像共分割文献[7,12,1]的启发,我们提出了一个对称的交叉参考网络,两个头部同时对查询图像和支持图像进行预测。网络设计与以往作品的差异如图1所示。网络设计中的关键组件是交叉引用模块,该模块通过比较两幅图像中的协同流特征来生成增强的特征表示。在两幅图像中,对下游前景进行了增强表示。同时,交叉引用模块还对两幅图像中同时出现的物体进行预测。该子任务在训练阶段提供了一个辅助损耗,以方便交叉引用模块的训练。
由于物体外观存在巨大的差异,图像前景区域的挖掘是一个多步骤的过程。我们开发了一个有效的掩码优化模块来迭代优化我们的预测。在最初的预测中,期望网络定位高置信度的种子区域。然后,以概率图的形式将置信度图作为缓存保存在模块中,用于以后的预测。 每次做出新的预测时,我们都会更新缓存。在运行掩模细化模块后,我们的模型可以更好地预测前景区域。我们通过实验证明,这种轻量级模块可以显著提高性能。
在提供多张支持图像的k-shot图像分割中,以往的方法通常采用1-shot模型对每一张支持图像单独进行预测,并融合其特征或预测掩码。在我们的论文中,我们建议使用标记的支持示例对我们的网络的部分进行微调。 由于我们的网络可以同时对两个图像输入进行预测,我们最多可以使用k^2个图像对来微调我们的网络。我们基于微调的方法的一个优点是,它可以受益于支持图像数量的增加,从而不断提高精度。相比之下,当提供更多的支持图像时,基于融合的方法很容易饱和。在我们的实验中,我们在1shot、5shot和10shot的设置中验证了我们的模型。
本文的主要贡献如下:
- 我们提出了一种新的交叉参考网络,它可以同时对小样本图像分割任务中的查询集和支持集进行预测。通过挖掘两幅图像的共现特征,我们提出的网络可以有效地改善结果。
- 我们开发了一个带有置信度缓存的掩码优化模块,能够循环优化预测结果。
- 我们提出了一种kshot学习的优化方案,该方案是处理多幅支持图像的有效解决方案。
- 在PASCAL VOC 2012上的实验表明,我们的方法显著优于基线结果,并在5shot分割任务上实现了最新的性能。
Fig. 2. 我们网络架构的pipeline。我们的网络主要由一个孪生编码器、一个交叉引用模块、一个条件模块和一个掩码细化模块组成。我们的网络采用对称设计。孪生编码器将查询和支持图像映射为特征表示。交叉引用模块挖掘两个图像中的共现特征以生成增强表示。条件模块将类别相关的特征向量融合到特征映射中,以强调目标类别。掩码优化模块将最后一次预测的置信度映射保存到缓存中,并循环优化预测的掩码。