【论文速递】CVPR2022 - 用于语义分割的跨图像关系知识蒸馏
【论文原文】:Cross-Image Relational Knowledge Distillation for Semantic Segmentation
获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9879845
博主关键词: 语义分割,知识蒸馏,跨图像
推荐相关论文:
-无
摘要:
当前用于语义分割的知识蒸馏(KD)方法通常指导学生模仿教师从个人数据样本生成的结构化信息。但是,它们忽略了对 KD 有价值的各种图像中像素之间的全局语义关系。该文提出一种新型的跨图像关系KD(CIRKD),该算法侧重于在整个图像之间传递结构化像素到像素和像素到区域的关系。动机是,一个好的教师网络可以在全局像素依赖方面构建一个结构良好的特征空间。CIRKD使学生模仿教师结构更好的语义关系,从而提高分割性能。在Cityscapes,CamVid和Pascal VOC数据集上的实验结果表明,我们提出的方法对最先进的蒸馏方法的有效性。该代码可在
https://github.com/winycg/CIRKD 获得。
关键词 :语义分割,知识蒸馏,跨图像。
简介:
语义分割是计算机视觉中一项关键且具有挑战性的任务。它旨在使用单独的类别标签对输入图像中的每个像素进行分类。细分的应用往往集中在自动驾驶、虚拟现实和机器人上。尽管流行的最先进的分段网络,如DeepLab [3],[5],PSPNet [51]和OCRNet [47],实现了卓越的性能,但它们通常需要高昂的计算成本。 此弱点使得它们难以在资源有限的移动设备上针对真实场景进行部署。因此,提出了一系列轻量级分段网络,如ESPet [24],ICNet [50]和BiSeNet [46]。此外,模型压缩也是追求紧凑网络的替代领域,主要分为量化[37],剪枝[2],[43]和知识蒸馏(KD)[16],[30],[41]。
本文研究了KD在大容量教师网络指导下提高紧凑学生网络的性能以进行语义分割。广泛的KD方法[16],[18],[41],[48]已经得到了很好的研究,但主要用于图像分类任务。 与图像级识别不同,分割任务旨在进行密集像素预测,这更具挑战性。以前的研究[18],[22]发现,直接利用基于分类的KD方法处理密集的预测任务可能无法达到理想的性能。这是因为严格对齐教师和学生网络之间的粗略特征图可能会导致负约束,并忽略像素之间的结构化上下文。
最近的工作试图提出专门的KD方法[14],[20],[21],[30],[35],[40]用于语义分割。 大多数侧重于挖掘空间像素位置之间的相关性或依赖关系,因为分割需要结构化输出。典型的知识可以是局部像素关系[40],全局成对关系[14],[20]和类内像素变化[35]。在捕获结构化空间知识方面,此类方法通常比传统的逐点对齐效果更好。最近,舒等人.[30]揭示了每个通道代表一个特定类别的掩码,因此提出了通道智能KD(CWD)[30]。CWD实现了最先进的蒸馏性能,并证明了通道级信息对于密集预测任务的重要性。然而,以前的分割KD方法通常指导学生模仿教师从个人数据样本生成的结构化信息。它们忽略了像素之间的交叉图像语义关系以进行知识转移,如图 1 所示。
Fig. 1. Overview of intra-image (left) and our proposed cross-image relational distillation (right).
基于这一动机,我们提出了用于语义分割的跨图像关系知识蒸馏(CIRKD)。核心思想是将整个训练图像的全局像素关系构建为有意义的知识。一个好的预训练教师网络通常可以生成结构良好的像素嵌入空间,并捕获比学生网络更好的像素相关性。基于这个属性,我们将这种像素关系从教师转移到学生。具体来说,我们提出了像素到像素蒸馏和像素到区域蒸馏,以充分利用各种图像之间的结构化关系。前者旨在转移像素嵌入之间的相似性分布。后者侧重于传递与前者互补的像素到区域的相似性分布。区域嵌入是通过平均池化来自同一类的像素嵌入生成的,并表示该类的特征中心。像素到区域的关系表明像素和类原型之间的相对相似性。
构造交叉图像关系的一种天真方法是从当前的小批量派生嵌入。但是,分割任务的批量大小通常很小,限制了网络捕获更广泛的像素依赖关系。在先前的自监督学习[31],[38]的激励下,我们在内存库中引入了像素队列和区域队列,以存储丰富的嵌入,用于建模远程像素关系。 队列中的嵌入在蒸馏过程中是一致的,因为它们是从预先训练和冷冻的教师网络生成的。我们将当前小批量中的教师和学生像素嵌入视为锚点。我们从队列中随机抽取对比嵌入,以对像素到像素以及像素到区域的相似性分布进行建模。然后,我们通过学生与老师之间的KL分歧来调整这种软关系。
CIRKD引导学生网络从教师那里学习训练图像中相对像素结构的全局属性,进一步提高分割性能。我们在三个分割基准数据集上评估了流行的DeepLabV3 [5]和PSPNet [51]架构的方法:Cityscapes [7],CamVid [1]和Pascal VOC [9]。实验结果表明,CIRKD优于其他最先进的蒸馏方法,证明了在语义分割中传递全局像素关系的价值。
主要贡献概述如下:
- 我们提出跨图像关系KD来传递全局像素关系。我们可能是第一个在全局图像之间构建像素依赖关系以进行分割 KD 的公司。
- 我们提出了使用内存库机制进行像素到像素和像素到区域的蒸馏,以充分探索传输的结构化关系。
- 我们的CIRKD在公共分割数据集上实现了最先进的蒸馏性能。