【论文速递】一种用于目标检测的结构知识蒸馏

简介: 【论文速递】一种用于目标检测的结构知识蒸馏

【论文原文】:Structural Knowledge Distillation for Object Detection

获取地址:https://arxiv.org/pdf/2211.13133.pdf


摘要:


知识蒸馏(KD)是深度神经网络中一种众所周知的训练范式,其中由教师模型获得的知识传递给一个学生模型。KD已被证明是一种有效的技术,可以显著提高学生模型在各种任务(包括目标检测)中的表现。因此,KD技术主要依赖于中间特征的指导,这通常通过在训练期间最小化教师和学生模型激活之间的l_p范数距离来实现。本文中提出了一种基于结构相似性(SSIM)的像素独立-范数的替换。通过考虑额外的对比度和结构线索,在损失公式中考虑了特征空间中的特征重要性、相关性和空间相关性。MSCOCO上的大量实验证明了本文的方法在不同训练方案和架构中的有效性。本文的方法只增加了很少的计算开销,易于实现,同时显著优于标准的l_p范数。此外,与普通模型相比,使用基于注意力的采样机制比最先进KD方法表现更好,包括使用Faster R-CNN R-50获得+3.5 AP增益。


简介:


KD将计算昂贵的教师模型获得的知识迁移到较小的学生模型。KD已被证明在分类、分割等任务中非常有效,特别是最近在目标检测方面取得了长足发展。由于典型目标检测模型的输出空间的复杂性,有必要在中间特征应用KD,因为仅依赖基于输出的KD已被证明是无效的。在基于特征的KD中,除了现有目标之外,还引入了一个训练目标,该目标最小化了教师和学生激活之间的误差,并且是由单个特征激活之间的-范数距离定义的事实标准,如图1a所示。然而,l_p范数忽略了特征图中存在的3个重要信息:

1.特征之间的空间关系2.教师和学生特征之间的相关性3.个体特征的重要性

最近的工作侧重于通过假设对象区域更“knowledge-dense”,通过对特征激活进行采样的机制绕过后一点。然而,正如Guo等人所证明的那样,即使只提取背景特征激活也可以显著提高性能,因此不能假设仅目标区域包含有用的知识。采样机制还引入了额外的缺陷,这些缺陷可能会限制其在现实世界应用中的更广泛实现,例如需要标注数据。在这项工作中提出了结构知识蒸馏,其目的是改善与作为KD方法核心驱动因素的-范数相关的缺点,而不是设计更复杂的采样机制。作者的关键见解如图1b所示。

640.png

图1 基于特征的知识蒸馏

CNN的特征空间可以局部分解为亮度(均值)、对比度(方差)和结构(互相关)分量,这一策略已在SSIM形式的图像领域成功应用。新的训练目标变成最小化均值和方差的局部差异,并最大化教师和学生激活之间的局部零归一化互相关。这样做可以捕捉教师和学生的特征激活之间的空间关系和相关性中包含的额外知识,而不是直接最小化个体激活的差异。

为了证明方法的有效性,使用各种检测架构和训练方案进行了广泛的实验。总体而言,贡献如下:

1.提出了结构知识蒸馏,它引入了和变体,以代替目标检测模型中基于特征的KD的l_p范数。这使得能够捕获学生和教师网络的特征空间中表现为局部均值、方差和互相关关系的额外知识。

2.通过对特征空间的分析说明本文方法关注的是不同于l_p范数的区域,因此,仅从目标区域采样是次优的,因为整个特征空间可以包含取决于激活模式的有用知识。

3.通过在MSCOCO上进行大量实验,证明了在各种训练设置和模型架构下检测精度的一致性定量改进。本文的方法甚至性能相当或优于精心调整的最先进的目标采样机制,并通过仅引入一行代码从根本上实现了这一点。

相关文章
|
机器学习/深度学习 算法 PyTorch
论文阅读笔记 | 目标检测算法——DETR
论文阅读笔记 | 目标检测算法——DETR
939 0
论文阅读笔记 | 目标检测算法——DETR
|
7月前
|
机器学习/深度学习 监控 算法
【论文速递】CVPR2021 - 通过解耦特征的目标检测知识蒸馏
【论文速递】CVPR2021 - 通过解耦特征的目标检测知识蒸馏
|
7月前
|
机器学习/深度学习 数据挖掘 网络安全
【论文速递】CVPR2022 - 用于半监督物体检测的尺度等效蒸馏
【论文速递】CVPR2022 - 用于半监督物体检测的尺度等效蒸馏
|
7月前
|
存储 计算机视觉
【论文速递】WACV2023 - 循环相似注意力的小样本医学图像分割
【论文速递】WACV2023 - 循环相似注意力的小样本医学图像分割
|
机器学习/深度学习 编解码 自然语言处理
【论文速递】WACV 2023 - 一种全卷积Transformer的医学影响分割模型
我们提出了一种新的transformer,能够分割不同形态的医学图像。医学图像分析的细粒度特性所带来的挑战意味着transformer对其分析的适应仍处于初级阶段。
243 0
|
机器学习/深度学习 自然语言处理 数据可视化
解读UTNet | 用于医学图像分割的混合Transformer架构(文末获取论文)
解读UTNet | 用于医学图像分割的混合Transformer架构(文末获取论文)
205 0
|
机器学习/深度学习 算法 计算机视觉
【检测|RCNN系列-1】目标检测算法开山之作RCNN(附论文获取方式)
【检测|RCNN系列-1】目标检测算法开山之作RCNN(附论文获取方式)
201 0
|
机器学习/深度学习 存储 编解码
计算机视觉论文速递(七)FAN:提升ViT和CNN的鲁棒性和准确性
在本文中研究了Self-Attention在学习鲁棒表征中的作用。本研究是基于Vision Transformer中新出现的Visual Grouping的特性进行深入研究的,Visual Grouping也表明Self-Attention可能是通过改进的中层表征来促进鲁棒性。
160 0
|
机器学习/深度学习 文件存储 计算机视觉
CVPR 2022 Oral | 腾讯优图&厦门大学提出无需训练的ViT结构搜索算法
CVPR 2022 Oral | 腾讯优图&厦门大学提出无需训练的ViT结构搜索算法
130 0
|
机器学习/深度学习 算法 测试技术
【论文速递】CVPR2022 - 通过目标感知transformer进行知识蒸馏
【论文速递】CVPR2022 - 通过目标感知transformer进行知识蒸馏
179 0
【论文速递】CVPR2022 - 通过目标感知transformer进行知识蒸馏
下一篇
DataWorks