【论文速递】CVPR2021 - 用于目标检测的通用实例蒸馏

简介: 【论文速递】CVPR2021 - 用于目标检测的通用实例蒸馏

【论文速递】CVPR2021 - 用于目标检测的通用实例蒸馏

【论文原文】:General Instance Distillation for Object Detection

获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9577671

博主关键词: 目标检测,知识蒸馏,通用

推荐相关论文:

-无

摘要:

近年来,知识蒸馏已被证明是模型压缩的有效解决方案。这种方法可以使轻量级学生模型获取从繁琐的教师模型中提取的知识。然而,以前的蒸馏检测方法对不同检测框架的泛化性较弱,并且严重依赖地面实况(GT),忽略了实例之间的有价值的关系信息。因此,我们提出了一种基于判别实例的检测任务的新蒸馏方法,而不考虑GT区分的正负,称为通用实例蒸馏(GID)。我们的方法包含一个通用实例选择模块(GISM),以充分利用基于特征,基于关系和基于响应的知识进行蒸馏。广泛的结果表明,学生模型在AP方面取得了显着的改进,甚至在各种检测框架中都优于教师。具体而言,采用ResNet-50的RetinaNet在COCO数据集上使用GID的mAP达到39.1%,比基线36.2%高出2.9%,甚至优于基于ResNet-101的教师模型(38.1%的AP)。

关键词 :目标检测,知识蒸馏,通用。

简介:

近年来,由于深度卷积神经网络(CNN)的蓬勃发展,目标检测的准确性取得了长足的进步。深度学习网络结构,包括多种单阶段检测模型[19]、[23]、[24]、[25]、[17]和两阶段检测模型[26]、[16]、[8]、[2],已经取代了传统的目标检测,成为该领域的主流方法。 此外,无锚框架[13],[5],[32]也通过更简化的方法获得了更好的性能。然而,这些基于高精度深度学习的模型通常比较繁琐,而在实际应用中则需要轻量级的高性能模型。因此,如何在精度和效率之间找到更好的权衡成为一个关键问题。

97a45bb8585a3f7a350808ce21e6fd2.png

Fig. 1. Overall pipeline of general instance distillation (GID).

由Hinton等人[10]提出的知识蒸馏(KD)是上述问题的一个有希望的解决方案。知识蒸馏是将大模型的知识转移到小模型上,从而提高小模型的性能,达到模型压缩的目的。目前,典型的知识形式可分为三类[7],基于响应的知识[10],[22],基于特征的知识[27],[35],[9]和基于关系的知识[22],[20],[31],[33],[15]。然而,大多数蒸馏方法主要是针对多类分类问题而设计的。直接将分类特定的蒸馏方法迁移到检测模型效果较差,因为检测任务中正负实例的比例极不平衡。一些专为检测任务设计的蒸馏框架可以解决这个问题并取得令人印象深刻的结果,例如Li等人[14]通过按RPN采样的一定比例蒸馏阳性和阴性实例来解决这个问题,Wang等人[34]进一步提出仅蒸馏近地面真实区域。然而,蒸馏的正负实例之间的比率需要精心设计,仅蒸馏与GT相关的区域可能会忽略背景中潜在的信息区域。此外,目前的检测蒸馏方法无法同时在多个检测框架中很好地工作,例如两阶段、无锚的方法。因此,我们希望为各种检测框架设计一种通用的蒸馏方法,以尽可能有效地使用尽可能多的知识,而不考虑正负。

为了实现这一目标,我们提出了一种基于判别实例的蒸馏方法,利用基于响应的知识、基于特征的知识以及基于关系的知识,如图 1 所示。有几个优点:(i)我们可以在一个图像中对补间实例的关系知识进行建模以进行蒸馏。Hu et al. [11] 证明了关系信息对检测任务的有效性。然而,基于关系的知识蒸馏在目标检测中尚未得到探索。(ii) 我们避免手动设置正负区域的比例或仅选择与GT相关的区域进行蒸馏。虽然与GT相关的领域几乎是信息量大,但极其困难和简单的实例可能毫无用处,甚至一些来自背景的信息补丁也可以帮助学生学习教师的概括。此外,我们发现自动选择学生和老师之间的一些判别实例进行提炼可以使知识转移更有效。这些判别性实例称为一般实例(GI),因为我们的方法不关心正负实例之间的比例,也不依赖于GT标签。(iii)我们的方法对各种检测框架具有强大的通用性。GI 是根据学生和教师模型的输出计算的,而不依赖于来自特定检测器的某些模块或来自特定检测框架的某些关键特征(例如锚点)。

综上所述,本文做出了以下贡献:

  • 定义通用实例(GI)作为蒸馏目标,可以有效提高检测模型的蒸馏效果。
  • 基于GI,首先引入基于关系的知识进行检测任务的提炼,并将其与基于响应和特征的知识相结合,使学生超越教师。
  • 我们在MSCOCO [18]和PASCAL VOC [6]数据集上验证了我们的方法的有效性,包括单阶段,两阶段和无锚点方法,实现了最先进的性能。
目录
相关文章
|
安全
选择最佳供应商:ERP系统的供应商选择与评估方法论
选择最佳供应商:ERP系统的供应商选择与评估方法论
1504 0
|
存储 人工智能 机器人
使用CLIP和LLM构建多模态RAG系统
在本文中我们将探讨使用开源大型语言多模态模型(Large Language Multi-Modal)构建检索增强生成(RAG)系统。本文的重点是在不依赖LangChain或LLlama index的情况下实现这一目标,这样可以避免更多的框架依赖。
821 0
|
Ubuntu 编译器
Ubuntu18.4下交叉编译X264和FFMPEG到ARM平台(aarch64-linux-gcc)
Ubuntu18.4下交叉编译X264和FFMPEG到ARM平台(aarch64-linux-gcc)
1934 0
|
Python Windows
Python3+PyCharm环境的安装及配置
近期碰到有同学入门Python还不会安装并配置Python编程环境的,在这里做一期教程手把手教大家安装与配置使用(以 Python 3.9.9 以及 PyCharm 2021.3.1 为例)
919 0
Python3+PyCharm环境的安装及配置
|
11月前
|
数据可视化 计算机视觉
使用MMDetection进行目标检测
本文介绍了如何使用MMDetection进行目标检测。首先需按官方文档安装MMDetection,不熟悉的同学可参考提供的教程链接。安装完成后,只需准备模型配置文件、模型文件及待检测的图片或视频。示例代码展示了如何加载模型并进行图像检测,最后通过可视化展示检测结果,包括类别和置信度。
332 1
使用MMDetection进行目标检测
|
6月前
|
算法 API 数据安全/隐私保护
揭秘淘宝拍立淘API:开启智能商品搜索新时代
拍立淘API是淘宝提供的图片搜索工具接口,允许开发者将商品图片搜索功能集成到自己的应用中。通过调用API,上传图片即可获取相似商品列表及其关键信息(如标题、价格等)。实现该功能需完成注册认证、创建应用、申请权限等准备工作,并借助Python等语言编写代码调用API。同时,注意调用频率限制、图片格式要求及数据安全等问题,确保功能稳定与兼容。这一技术可为用户提供便捷高效的购物体验,适用于电商平台及图片处理软件等多种场景。
|
9月前
|
数据采集 前端开发 物联网
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
本文介绍了一个基于多模态大模型的医疗图像诊断项目。项目旨在通过训练一个医疗领域的多模态大模型,提高医生处理医学图像的效率,辅助诊断和治疗。作者以家中老人的脑部CT为例,展示了如何利用MedTrinity-25M数据集训练模型,经过数据准备、环境搭建、模型训练及微调、最终验证等步骤,成功使模型能够识别CT图像并给出具体的诊断意见,与专业医生的诊断结果高度吻合。
17516 7
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
|
机器学习/深度学习 编解码 算法
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
583 0
|
机器学习/深度学习 传感器 算法
【OpenCV】告别人工目检:深度学习技术引领工业品缺陷检测新时代
【OpenCV】告别人工目检:深度学习技术引领工业品缺陷检测新时代
215 2
|
存储 分布式计算 监控
分布式系统详解--框架(Hadoop-HDFS的HA搭建及测试)
分布式系统详解--框架(Hadoop-HDFS的HA搭建及测试)
194 0