【论文速递】CVPR2022 - 用于密集物体检测的定位蒸馏

简介: 【论文速递】CVPR2022 - 用于密集物体检测的定位蒸馏

【论文速递】CVPR2022 - 用于密集物体检测的定位蒸馏

【论文原文】:Localization Distillation for Dense Object Detection

获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9878414

博主关键词: 目标检测,定位,知识蒸馏

推荐相关论文:

-无

摘要:

知识蒸馏(KD)在目标检测中学习紧凑模型方面的强大能力。以往的目标检测KD方法主要集中在模仿模仿区域内的深度特征,而不是模拟分类logit,因为它在提取定位信息方面效率低下,而且改进微不足道。本文通过重构定位知识蒸馏过程,提出了一种新的定位蒸馏(LD)方法,该方法可以有效地将定位知识从教师传递给学生。此外,我们还启发式地引入了有价值的定位区域的概念,可以帮助选择性地提取特定区域的语义和定位知识。结合这两个新组件,我们首次证明了logit模拟可以优于特征模仿,而定位知识蒸馏在提取对象检测器方面比语义知识更重要、更有效。我们的蒸馏方案简单而有效,可以很容易地应用于不同的密集物体探测器。实验表明,我们的LD可以在COCO基准测试中将GFocal-ResNet-50的AP分数从1.40提高到1.42,而不会牺牲推理速度。我们的源代码和预训练模型可在 https://github.com/HikariTJU/LD 公开获得。

关键词 :目标检测,定位,知识蒸馏。

简介:

定位是目标检测中的一个基本问题[[15],[24],[33],[49],[50],[55],[57],[61],[68]]。 边界框回归是迄今为止对象检测中最流行的定位方式[10],[32],[39],[42],其中狄拉克增量分布表示直观且流行多年。但是,无法通过边缘确定定位对象的定位模糊仍然是一个常见问题。例如,如图 1 所示,“大象”的底部边缘和“冲浪板”的右边缘定位模糊不清。对于轻量级探测器来说,这个问题甚至更糟。缓解这一问题的一种方法是知识蒸馏(KD),作为一种模型压缩技术,它已被广泛验证,可以通过转移大型教师网络捕获的通用知识来提高小型学生网络的性能。

2f2e8a88c2a302e5c5d402b71606769.png

Fig. 1. Bottom edge for “elephant” and right edge for “surf-board” are ambiguous.

说到目标检测中的KD,以前的工作[22],[52],[62]指出原始的logit模拟技术[19]用于分类是低效的,因为它只传递语义知识(即分类),而忽略了定位知识蒸馏的重要性。因此,现有的KD目标检测方法主要侧重于加强师生对之间深层特征的一致性,并利用各种模仿区域进行蒸馏[5],[8],[16],[25],[52]。图 2 展示了三种用于对象检测的常用 KD 流水线。然而,由于语义知识和定位知识在特征图上是混合的,很难判断每个位置的混合知识转移是否有利于性能,哪些区域有利于某种类型知识的转移。

588dbc2e9268e31fbf1969f2ec0c8b4.png

Fig. 2. Existing kd pipelines for object detection. ➀ logit mimicking: classification kd in [19]. ➁ feature imitation: recent popular methods distill intermediate features based on various distillation regions, which usually need adaptive layers to align the size of the student’s feature map. ➂ pseudo bbox regression: treating teachers’ predicted bounding boxes as additional regression targets.

在上述问题的启发下,本文不是简单地提炼特征图上的混合知识,而是提出了一种新颖的分而治之的精炼策略,将语义和本地化知识分开转移。对于语义知识,我们使用原始分类KD [19]。对于本地化知识,我们重新制定了本地化的知识转移过程,并通过将边界框切换到概率分布来提出一种简单而有效的本地化蒸馏(LD)方法[28],[37]。这与之前的工作[5],[47]完全不同,后者将教师的输出视为额外的回归目标(即图2中的伪BBox回归)。受益于概率分布表示,我们的LD可以有效地将教师学到的丰富本地化知识传授给学生。此外,基于提出的分而治之精馏策略,我们进一步引入了有价值的定位区域(VLR),以帮助有效地判断哪些区域有利于分类或定位学习。通过一系列的实验,我们首次表明,原始的logit模仿可以比特征模仿更好,本地化知识提炼比语义知识更重要、更有效率。我们相信,根据各自的有利区域分别提炼语义和定位知识可能是训练更好的对象检测器的一种有前途的方法。

我们的方法很简单,可以很容易地在任何密集的目标检测器中配备,以提高其性能,而不会引入任何推理开销。对MS COCO的大量实验表明,在没有其他功能的情况下,我们可以将具有ResNet-28-FPN骨干的强基线GFocal [50]的AP分数从40.1提高到42.1,并且AP75从 43.1 到 45.6。我们使用ResNeXt-101-32x4d-DCN骨干网的最佳模型可以实现50.5 AP的单尺度测试,这超过了相同backbone,neck和测试设置下的所有现有探测器。

目录
相关文章
|
机器学习/深度学习 监控 算法
图像去雾综述
图像去雾综述
|
9月前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
797 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
传感器 人工智能 监控
数字孪生与灾害预测:提升应急响应能力
本文探讨了数字孪生技术在灾害预测和应急响应中的应用,通过实时监测、灾害模拟及应急响应优化,提高预警准确性与响应效率。以数字孪生北江为例,展示了其在防洪中的实际成效,展望了未来技术发展的广阔前景。
|
人工智能 算法 C语言
编写函数isprime(int a),用来判断自变量a是否为素数,若是素数,函数返回整数1,否则返回0
通过上述代码和解释,我们实现了一个高效判断素数的C语言函数 `isprime`。该函数结合了基础判断和优化的循环逻辑,确保高效准确地判断给定整数是否为素数。希望本文能帮助你更好地理解和实现素数判断算法。
893 1
|
机器学习/深度学习 人工智能 搜索推荐
AI在金融领域的应用:智能投资顾问
【10月更文挑战第31天】随着AI技术的快速发展,智能投资顾问在金融领域的应用越来越广泛。本文介绍了智能投资顾问的定义、工作原理、优势及未来发展趋势,探讨了其在个人财富管理、养老金管理、机构风险管理及量化交易中的典型应用,并分析了面临的挑战与机遇。智能投资顾问以其高效、低成本、个性化和全天候服务的特点,正逐步改变传统投资管理方式。
1383 3
|
机器学习/深度学习 人工智能 自然语言处理
【智能助手体验】分享一款超好用的AI工具:Kimi
Kimi是一款由月之暗面科技有限公司开发的AI助手,具备强大的自然语言理解和文件内容解析能力,支持多种文件格式,并能结合互联网搜索提供全面答案。无论是在工作中的数据分析还是日常生活中的信息查询,Kimi都能给出满意的结果,展现出巨大的应用潜力。
基于simulink的光伏并网逆变器电网系统建模与仿真
本课题使用Simulink实现光伏并网逆变器的建模与仿真,该逆变器负责将光伏电池板产生的直流电转换为与电网同步的交流电。系统通过最大功率点跟踪(MPPT)、DC-DC转换、DC-AC转换及滤波处理,确保电能质量并与电网同步。Simulink模型基于MATLAB 2022a版本构建。
|
存储 算法 安全
U盘打不开提示格式化怎么办?(含数据恢复及U盘修复教程)
本文介绍了U盘无法打开并提示格式化的问题,包括症状(如系统弹出格式化提示,文件系统显示为RAW)和常见原因(文件系统损坏、物理损坏)。提供了修复步骤:检查U盘连接、使用数据恢复软件恢复数据、更新U盘驱动、格式化U盘及使用修复工具。强调在格式化前要备份数据,严重损坏时可能需寻求专业维修。
|
移动开发 前端开发 JavaScript
IOS开发:UniAPP实现BLE低功耗蓝牙开发1
1、Uni-app介绍 2、Uni-app优点 3、BLE开发流程
IOS开发:UniAPP实现BLE低功耗蓝牙开发1
|
Ubuntu Linux Shell
Linux移植:正点原子阿尔法IMX6ULL开发板Linux内核源码移植详细步骤(4.1.15版本内核)(上)
Linux移植:正点原子阿尔法IMX6ULL开发板Linux内核源码移植详细步骤(4.1.15版本内核)
1344 0