CVPR 2021 | 旷视提出GID:用于目标检测的通用实例蒸馏

简介: 先前的工作[34]提出对象附近的特征区域具有相当多的信息,这对于知识的提炼是有用的。然而,我们发现,不仅对象附近的特征区域,而且甚至来自背景区域的区分斑块都具有有意义的知识。

本文提出一种用于目标检测的知识蒸馏新方法:General Instance Distillation,GID,可应用于各种检测框架中,使得学生模型显著提高AP的性能,甚至优于Teacher模型!


640.png


作者单位:旷视科技, 北航论文:https://arxiv.org/pdf/2103.02340.pdf


近年来,知识蒸馏已被证明是模型压缩的有效解决方案。这种方法可以使轻量级的学生模型获得从繁琐的教师模型中提取的知识。但是,以前的蒸馏检测方法对于不同的检测框架具有较弱的泛化性,并且严重依赖ground truth(GT),而忽略了实例之间的宝贵关系信息。


因此,我们提出了一种新的基于鉴别性实例的检测任务的蒸馏方法,该方法不考虑GT区分出的积极或消极,这称为通用实例蒸馏(GID)。


640.png


我们的方法包含一个通用实例选择模块(GISM),以充分利用于特征的,基于关系的和基于响应的知识进行蒸馏。


General Instance Distillation


先前的工作[34]提出对象附近的特征区域具有相当多的信息,这对于知识的提炼是有用的。然而,我们发现,不仅对象附近的特征区域,而且甚至来自背景区域的区分斑块都具有有意义的知识。基于此发现,我们设计了通用实例选择模块(GISM),如图2所示。该模块利用教师模型和学生模型的预测来选择要蒸馏的关键实例。


640.png


此外,为了更好地利用老师提供的信息,我们提取并利用了基于特征,基于关系和基于响应的知识进行蒸馏,如图3所示。实验结果表明,我们的蒸馏框架 对于当前最新的检测模型来说是通用的。


640.png


算法细节(建议去看原文):


640.jpg

640.jpg

640.jpg


实验结果


广泛的结果表明,在各种检测框架下,学生模型可显著提高AP的表现,甚至优于老师。具体来说,在Reconet上使用ResNet-50的RetinaNet在COCO数据集上具有GID的mAP达到了39.1%,比基线的36.2%超出了2.9%,甚至比具有38.1%的AP的基于ResNet-101的教师模型更好。


640.png

640.png


640.png

640.png

相关文章
|
6月前
|
机器学习/深度学习 人工智能 自动驾驶
ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
【2月更文挑战第18天】ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
138 1
ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
|
1月前
|
机器学习/深度学习 开发框架 人工智能
[大语言模型-论文精读] 悉尼大学-ACL2024-提升大型语言模型的复杂视觉推理能力
[大语言模型-论文精读] 悉尼大学-ACL2024-提升大型语言模型的复杂视觉推理能力
35 0
|
3月前
|
机器学习/深度学习 存储 运维
ICML 2024:清华提出时间序列大模型:面向通用时序分析的生成式Transformer
【8月更文挑战第7天】在2024年ICML大会上,清华大学团队推出“时间序列大模型(LTSM)”——Timer,一种处理大规模时间序列数据的生成式Transformer。该模型通过预训练学习通用特征,支持多种任务如预测与异常检测。Timer采用统一的数据格式S3处理异构序列,并在数据稀缺场景下展现出色性能。尽管如此,模型泛化能力与计算效率仍有待优化。论文详情参见:https://arxiv.org/abs/2402.02368。
853 4
|
5月前
|
编解码 自然语言处理 计算机视觉
超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
【6月更文挑战第29天】DynRefer,一款超越CVPR 2024的多模态识别工具,通过模拟人类视觉的动态分辨率,提升区域级任务的准确性和适应性。在区域字幕生成、识别和属性检测上取得SOTA,但计算成本高且可能依赖于对齐精度。[链接: https://arxiv.org/abs/2405.16071]
56 1
|
6月前
|
计算机视觉 网络架构
CVPR 2024:基于MoE的通用图像融合模型,添加2.8%参数完成多项任务
【5月更文挑战第9天】CVPR 2024上的TC-MoA模型通过MoE策略改进通用图像融合,添加少量参数实现多任务处理。该模型使用适配器共享和相互信息正则化提升跨任务兼容性,动态路由网络适应不同任务需求。实验显示其在多模态、多曝光和多聚焦融合中表现出色,但依赖预训练基础模型且可能无法完全捕捉所有任务特定信息。[[arxiv.org/abs/2403.12494](https://arxiv.org/abs/2403.12494)]
187 1
|
6月前
|
机器学习/深度学习 编解码 PyTorch
复旦大学提出SemiSAM | 如何使用SAM来增强半监督医学图像分割?这或许是条可行的路
复旦大学提出SemiSAM | 如何使用SAM来增强半监督医学图像分割?这或许是条可行的路
223 0
|
机器学习/深度学习 编解码 自然语言处理
深度学习进阶篇[9]:对抗生成网络GANs综述、代表变体模型、训练策略、GAN在计算机视觉应用和常见数据集介绍,以及前沿问题解决
深度学习进阶篇[9]:对抗生成网络GANs综述、代表变体模型、训练策略、GAN在计算机视觉应用和常见数据集介绍,以及前沿问题解决
深度学习进阶篇[9]:对抗生成网络GANs综述、代表变体模型、训练策略、GAN在计算机视觉应用和常见数据集介绍,以及前沿问题解决
|
机器学习/深度学习 编解码 人工智能
深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
|
人工智能 算法 数据可视化
LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源
LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源
217 0
|
机器学习/深度学习 存储 数据可视化
ECCV 2022 | CMU提出首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%(2)
ECCV 2022 | CMU提出首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%
163 0