新视觉任务OWOD:Open World目标检测,可识别未知物体!更紧密地模拟现实世界!并提出一种解决方案:ORE,代码现已开源!
概述
人类有一种辨别环境中未知物体的本能。当最终获得相应的知识时,对这些未知实例的内在好奇心有助于了解它们。
这激励我们提出一种新颖的计算机视觉问题称:“开放世界目标检测”.
在一个模型的任务是:1) 识别的对象没有被介绍,成为“未知”,没有明确的监督,和 2)增量学习这些识别未知类别。
本文提出了一种基于对比聚类和基于能量的未知识别的开放世界目标检测方案。我们的实验评价和消融研究分析了ORE 在实现开放世界目标的有效性。作为一个有趣的副产品,我们发现识别和描述未知实例有助于减少增量对象检测设置中的混乱,在增量对象检测设置中,我们实现了最先进的性能,而不需要额外的方法努力。我们希望我们的工作将吸引对这一新确定的关键研究方向的进一步研究。
作者单位:IITH, MBZUAI等
代码:https://github.com/JosephKJ/OWOD
论文:https://arxiv.org/pdf/2103.02603.pdf
主要贡献
我们工作的主要贡献是:
- 我们引入了一种新颖的问题设置“开放世界对象检测”,该模型可以更紧密地模拟现实世界。
- 我们基于对比性聚类,未知感知的提案网络和基于能量的未知标识,开发了一种名为ORE的新颖方法,以应对开放世界检测的挑战。
- 我们引入了全面的实验设置,可帮助测量对象检测器的开放世界特征,并根据竞争基准方法对它进行ORE基准测试。
- 作为有趣的副产品,即使不是主要为增量对象检测而设计的,该方法也可以实现最新的增量对象检测性能。
主要方法
成功的开放世界对象检测方法应该能够在没有显式监督的情况下识别未知实例,并且当将这些已识别的新颖实例的标签提供给模型进行知识升级(无需从头开始进行重新训练)时,也不必忘记忘记较早的实例。我们提出了一种解决方案ORE,以统一的方式应对这两个挑战。
神经网络是通用函数逼近器,它通过一系列隐藏层来学习输入和输出之间的映射。在这些隐藏层中学习到的潜在表示形式直接控制每个功能的实现方式。我们假设,在对象检测器的潜在空间中学习类别之间的清晰区分可能具有双重效果。首先,它有助于模型识别未知实例的特征表示与其他已知实例的区别,从而有助于将未知实例识别为新颖性。其次,它有助于在不与潜在空间中的先前类重叠的情况下为新类实例学习特征表示,从而有助于逐步学习而不会忘记。帮助我们实现这一目标的关键因素是我们在潜空间中提出的对比聚类,我们将在第二节中详细介绍。
为了使用对比性聚类对未知数进行最佳聚类,我们需要对什么是未知实例进行监督。手动注释甚至可能无限数量的未知类集的一小部分也是不可行的。为了解决这个问题,我们提出了一种基于区域提议网络[53]的自动标记机制来伪标记未知实例,如本节所述。潜在空间中自动标记的未知实例的固有分隔有助于我们基于能量的分类头区分已知实例和未知实例。如第二节所述。我们发现对于未知实例,亥姆霍兹自由能更高。
上图显示了ORE的高级体系结构概述。我们选择Faster R-CNN作为Dhamija等人的基础检测器。发现与一级RetinaNet检测器和基于对象的YOLO检测器相比,它具有更好的开放设置性能。更快的R-CNN是一种两阶段目标检测器。在第一阶段,与类无关的区域提议网络(RPN)提出可能的区域,这些区域可能具有来自共享骨干网的特征图中的对象。第二阶段对每个建议区域的边界框坐标进行分类和调整。通过兴趣区域(RoI)头中的残差块生成的特征将进行对比聚类。RPN和分类头分别适用于自动标记和识别未知物。在以下小节中,我们将解释这些连贯的组成部分,请参看原文,https://arxiv.org/pdf/2103.02603.pdf
快速开始
作者开源了项目源代码,快速开始指南。
由于项目本身刚开源,对于一些代码需要进行一些簿记,例如删除本地路径等。 作者称会尽快更新。
- 数据分割和训练有素的模型:Google云端硬盘
https://drive.google.com/drive/folders/1Sr4_q0_m2f2SefoebB25Ix3N1VIAua0w?usp=sharing
- 所有配置文件都可以在以下位置找到:``configs / OWOD``
- 4 GPU机器上的示例命令:
python tools/train_net.py --num-gpus 4 --config-file <Change to the appropriate config file> SOLVER.IMS_PER_BATCH 4 SOLVER.BASE_LR 0.005
- 详细内容参见项目源地址 https://github.com/JosephKJ/OWOD
实验结果
我们的实验评估和研究分析了ORE在实现开放世界目标方面的功效。作为有趣的by-product,我们发现识别和表征未知实例有助于减少增量目标检测设置中的混乱,在此方法中,我们无需任何方法上的努力即可获得最先进的性能。我们希望我们的工作将吸引对这个新发现的但至关重要的研究方向的进一步研究。
补充材料
在补充材料中,作者提供了由于篇幅所限而无法在主要论文中提供的其他详细信息,包括实验分析,实现细节,讨论和结果,这些信息有助于我们进一步了解拟议的开放世界物体检测方法。 我们讨论:
- 对特征库的队列大小,动量参数η,聚类损失裕度和能量计算中的温度参数的敏感性分析。
- 有关对比聚类的其他详细信息
- 更具体的实施细节。
- 有关故障案例的讨论。
- 相关工作在增量对象检测中。
- ORE的一些定性结果。