新视觉任务!CVPR 2021 Oral | OWOD:面向开放世界的目标检测

简介: 我们的实验评估和研究分析了ORE在实现开放世界目标方面的功效。作为有趣的by-product,我们发现识别和表征未知实例有助于减少增量目标检测设置中的混乱,在此方法中,我们无需任何方法上的努力即可获得最先进的性能。我们希望我们的工作将吸引对这个新发现的但至关重要的研究方向的进一步研究。

新视觉任务OWOD:Open World目标检测,可识别未知物体!更紧密地模拟现实世界!并提出一种解决方案:ORE,代码现已开源!


640.png


概述


人类有一种辨别环境中未知物体的本能。当最终获得相应的知识时,对这些未知实例的内在好奇心有助于了解它们。


这激励我们提出一种新颖的计算机视觉问题称:“开放世界目标检测”.


在一个模型的任务是:1) 识别的对象没有被介绍,成为“未知”,没有明确的监督,和 2)增量学习这些识别未知类别。


本文提出了一种基于对比聚类和基于能量的未知识别的开放世界目标检测方案。我们的实验评价和消融研究分析了ORE 在实现开放世界目标的有效性。作为一个有趣的副产品,我们发现识别和描述未知实例有助于减少增量对象检测设置中的混乱,在增量对象检测设置中,我们实现了最先进的性能,而不需要额外的方法努力。我们希望我们的工作将吸引对这一新确定的关键研究方向的进一步研究。


640.png


作者单位:IITH, MBZUAI等
代码:https://github.com/JosephKJ/OWOD
论文:https://arxiv.org/pdf/2103.02603.pdf

主要贡献


我们工作的主要贡献是:


  • 我们引入了一种新颖的问题设置“开放世界对象检测”,该模型可以更紧密地模拟现实世界。


  • 我们基于对比性聚类,未知感知的提案网络和基于能量的未知标识,开发了一种名为ORE的新颖方法,以应对开放世界检测的挑战。


  • 我们引入了全面的实验设置,可帮助测量对象检测器的开放世界特征,并根据竞争基准方法对它进行ORE基准测试。


  • 作为有趣的副产品,即使不是主要为增量对象检测而设计的,该方法也可以实现最新的增量对象检测性能。


主要方法


成功的开放世界对象检测方法应该能够在没有显式监督的情况下识别未知实例,并且当将这些已识别的新颖实例的标签提供给模型进行知识升级(无需从头开始进行重新训练)时,也不必忘记忘记较早的实例。我们提出了一种解决方案ORE,以统一的方式应对这两个挑战。


神经网络是通用函数逼近器,它通过一系列隐藏层来学习输入和输出之间的映射。在这些隐藏层中学习到的潜在表示形式直接控制每个功能的实现方式。我们假设,在对象检测器的潜在空间中学习类别之间的清晰区分可能具有双重效果。首先,它有助于模型识别未知实例的特征表示与其他已知实例的区别,从而有助于将未知实例识别为新颖性。其次,它有助于在不与潜在空间中的先前类重叠的情况下为新类实例学习特征表示,从而有助于逐步学习而不会忘记。帮助我们实现这一目标的关键因素是我们在潜空间中提出的对比聚类,我们将在第二节中详细介绍。


为了使用对比性聚类对未知数进行最佳聚类,我们需要对什么是未知实例进行监督。手动注释甚至可能无限数量的未知类集的一小部分也是不可行的。为了解决这个问题,我们提出了一种基于区域提议网络[53]的自动标记机制来伪标记未知实例,如本节所述。潜在空间中自动标记的未知实例的固有分隔有助于我们基于能量的分类头区分已知实例和未知实例。如第二节所述。我们发现对于未知实例,亥姆霍兹自由能更高。


640.png


上图显示了ORE的高级体系结构概述。我们选择Faster R-CNN作为Dhamija等人的基础检测器。发现与一级RetinaNet检测器和基于对象的YOLO检测器相比,它具有更好的开放设置性能。更快的R-CNN是一种两阶段目标检测器。在第一阶段,与类无关的区域提议网络(RPN)提出可能的区域,这些区域可能具有来自共享骨干网的特征图中的对象。第二阶段对每个建议区域的边界框坐标进行分类和调整。通过兴趣区域(RoI)头中的残差块生成的特征将进行对比聚类。RPN和分类头分别适用于自动标记和识别未知物。在以下小节中,我们将解释这些连贯的组成部分,请参看原文,https://arxiv.org/pdf/2103.02603.pdf


640.png


快速开始


作者开源了项目源代码,快速开始指南。


由于项目本身刚开源,对于一些代码需要进行一些簿记,例如删除本地路径等。 作者称会尽快更新。


- 数据分割和训练有素的模型:Google云端硬盘


https://drive.google.com/drive/folders/1Sr4_q0_m2f2SefoebB25Ix3N1VIAua0w?usp=sharing

- 所有配置文件都可以在以下位置找到:``configs / OWOD``


- 4 GPU机器上的示例命令:


python tools/train_net.py --num-gpus 4 --config-file <Change to the appropriate config file> SOLVER.IMS_PER_BATCH 4 SOLVER.BASE_LR 0.005


实验结果


我们的实验评估和研究分析了ORE在实现开放世界目标方面的功效。作为有趣的by-product,我们发现识别和表征未知实例有助于减少增量目标检测设置中的混乱,在此方法中,我们无需任何方法上的努力即可获得最先进的性能。我们希望我们的工作将吸引对这个新发现的但至关重要的研究方向的进一步研究。


640.png

640.png


补充材料


在补充材料中,作者提供了由于篇幅所限而无法在主要论文中提供的其他详细信息,包括实验分析,实现细节,讨论和结果,这些信息有助于我们进一步了解拟议的开放世界物体检测方法。 我们讨论:


  • 对特征库的队列大小,动量参数η,聚类损失裕度和能量计算中的温度参数的敏感性分析。


  • 有关对比聚类的其他详细信息


  • 更具体的实施细节。


  • 有关故障案例的讨论。


  • 相关工作在增量对象检测中。


  • ORE的一些定性结果。


640.png

相关文章
|
6月前
|
机器学习/深度学习 异构计算
CLIPer:开创性框架提升CLIP空间表征,实现开放词汇语义分割突破
对比语言-图像预训练(CLIP)在多种图像级任务上表现出强大的零样本分类能力,促使研究行人尝试将CLIP应用于像素级开放词汇语义分割,而无需额外训练。关键在于提升图像级CLIP的空间表征能力,例如,用自-自注意力图或基于视觉基础模型的自注意力图替换最后一层的自注意力图。本文提出了一种新颖的分层框架CLIPer,该框架分层提升了CLIP的空间表征能力。
198 5
|
9月前
|
人工智能 缓存 算法
《Java 优化秘籍:计算密集型 AI 任务加速指南》
在AI蓬勃发展的今天,计算密集型任务对Java代码优化提出了更高要求。本文探讨了针对此类任务的优化策略,涵盖内存管理、CPU性能挖掘、算法与数据结构选型、高效I/O处理及持续监测评估等方面,助力开发者提升程序性能,应对挑战,在AI浪潮中乘风破浪。
230 18
|
传感器 机器学习/深度学习 人工智能
史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)(下)
近年来,自动驾驶因其减轻驾驶员负担、提高行车安全的潜力而受到越来越多的关注。在现代自动驾驶系统中,感知系统是不可或缺的组成部分,旨在准确估计周围环境的状态,并为预测和规划提供可靠的观察结果。3D目标检测可以智能地预测自动驾驶车辆附近关键3D目标的位置、大小和类别,是感知系统的重要组成部分。本文回顾了应用于自动驾驶领域的3D目标检测的进展。
史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)(下)
|
人工智能 JSON 数据格式
[AI CrewAI] 你来当老板,组建AI团队,协作AI Agent完成任务
[AI CrewAI] 你来当老板,组建AI团队,协作AI Agent完成任务
|
存储 运维 Kubernetes
容器镜像的构建与管理实践
在云原生时代,容器技术已成为现代软件开发和运维不可或缺的一部分。本文将深入探讨容器镜像的构建流程、管理策略以及安全性考量,旨在为读者提供一套系统化的容器镜像管理方案。我们将从实际案例出发,分析容器镜像构建的最佳实践,同时指出常见的陷阱与误区。此外,文章还将介绍如何有效利用现有的工具和平台来提升容器镜像的安全性和管理效率,确保在快速迭代的开发周期中,能够维护镜像的一致性和可靠性。
362 27
|
机器学习/深度学习 存储 TensorFlow
使用Python实现深度学习模型:智能金融风控与信用评估
【7月更文挑战第25天】 使用Python实现深度学习模型:智能金融风控与信用评估
11394 7
|
监控 搜索推荐 数据挖掘
ERP系统中的客户关系管理与客户满意度调查解析
【7月更文挑战第25天】 ERP系统中的客户关系管理与客户满意度调查解析
693 1
|
存储
好看又规范的Github Readme 制作指南
本文是关于制作规范且外观吸引人的GitHub README文件的指南,包括了README的基本结构、美化技巧,以及如何使用Markdown格式、徽标和图片来增强文档的可读性和吸引力。
1102 0
|
机器学习/深度学习 存储 数据可视化
【AAAI2024】M2SD:通过特征空间预构建策略重塑小样本类增量学习
小样本类增量学习代表了机器学习领域中一个高度挑战性的议题,其核心目标在于能够在仅有限的数据支持下识别新类别,同时保留对已学习类别的认知,而无须重新训练整个模型。这一目标在模型需适应新类别的同时使用有限训练数据的情况下尤为艰巨。针对上述挑战,我们提出了一种创新性策略,称为多重混合自蒸馏。旨在为类增量学习阶段准备一个具有高度可扩展性和包容性的特征空间。