ECCV2022 Oral | 全新Ancho-free检测模型ObjectBox,120FPS超越OTA、TOOD等(一)

简介: ECCV2022 Oral | 全新Ancho-free检测模型ObjectBox,120FPS超越OTA、TOOD等(一)

本文提出了 ObjectBox,一种新颖的单阶段Anchor-free且高度泛化的目标检测方法。与现有的Anchor-basedAnchor-free的检测器相反,它们在标签分配中更偏向于特定的目标尺度,ObjectBox仅使用目标中心位置作为正样本,并在不同的特征级别平等对待所有目标,而不管物体的大小或形状。

具体来说,ObjectBox的标签分配策略以Anchor-free的方式将目标中心位置视为与形状和大小无关的Anchor,并允许在每个目标的所有尺度上进行学习。为了支持这一点,作者将新的回归目标定义为从中心单元位置的2个角到边界框4个边的距离。此外,为了处理尺度变化的目标,作者提出了一种定制的 IoU 损失来处理不同大小的框。因此,本文提出的目标检测器不需要跨数据集调整任何依赖于数据集的超参数。

在 MS-COCO 2017 和 PASCAL VOC 2012 数据集上评估ObjectBox,并将结果与最先进的方法进行比较。ObjectBox 与之前的作品相比表现得更好。


1介绍


当前最先进的目标检测方法,无论是两阶段还是单阶段方法,都假设边界框,为每个框提取特征,并标记目标类别。他们都对共享的局部特征进行边界框定位和分类任务。一种常见的策略是在卷积特征图上使用手工制作的密集Anchor来为共享的局部特征生成丰富的候选框。这些Anchor生成边界框大小和纵横比的一致分布,这些分布是基于目标和Anchor之间的IoU分配的。

由于它们的巨大成功,目标检测一直由Anchor-based的方法主导。然而,它们存在许多常见且严重的缺陷。首先,使用预定义的Anchor会引入额外的超参数来指定它们的大小和纵横比,这会削弱对其他数据集的泛化能力。其次,Anchor必须密集地覆盖图像以最大化召回率。然而,少数Anchor与大多数GT框重叠,导致正负Anchor框之间的巨大不平衡,并增加了额外的计算成本,从而减慢了训练和推理的速度。第三,必须根据数量、比例和纵横比仔细设计Anchor,因为改变这些参数会影响性能。

image.png

为了应对这些挑战,最近开发了许多Anchor-free目标检测器,可分为keypoint-basedcenter-based的方法。在keypoint-based的方法中,多个对象点(例如中心点和角点)使用标准关键点估计网络(例如 HourglassNet)定位,并分组以限制对象的空间范围。然而,它们在关键点检测之后需要复杂的组合分组算法。相比之下,center-based方法更类似于Anchor-based的方法,因为它们使用感兴趣的对象区域或中心位置来定义正样本。虽然Anchor-based方法使用Anchor框作为这些中心位置的预定义参考框,但Anchor-free方法可以直接回归这些位置的边界框(参见图 1)。

ATSS 表明,center-based方法中Anchor-based方法和Anchor-free方法的主要区别在于正负训练样本的定义,这导致了性能差距。为了区分正样本和负样本,Anchor-based 方法使用 IoU 同时在空间维度和尺度维度上选择正样本,而Anchor-free方法使用一些空间和尺度约束,首先在空间维度中找到候选正样本,然后在空间维度中选择最终正样本尺度维度。然而,这两种静态策略都施加了约束阈值来确定正样本和负样本之间的边界,而忽略了这样一个事实,即对于具有不同大小、形状或遮挡条件的目标,最佳边界可能会有所不同。为了解决这个问题,已经开发了许多动态分配机制。例如,在 ATSS 中建议根据一些统计标准为每个目标设置划分边界。

在本文中,作者建议放松静态或动态分配策略施加的所有约束,从而平等地对待所有尺度的所有目标。无论目标形状或大小如何,为了学习分类标签和回归偏移,作者只从目标中心位置回归,这些位置被视为与形状和大小无关的Anchor。为了支持这一点,将新的回归目标定义为从包含目标中心的网格单元的两个角到边界框边界(图 1 中的 L、R、B 和 T)的距离。如图 2 所示,与不同规模级别的其他方法相比,没有使用任何标准。因此,在没有任何花里胡哨的情况下扩展了正样本。为了从所有尺度学习这些正样本,提出了一种新的尺度不变标准作为 IoU 度量,它惩罚不同尺度级别的不同大小的目标和预测目标框之间的误差。

总之,本文的贡献是提出了一种新颖的Anchor-free目标检测器 ObjectBox,它能够更好地处理标签分配问题,并且与最先进的技术相比表现更好。此外,本文方法是即插即用的,可以轻松应用于各种数据集,无需任何超参数调整。因此,本文的方法更加稳健和可推广,并取得了最先进的结果。


2ObjectBox


让训练图像  包含 n 个 GT  的目标,其中  和  分别表示第 i 个目标的边界框和对象类别标签。每个边界框 b = {x, y, w, h} 由其中心 (x, y)、宽度 w 和高度 h 表示。作者的目标是在图像中定位这些框并分配它们的类标签。

2.1 基于目标中心位置的标签分配

输入图像中具有中心(x、y)的边界框b可以使用其角点定义为,其中表示比例i处的左上角和右下角的各自坐标。

本文的方法预测了3个不同尺度上的边界框来处理对象尺度的变化。因此,可以在这些尺度对应的3个特征图上检测到不同大小的物体。这里特别选择了步幅s={8,16,32},并将每个边界框中心映射到这些嵌入物上的特定位置。

image.png

这里将中心(x,y)映射到尺度i嵌入的中心位置(即图3(a)中的橙色单元格),并分别从边界框的2个边界计算其左上角和右下角(红色圆圈)的距离。具体来说,如图3所示,计算从右下角到左和上边界(L和T)的距离,从左上角到右和下边界(R和B)的距离如下:

image.png

其中表示尺度i的回归目标,和分别表示中心位置的坐标和中心位置右下角的坐标。需要注意的是,和,其中和分别表示尺度i下的边界框 b 的宽度和高度。与这些距离对应的预测如下:

image.png

其中σ代表logistic sigmoid function,表示对距离值的网络预测,这里用sigmoid变换在0和1的范围内。乘以2允许检测值覆盖略大的范围。使用,输出稳定地以大约零梯度初始化。这里还通过乘以一个恒定的尺度增益来区分不同的尺度,即。整个网络输出包括每个尺度的每个位置的一个预测,每个预测包括上述距离值,以及每个边界框的客观得分和类标签。

公式确保所有被回归的距离在不同条件下都保持正数。如图 3 (b) 所示,即使对于以较大步幅完全包含在单元格中的小目标,这 4 个距离也可以计算为正值。更重要的是,将所有目标视为不同尺度的正样本。这与现有的center-based的方法(即,Anchor-basedAnchor-free方法)形成对比。

例如,在Anchor-based的方法中,将一定尺度的每个中心位置视为多个anchor box的中心,如果目标box和这些anchor boxIoU不在阈值范围内,则认为作为负样本。类似地,anchor-free 方法基于不同的空间和尺度约束将一些目标框丢弃为负样本。

例如,FCOS 定义了一组最大距离值,这些值限制了可以在每个特征级别检测到的目标大小的范围。作为另一个示例,FoveaBox 通过经验学习的参数控制每个金字塔级别的比例范围,而在 FSAF 中,一组恒定比例因子用于定义正框和负框。如图 2 所示,ObjectBox 将所有尺度的所有目标框都视为正样本。因此,无论目标大小如何,它都从所有尺度中学习,以从多个级别实现更可靠的回归。由于 ObjectBox 仅考虑每个目标的中心位置,因此每个目标的正样本数与目标大小无关。

由于边界框的几何中心可能位于中心单元的边界附近,这里用它的相邻单元来增加中心。例如,当边界框的中心位于单元格的上半部分时,除了中心单元格之外,还使用上述位置。

本文的方法从它们的中心区域检测对象。如果两个边界框重叠,则它们的中心不太可能重叠,因为两个边界框中心位于同一位置是非常罕见的。在 MS-COCO 和 PASCAL VOC 2012 中,作者没有发现重叠目标的中心重叠的情况。然而,增强的中心位置在处理这些边界框时很有用。在作者的实验中表明除了中心位置之外添加更多点会损害检测性能。

本文的策略隐含地利用了anchor box背后的直觉,anchor box通常是通过对数据集中的GT框的维度进行聚类来创建的。它们的尺寸是作为对不同尺寸的最常见形状的估计而获得的。例如,Faster R-CNNYOLO 使用3个尺度和3个纵横比,在每个位置产生 9 个anchor box。然而,本文的方法使用每个尺度的边界框的中心位置来为每个目标生成多个预测。本文的方法也比其他anchor-free方法更有效,例如 FCOS,它利用额外的 FPN 级别(即总共 5 层)来处理重叠的边界框。

2.2 Box回归

由于  是距离,因此可以独立处理它们,并且可以使用均方误差 (MSE) 对这些值分别执行回归。然而,这样的策略会忽略对象边界框的完整性。IoU 损失已经被提出来考虑预测和真实边界框区域的覆盖范围。

IoU 是一种广泛使用的2个形状之间的相似性度量,由于其可微分的吸引人的特性,可以直接用作优化的目标函数。在目标检测中,IoU 可以将每个边界框的宽度、高度和位置编码为标准化度量。因此,IoU 损失 (LIoU = 1 − IoU) 允许将边界框识别为单个实体,并联合回归边界框的四个坐标点。

通过考虑不同的情况,最近改进了 IoU 损失。例如,GIoU(损失除了覆盖区域外,还包括对象的形状和方向。它可以找到能够同时覆盖预测边界框和ground-truth边界框的最小区域,并将其作为分母来代替IoU loss中使用的原始分母。DIoU损失还强调了预测框和真实框中心之间的距离。CIoU 损失同时包括重叠区域、中心点之间的距离和纵横比。

在本文的例子中,作者感兴趣的是最小化2个Box之间的距离,每个Box都由4个距离值给出。当从具有不同大小的对象的不同尺度中学习时,边界框回归损失函数应该是尺度不变的。然而,ℓn-based损失会随着边界框的规模变大而增长。与原始 IoU 损失及其变体相反,本文的损失不需要匹配边界框位置,因为定位任务已经嵌入到过程中。此外,在最坏的情况下,预测框和真实框至少共享一个点(即IoU ≥ 0)。这是因为对于每个框,≥0。

在这项工作中提出了一种为目标检测方法量身定制的基于 IoU 的损失,它也可用于改进其他anchor-free检测器。提出的损失,称为 SDIoU,代表基于尺度不变距离的 IoU,直接应用于网络输出,即从目标中心到左上角和右下角的距离值。然而,其他基于 IoU 的损失适用于目标中心和目标宽度和高度。由于 SDIoU 基于预测框和真实框对应偏移量之间的欧几里德距离,因此它可以保持框的完整性并对所有 4 个方向的重叠区域进行评分。

CIoU 和尺度平衡损失类似,考虑非重叠区域、重叠或交叉区域以及覆盖这2个框的最小框。首先通过将对应距离值之间的所有欧几里德距离的平方相加来计算非重叠区域 S:

其中  和 ${L^∗, T^∗, R^∗, B^∗\}$ 分别是预测距离和真实距离。直观地,计算不同距离值之间的平方欧几里得距离可以有效地考虑 4 个方向上的预测距离和真实距离。

通过计算交叉区域对角线长度的平方来获得交叉区域 I:

其中,和分别为交叉点区域的宽度和高度,计算结果为:

覆盖预测框和真实框的最小面积C,由其长度的平方计算为:

其中,和分别表示C的宽度和高度,计算结果为:

通过最小化C,预测框可以在4个方向向真实框移动。最后,将SDIoU计算为:

其中 ρ 表示有利于重叠区域的正权衡值。在分子中同时使用 I 和 (-S) 来对交叉区域进行评分,并对非重叠区域进行惩罚。因此,强制执行预测的 4 个距离值以更快地匹配真实距离。SDIoU 损失最终定义为 。图 4 说明了 SDIoU 损失中考虑的区域。

image.png

相关文章
|
6月前
|
算法 测试技术 vr&ar
【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器
【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器
|
人工智能 自然语言处理 异构计算
Stability AI发布基于稳定扩散的音频生成模型Stable Audio
近日Stability AI推出了一款名为Stable Audio的尖端生成模型,该模型可以根据用户提供的文本提示来创建音乐。
172 1
|
1月前
|
存储 测试技术
ECCV 2024:比基准高30%,媲美Gemini 1.5 Pro,基于记忆的视频理解智能体来了
【10月更文挑战第2天】该论文提出了一种基于记忆的多模态智能体VideoAgent,通过结合大语言模型和视觉语言模型,引入统一记忆机制,在视频理解任务中实现了显著性能提升。VideoAgent构建了结构化的记忆系统,存储视频中的时间事件描述和对象状态,支持零样本工具使用,提升了长视频理解能力。实验结果显示,VideoAgent在NExT-QA和EgoSchema等数据集上分别提升了6.6%和26.0%的性能。然而,其在处理长视频时仍面临内存和计算资源限制,多模态融合能力也有待进一步提高。
35 4
|
5月前
|
机器学习/深度学习 人工智能 算法
Scaling Law触礁数据墙?Epoch AI发文预测LLM到2028年耗尽所有文本数据
【6月更文挑战第23天】Epoch AI警告,大语言模型(LLM)可能在2026-2032年间面临“数据墙”,因人类生成文本数据耗尽。论文探讨LLM扩展限制,提出合成数据、迁移学习和提高数据效率作为应对策略,但也引发数据隐私和伦理问题。研究敦促平衡模型发展与数据资源管理[[1](https://arxiv.org/abs/2211.04325)]。
94 6
|
数据可视化 计算机视觉
ECCV2022 Oral | 全新Ancho-free检测模型ObjectBox,120FPS超越OTA、TOOD等(二)
ECCV2022 Oral | 全新Ancho-free检测模型ObjectBox,120FPS超越OTA、TOOD等(二)
96 0
|
机器学习/深度学习 数据可视化 计算机视觉
YOLO超快时代终结了 | RT-DETR用114FPS实现54.8AP,远超YOLOv8(二)
YOLO超快时代终结了 | RT-DETR用114FPS实现54.8AP,远超YOLOv8(二)
1098 0
|
机器学习/深度学习 并行计算 监控
YOLO超快时代终结了 | RT-DETR用114FPS实现54.8AP,远超YOLOv8(一)
YOLO超快时代终结了 | RT-DETR用114FPS实现54.8AP,远超YOLOv8(一)
538 0
|
机器学习/深度学习 自动驾驶 算法
YOLOX升级 | 阿里巴巴提出YOLOX-PAI,1ms内精度无敌,超越YOLOv6、PP-YOLOE
YOLOX升级 | 阿里巴巴提出YOLOX-PAI,1ms内精度无敌,超越YOLOv6、PP-YOLOE
204 0
|
存储 机器学习/深度学习 测试技术
计算机视觉论文速递(三)YOLO-Pose:《Enhancing YOLO for Multi Person Pose .....》实时性高且易部署的姿态估计模型
现有的基于Heatmap的两阶段方法并不是最优的,因为它们不是端到端训练的,且训练依赖于替代L1损失,不等价于最大化评估度量,即目标关键点相似度(OKS)。
548 0
|
计算机视觉 芯片 AI芯片
谷歌推出多模态Vid2Seq,理解视频IQ在线,字幕君不会下线了|CVPR 2023
谷歌推出多模态Vid2Seq,理解视频IQ在线,字幕君不会下线了|CVPR 2023
112 0