目标检测落地技能 | 拥挤目标检测你是如何解决的呢？改进Copy-Paste解决拥挤问题！（二）-阿里云开发者社区

目标检测落地技能 | 拥挤目标检测你是如何解决的呢？改进Copy-Paste解决拥挤问题！（二）

2023-05-26 380

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 目标检测落地技能 | 拥挤目标检测你是如何解决的呢？改进Copy-Paste解决拥挤问题！（二）

4、Alleviate the Confused De-Duplications

本文的增强策略有一个自然的副产品：对于粘贴的这些重叠目标，相对的“深度顺序”是先验的。换句话说，我们知道哪个在前面，哪个在后面。现在，让我们回到第节中描述的语义歧义。基本上，2D空间中的歧义是由真实（3D）世界中缺少一维造成的。从这个角度来看，深度顺序可以被视为额外第三维度的一些薄弱知识，这有助于减轻模糊性。作为一种可行的实践，在这项工作中利用深度顺序信息来解决混淆的重复数据消除（CDD）问题。

首先，引入一个名为“overlay depth”（OD）的变量，该变量描述了目标在视觉上被其他目标覆盖的程度。图5显示了计算OD的过程。首先假设一个目标的覆盖深度等于1.0，如果没有其他目标覆盖它。设是由目标覆盖的目标的区域，表示区域的大小。对于图像中的任何目标，存在一组覆盖的目标:

其中，是当前图像中所有目标的集合。然后，可以明确定义的OD值：

因此，一个物体被其他物体（同一类别的物体）遮挡得越严重，其OD值就越高（如图中的物体b1和b2）。

从这个特性出发，叠加深度的应用基于一个合理的观察：2个高度重叠的物体通常位于不同的深度，或者更具体地说，具有不同的OD值。因此，通过从深度轴获取额外的知识，可以在混乱的2D平面中进行重复数据消除时采用OD值。

现在，使检测器能够预测OD值。通常，检测模型采用分支来回归边界框的坐标。根据这一设计，为分支添加了一个额外的预测因子，以负责OD回归。该修改导致了可忽略的计算负担，并且可以很容易地在单阶段和两阶段结构中实现。在训练期间，采用了常见的L2损失。应该强调的是，由于覆盖深度的半监督知识，只能获取粘贴对象的OD。因此，只有当GT可用时才激活OD回归损失。从形式上讲，整个损失可以写为：

其中为常规检测损失，为共识学习损失，分别为OD回归损失。在本文中，使用了α = γ = 1和η = 0.1。

在推理过程中提出了一种新的重复数据消除策略，称为Overlay Depth-aware NMS（OD-NMS）。在原始的NMS管道中，bbox被递归地相互比较，如果IoU超过一个阈值，则在每个步骤中其中一个将被抑制。按照这个方案，在拥挤的场景中目标可能会错误地重复数据删除。在OD-NMS中，对于IoU高于阈值的困难情况，将预测的OD值整合到一个更全面的决策中。如果两个目标的深度不同，即两个OD值的绝对差值高于预定义的阈值，可以取消当前步骤中的抑制。根据经验，模糊的情况经常在大的IoU范围内增加：当两个bbox更严重地重叠时，需要更严格的OD阈值来判断它们是否是不同的目标。因此，我们设计了一个基于于单位值的OD的动态阈值：