即插即用 | SIoU 实现50.3 AP+7.6ms检测速度精度、速度完美超越YoloV5、YoloX

简介: 即插即用 | SIoU 实现50.3 AP+7.6ms检测速度精度、速度完美超越YoloV5、YoloX

目标检测是计算机视觉任务的核心问题之一,其有效性在很大程度上取决于损失函数的定义。传统的目标检测损失函数依赖于边界框回归指标的聚合,例如预测框和真实框(即 GIoUCIoUICIoU 等)的距离、重叠区域和纵横比。

然而,迄今为止提出和使用的方法都没有考虑到所需真实框与预测框之间不匹配的方向。这种不足导致收敛速度较慢且效率较低,因为预测框可能在训练过程中“四处游荡”并最终产生更差的模型。

在本文中,提出了一种新的损失函数 SIoU,其中考虑到所需回归之间的向量角度,重新定义了惩罚指标。应用于传统的神经网络和数据集,表明 SIoU 提高了训练的速度和推理的准确性。

在许多模拟和测试中揭示了所提出的损失函数的有效性。特别是,将 SIoU 应用于 COCO-train/COCO-val 与其他损失函数相比,提高了 +2.4% (mAP@0.5:0.95) 和 +3.6%(mAP@0.5)。


1简介


我们都知道目标检测中损失函数(LF)的定义起着重要作用。后者作为一种惩罚措施,需要在训练期间最小化,并且理想情况下可以将勾勒出目标的预测框与相应的真实框匹配。为目标检测问题定义 LF 有不同的方法,这些方法考虑到框的以下“不匹配”指标的某种组合:框中心之间的距离、重叠区域和纵横比。

最近 Rezatofighi 等人声称Generalized IoU (GIoU) LF优于其他标准 LF 的最先进的目标检测方法。虽然这些方法对训练过程和最终结果都产生了积极影响,但作者认为仍有很大改进的空间。因此,与用于计算图像中真实框和模型预测框不匹配的惩罚的传统指标并行——即距离、形状和 IoU,本文作者建议还要考虑匹配的方向。这种添加极大地帮助了训练收敛过程和效果,因为它可以让预测框很快地移动到最近的轴,并且随后的方法只需要一个坐标 X 或 Y 的回归。简而言之,添加Angle惩罚成本有效地减少了损失的总自由度。


2SIoU Loss


SIoU损失函数由4个Cost函数组成:

  • Angle cost
  • Distance cost
  • Shape cost
  • IoU cost

2.1 Angle cost

添加这种角度感知 LF 组件背后的想法是最大限度地减少与距离相关的“奇妙”中的变量数量。基本上,模型将尝试首先将预测带到 X 或 Y 轴(以最接近者为准),然后沿着相关轴继续接近。

image.png

如果 𝛼 ≤Π/4,收敛过程将首先最小化𝛼 , 否则最小化β:

image.png

为了首先实现这一点,以以下方式引入和定义了LF组件:

image.png

其中,

image.png

Angle cost的曲线如图2所示。

image.png图2

2.2 Distance cost

考虑到上面定义的Angle cost,重新定义了Distance cost

image.png

其中,

image.png

可以看出,当𝛼→0时,Distance cost的贡献大大降低。相反,𝛼越接近Π/4,Distance cost贡献越大。随着角度的增大,问题变得越来越难。因此,γ被赋予时间优先的距离值,随着角度的增加。

2.3 Shape cost

Shape cost的定义为:

image.png

其中,

image.png

𝜃 的值定义了每个数据集的Shape cost及其值是唯一的。𝜃 的值是这个等式中非常重要的一项,它控制着对Shape cost的关注程度。如果 𝜃 的值设置为 1,它将立即优化一个Shape,从而损害Shape的自由移动。为了计算 𝜃 的值,作者将遗传算法用于每个数据集,实验上 𝜃 的值接近 4,文中作者为此参数定义的范围是 2 到 6。

2.4 IoU Cost

IoU cost的定义为:

image.png

其中,

image.png

image.png

2.5 SIoU Loss

最后,回归损失函数为:

image.png

总损失函数为:

image.png

其中 是Focal Loss,、分别是框和分类损失权重。为了计算、、𝜃,使用了遗传算法。


3实验结果


图 10 总结了不同模型与 mAP@0.5:0.95 的推理时间。显然,Scylla-Net 的 mAP 值较高,而模型推理时间远低于比较模型的推理时间。

图 10

COCO-val 上 SIoU 的 mAP 为 52.7% mAP@0.5:0.95(包括预处理、推理和后处理为 7.6ms)和 70% mAP@0.5,同时 CIoU 为分别只有 50.3% 和 66.4%。

更大的模型可以达到 57.1% mAP@0.5:0.95(12ms 包括预处理、推理和后处理)和 74.3% mAP@0.5,而其他架构如 Efficient-Det-d7xYOLO-V4YOLO-V5 可以达到mAP@0.5:0.95分别为 54.4% (153ms)、47.1% (26.3ms) 和 50.4%(使用 fp16 进行 6.1ms)。

请注意,YOLO-V5x6-TTA 在 COCO-val 上可以达到约 55%,但推理时间非常慢(FP16 时约为 72ms)。


4参考


[1].SIoU Loss: More Powerful Learning for Bounding Box Regression


5推荐阅读


即插即用 | RandomMix 集百家之长实现超越Mixup的数据增强方法!

Sparse RCNN再升级 | ResNet50在不需要NMS和二分匹配的情况下达到48.1AP

建议背诵 | 字节用4大准则教你设计一个拥有CNN的速度,Transformer精度的模型!

相关文章
|
机器学习/深度学习 编解码 固态存储
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!
793 0
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!
|
7月前
|
数据挖掘 计算机视觉
YOLOv5改进 | 损失篇 | VarifocalLoss密集检测专用损失函数 (VFLoss,论文一比一复现)
YOLOv5改进 | 损失篇 | VarifocalLoss密集检测专用损失函数 (VFLoss,论文一比一复现)
533 1
|
7月前
|
网络架构
YOLOv5改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv5(超级轻量化精度更高)
YOLOv5改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv5(超级轻量化精度更高)
328 0
|
5月前
|
机器学习/深度学习 计算机视觉
YOLOv10实战:红外小目标实战 | 多头检测器提升小目标检测精度
本文改进: 在进行目标检测时,小目标会出现漏检或检测效果不佳等问题。YOLOv10有3个检测头,能够多尺度对目标进行检测,但对微小目标检测可能存在检测能力不佳的现象,因此添加一个微小物体的检测头,能够大量涨点,map提升明显; 多头检测器提升小目标检测精度,1)mAP50从0.666提升至0.677
1030 3
|
7月前
|
机器学习/深度学习 网络架构
YOLOv8改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv8(超级轻量化精度更高)
YOLOv8改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv8(超级轻量化精度更高)
502 1
|
7月前
|
传感器 编解码 自动驾驶
即插即用 | Lite-FPN让CenterNet系列再涨4个点(3D检测也适用)
即插即用 | Lite-FPN让CenterNet系列再涨4个点(3D检测也适用)
241 0
|
7月前
|
机器学习/深度学习 编解码 算法
YOLOv8改进 | 主干篇 | 低照度增强网络PE-YOLO改进主干(改进暗光条件下的物体检测模型)
YOLOv8改进 | 主干篇 | 低照度增强网络PE-YOLO改进主干(改进暗光条件下的物体检测模型)
355 0
|
7月前
|
机器学习/深度学习 编解码 算法
YOLOv5改进 | 主干篇 | 低照度增强网络PE-YOLO改进主干(改进暗光条件下的物体检测)
YOLOv5改进 | 主干篇 | 低照度增强网络PE-YOLO改进主干(改进暗光条件下的物体检测)
268 0
|
机器学习/深度学习 数据可视化 计算机视觉
YOLO超快时代终结了 | RT-DETR用114FPS实现54.8AP,远超YOLOv8(二)
YOLO超快时代终结了 | RT-DETR用114FPS实现54.8AP,远超YOLOv8(二)
1152 0
|
机器学习/深度学习 并行计算 监控
YOLO超快时代终结了 | RT-DETR用114FPS实现54.8AP,远超YOLOv8(一)
YOLO超快时代终结了 | RT-DETR用114FPS实现54.8AP,远超YOLOv8(一)
549 0

相关实验场景

更多