论文阅读笔记 | 目标检测算法——YOLOX

简介: 论文阅读笔记 | 目标检测算法——YOLOX

paper:YOLOX: Exceeding YOLO Series in 2021

image.png

摘要:

作者将YOLO检测器切换为anchor_free方式,并且结合了一些先进的检测测量,比如一个解耦的检测器头部以及一个标签分配策略SimOTA。

ps:作者用一个YOLOX-L模型赢得了流感知挑战(2021年CVPR自动驾驶研讨会)的第一名


1. Introduction


YOLO系列始终追求实时应用的最佳速度和精度取舍,提取了当时可用的最先进的检测技术(例如,anchor用于YOLOv2,残差网络用于YOLOv3),并优化最佳实践的实现。

然而在过去的两年中,目标检测学术界的主要进展集中在anchor_free检测器,高级标签分配策略和端到端(NMS-free)检测器,这些研究成果还没有被集成在YOLO系列中,YOLOv4和YOLOv5目前还是使用了anchor_based及手动的指定训练分配规则(比如anchor相关的设置)。


作者还认为,YOLOv4和YOLOv5中对anchor有点过度的优化,所以重新将YOLOv3-SPP版本作为优化起点。原因是,YOLOv3由于计算资源有限,在各种实际应用中软件支持不足,仍然是行业中应用最广泛的探测器之一。


对于COCO数据集中640x640的分辨率大小达到了47.3%的mAP效果。而且,如果使用YOLOv5的backbone以及添加上一个PAN检测头,YOLOX-L达到了50%的mAP效果,如图所示:

image.png


2. YOLOX


在一开始时文章介绍了一些参数的设置,包括学习率,epochsize等等,这里跳过。作者将YOLOv3+Darknet53作为基准。


2.1 YOLOv3 baseline

采用Darknet53+SPP结构为基准,改变了一点学习的策略,增加EMA权重更新,余弦lr调度调整,IoU损失和IoU感知分支。对于分类与目标分支采用二值交叉熵损失,对于回归分支采用IoU损失。


在数据增强方面,作者只采用了RandomHorizontalFlip,ColorJitterand及多尺度,抛弃了RandomResizedCrop策略,因为作者举得这与Mosaic的数据增加有点重叠。

以上策略作为YOLOX的baseline,mAP为38.5%


2.2 Decoupled head

在目标检测中,分类任务与回归任务之间的冲突是一个的问题,因此用于分类和定位的检测头一般被解耦应用在于大多数探测器中。但是由于YOLO系列与FPN结构的不断进化,YOLO系列的检测头保持耦合。


实验证明,耦合的检测头会损害检测器性能:

1)将YOLO的头部替换为解耦的头部,极大地提高了收敛速度

2)解耦头对于YOLO的端到端版本至关重要

image.png

由图可见,收敛速度确实快很多。

因此,作者将YOLO检测头替换为的lite解耦头,如图2所示:

image.png

效果带来了提升,但是在推断过程中会有1.1ms的延迟。


2.3 Strong data augmentation

作者将Mosaic和MixUp添加到数据增强策略中,以提高YOLOX的性能,而且在最后的15个epoch中关闭这个训练策略。

在使用了以上的数据增强方式后,作者发现ImageNet的预训练没有带来收益,所以作者从头开始训练所有以下模型。


2.4 Anchor-free

基于anchor的方法hi带来许多问题:

1)为了达到最优的检测性能,需要在训练前进行聚类分析,确定一组最优的锚点。那些聚集的锚点是特定领域的,不太一般化。

2)锚框的机制增加了检测头的复杂性,以及每幅图像的预测数量。在设备之间移动如此大量的预测可能会成为整体延迟方面的潜在瓶颈。

而anchor_free的方法降低了设计量,需要启发式调整和许多技巧(比如Anchor Clustering,Grid Sensitive),简化了训练与编码阶段。

将YOLO系列转化为Anchor-free,思想就是对于特征图上的每个点直接预测4个值(网格左上角的两个偏移量,以及预测框的高度和宽度,根据这4个值确定回归框),将每个物体的中心位置指定为阳性样本,并预先定义一个刻度范围,为每个FPN层级进行指定。


2.5 Multi positives

对于对象中心点的3x3的范围定义为正样本,也就是说如果某个特征点预测的4个值所构成的边界框的中心点在这个3x3的范围中时,其会被确认为正样本。而对于多个正样本中只会选择其中的一个作为候选框。

而在优化这些高质量的预测框时有可能带来有益的梯度,这可能会缓解训练中正负样本的极端不平衡。


2.6 SimOTA

作者对标签分配总结出了4个关键点:

1)loss/quality aware

2)center prior

3)dynamic top-k:对于每个ground-truth的动态正锚框数量

4)global view:全局视图

SimOTA满足以上的所以要求

OTA从全局角度分析标签分配,并将分配过程表述为最优运输(Optimal Transport ,OT)问题。在实践中作者发现,通过Sinkhorn-Knopp算法解决OT问题会带来25%的额外训练时间,因此作者将其简化为dynamic top-k策略,命名为SimOTA,以得到近似解。

SimOTA首先计算成对匹配度,表示为每个预测gt对的成本或质量。在SimOTA中,ground-truth与预测框之间的成本计算为:

image.png

对于每个ground-truth,选择在固定中心区域内代价最小的topk预测作为正样本。最后,将这些正预测对应的栅格赋为正,其余栅格赋为负。


3. Result


  • 与YOLOv5的对比:

image.png

  • 轻量级版本(YOLOX-Tiny,YOLOX-Nano)与其他轻量级的对比:

image.png

  • 与SOTA的对比:

image.png

总结:

作者为YOLO系列结合了比较先进的检测技术,比如:解耦检测头、anchor_free(逐像素点预测思想)、先进的标签分配策略。YOLOX在速度和精度之间实现了比其他所有模型尺寸的对手更好的权衡。

目录
相关文章
|
3天前
|
算法
计算机算法设计与分析(1-6章 复习笔记)
计算机算法设计与分析(1-6章 复习笔记)
|
4天前
|
算法 C++
算法笔记:递归(c++实现)
算法笔记:递归(c++实现)
|
13天前
|
运维 算法 安全
异常检测算法及其在安全领域的应用
【6月更文挑战第4天】在数字化时代,数据安全至关重要,异常检测算法扮演着守护者角色。它能自动学习正常行为模式,及时发现网络攻击和欺诈行为。非监督式异常检测算法尤其重要,如基于距离的方法,通过计算数据点间距离识别偏离常规的点。Python的scikit-learn库可实现这一算法。异常检测不仅应用于金融领域的欺诈检测,还广泛用于工业监控、医疗诊断和社交媒体分析,为多领域数据安全提供保障。随着技术进步,异常检测将更智能、高效,成为数据安全的重要防线。
29 2
|
1天前
|
算法 JavaScript 前端开发
在JavaScript中实现基本的碰撞检测算法,我们通常会用到矩形碰撞检测,也就是AABB(Axis-Aligned Bounding Box)碰撞检测
【6月更文挑战第16天】JavaScript中的基本碰撞检测涉及AABB(轴对齐边界框)方法,常用于2D游戏。`Rectangle`类定义了矩形的属性,并包含一个`collidesWith`方法,通过比较边界来检测碰撞。若两矩形无重叠部分,四个条件(关于边界相对位置)均需满足。此基础算法适用于简单场景,复杂情况可能需采用更高级的检测技术或物理引擎库。
17 6
|
3天前
|
算法 Java 索引
12.12_黑马数据结构与算法笔记Java
12.12_黑马数据结构与算法笔记Java
12 1
|
4天前
|
人工智能 算法
计算机算法设计与分析 第3章 动态规划 (笔记)
计算机算法设计与分析 第3章 动态规划 (笔记)
|
4天前
|
算法 C++
计算机算法设计与分析 第2章 递归与分治策略 (笔记)
计算机算法设计与分析 第2章 递归与分治策略 (笔记)
|
4天前
|
算法
计算机算法设计与分析 第1章 算法概述 (笔记)
计算机算法设计与分析 第1章 算法概述 (笔记)
|
5天前
|
机器学习/深度学习 监控 算法
基于yolov2深度学习网络的昆虫检测算法matlab仿真,并输出昆虫数量和大小判决
YOLOv2算法应用于昆虫检测,提供实时高效的方法识别和定位图像中的昆虫,提升检测精度。核心是统一检测网络,预测边界框和类别概率。通过预测框尺寸估算昆虫大小,适用于农业监控、生态研究等领域。在matlab2022A上运行,经过关键升级,如采用更优网络结构和损失函数,保证速度与精度。持续优化可增强对不同昆虫的检测能力。![image.png](https://ucc.alicdn.com/pic/developer-ecology/3tnl7rfrqv6tw_e760ff6682a3420cb4e24d1e48b10a2e.png)
|
10天前
|
算法 计算机视觉
图像处理之霍夫变换圆检测算法
图像处理之霍夫变换圆检测算法
10 0

热门文章

最新文章