论文阅读笔记 | 目标检测算法——YOLOX

简介: 论文阅读笔记 | 目标检测算法——YOLOX

paper:YOLOX: Exceeding YOLO Series in 2021

image.png

摘要:

作者将YOLO检测器切换为anchor_free方式,并且结合了一些先进的检测测量,比如一个解耦的检测器头部以及一个标签分配策略SimOTA。

ps:作者用一个YOLOX-L模型赢得了流感知挑战(2021年CVPR自动驾驶研讨会)的第一名


1. Introduction


YOLO系列始终追求实时应用的最佳速度和精度取舍,提取了当时可用的最先进的检测技术(例如,anchor用于YOLOv2,残差网络用于YOLOv3),并优化最佳实践的实现。

然而在过去的两年中,目标检测学术界的主要进展集中在anchor_free检测器,高级标签分配策略和端到端(NMS-free)检测器,这些研究成果还没有被集成在YOLO系列中,YOLOv4和YOLOv5目前还是使用了anchor_based及手动的指定训练分配规则(比如anchor相关的设置)。


作者还认为,YOLOv4和YOLOv5中对anchor有点过度的优化,所以重新将YOLOv3-SPP版本作为优化起点。原因是,YOLOv3由于计算资源有限,在各种实际应用中软件支持不足,仍然是行业中应用最广泛的探测器之一。


对于COCO数据集中640x640的分辨率大小达到了47.3%的mAP效果。而且,如果使用YOLOv5的backbone以及添加上一个PAN检测头,YOLOX-L达到了50%的mAP效果,如图所示:

image.png


2. YOLOX


在一开始时文章介绍了一些参数的设置,包括学习率,epochsize等等,这里跳过。作者将YOLOv3+Darknet53作为基准。


2.1 YOLOv3 baseline

采用Darknet53+SPP结构为基准,改变了一点学习的策略,增加EMA权重更新,余弦lr调度调整,IoU损失和IoU感知分支。对于分类与目标分支采用二值交叉熵损失,对于回归分支采用IoU损失。


在数据增强方面,作者只采用了RandomHorizontalFlip,ColorJitterand及多尺度,抛弃了RandomResizedCrop策略,因为作者举得这与Mosaic的数据增加有点重叠。

以上策略作为YOLOX的baseline,mAP为38.5%


2.2 Decoupled head

在目标检测中,分类任务与回归任务之间的冲突是一个的问题,因此用于分类和定位的检测头一般被解耦应用在于大多数探测器中。但是由于YOLO系列与FPN结构的不断进化,YOLO系列的检测头保持耦合。


实验证明,耦合的检测头会损害检测器性能:

1)将YOLO的头部替换为解耦的头部,极大地提高了收敛速度

2)解耦头对于YOLO的端到端版本至关重要

image.png

由图可见,收敛速度确实快很多。

因此,作者将YOLO检测头替换为的lite解耦头,如图2所示:

image.png

效果带来了提升,但是在推断过程中会有1.1ms的延迟。


2.3 Strong data augmentation

作者将Mosaic和MixUp添加到数据增强策略中,以提高YOLOX的性能,而且在最后的15个epoch中关闭这个训练策略。

在使用了以上的数据增强方式后,作者发现ImageNet的预训练没有带来收益,所以作者从头开始训练所有以下模型。


2.4 Anchor-free

基于anchor的方法hi带来许多问题:

1)为了达到最优的检测性能,需要在训练前进行聚类分析,确定一组最优的锚点。那些聚集的锚点是特定领域的,不太一般化。

2)锚框的机制增加了检测头的复杂性,以及每幅图像的预测数量。在设备之间移动如此大量的预测可能会成为整体延迟方面的潜在瓶颈。

而anchor_free的方法降低了设计量,需要启发式调整和许多技巧(比如Anchor Clustering,Grid Sensitive),简化了训练与编码阶段。

将YOLO系列转化为Anchor-free,思想就是对于特征图上的每个点直接预测4个值(网格左上角的两个偏移量,以及预测框的高度和宽度,根据这4个值确定回归框),将每个物体的中心位置指定为阳性样本,并预先定义一个刻度范围,为每个FPN层级进行指定。


2.5 Multi positives

对于对象中心点的3x3的范围定义为正样本,也就是说如果某个特征点预测的4个值所构成的边界框的中心点在这个3x3的范围中时,其会被确认为正样本。而对于多个正样本中只会选择其中的一个作为候选框。

而在优化这些高质量的预测框时有可能带来有益的梯度,这可能会缓解训练中正负样本的极端不平衡。


2.6 SimOTA

作者对标签分配总结出了4个关键点:

1)loss/quality aware

2)center prior

3)dynamic top-k:对于每个ground-truth的动态正锚框数量

4)global view:全局视图

SimOTA满足以上的所以要求

OTA从全局角度分析标签分配,并将分配过程表述为最优运输(Optimal Transport ,OT)问题。在实践中作者发现,通过Sinkhorn-Knopp算法解决OT问题会带来25%的额外训练时间,因此作者将其简化为dynamic top-k策略,命名为SimOTA,以得到近似解。

SimOTA首先计算成对匹配度,表示为每个预测gt对的成本或质量。在SimOTA中,ground-truth与预测框之间的成本计算为:

image.png

对于每个ground-truth,选择在固定中心区域内代价最小的topk预测作为正样本。最后,将这些正预测对应的栅格赋为正,其余栅格赋为负。


3. Result


  • 与YOLOv5的对比:

image.png

  • 轻量级版本(YOLOX-Tiny,YOLOX-Nano)与其他轻量级的对比:

image.png

  • 与SOTA的对比:

image.png

总结:

作者为YOLO系列结合了比较先进的检测技术,比如:解耦检测头、anchor_free(逐像素点预测思想)、先进的标签分配策略。YOLOX在速度和精度之间实现了比其他所有模型尺寸的对手更好的权衡。

目录
相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 算法
调研180多篇论文,这篇综述终于把大模型做算法设计理清了
《A Systematic Survey on Large Language Models for Algorithm Design》综述了过去三年大型语言模型(LLMs)在算法设计中的应用。LLMs通过自然语言处理技术,助力生成、优化和验证算法,在优化、机器学习、数学推理等领域展现出广泛应用前景。尽管存在资源需求高、结果不确定等挑战,LLMs仍为算法设计带来新机遇。论文地址:https://arxiv.org/abs/2410.14716。
99 14
|
3月前
|
机器学习/深度学习 监控 算法
基于反光衣和检测算法的应用探索
本文探讨了利用机器学习和计算机视觉技术进行反光衣检测的方法,涵盖图像预处理、目标检测与分类、特征提取等关键技术。通过YOLOv5等模型的训练与优化,展示了实现高效反光衣识别的完整流程,旨在提升智能检测系统的性能,应用于交通安全、工地监控等领域。
|
4月前
|
监控 算法 数据安全/隐私保护
基于三帧差算法的运动目标检测系统FPGA实现,包含testbench和MATLAB辅助验证程序
本项目展示了基于FPGA与MATLAB实现的三帧差算法运动目标检测。使用Vivado 2019.2和MATLAB 2022a开发环境,通过对比连续三帧图像的像素值变化,有效识别运动区域。项目包括完整无水印的运行效果预览、详细中文注释的代码及操作步骤视频,适合学习和研究。
|
3月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GA-PSO-SVM算法的混沌背景下微弱信号检测matlab仿真
本项目基于MATLAB 2022a,展示了SVM、PSO、GA-PSO-SVM在混沌背景下微弱信号检测中的性能对比。核心程序包含详细中文注释和操作步骤视频。GA-PSO-SVM算法通过遗传算法和粒子群优化算法优化SVM参数,提高信号检测的准确性和鲁棒性,尤其适用于低信噪比环境。
|
3月前
|
存储 JSON 算法
TDengine 检测数据最佳压缩算法工具,助你一键找出最优压缩方案
在使用 TDengine 存储时序数据时,压缩数据以节省磁盘空间是至关重要的。TDengine 支持用户根据自身数据特性灵活指定压缩算法,从而实现更高效的存储。然而,如何选择最合适的压缩算法,才能最大限度地降低存储开销?为了解决这一问题,我们特别推出了一个实用工具,帮助用户快速判断并选择最适合其数据特征的压缩算法。
86 0
|
4月前
|
机器学习/深度学习 安全 算法
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(下)
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(下)
67 0
|
4月前
|
安全 搜索推荐 算法
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(上)
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(上)
49 0
|
4月前
|
自然语言处理 搜索推荐 算法
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-21(下)
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-21(下)
53 0
|
1天前
|
算法 数据安全/隐私保护 计算机视觉
基于FPGA的图像双线性插值算法verilog实现,包括tb测试文件和MATLAB辅助验证
本项目展示了256×256图像通过双线性插值放大至512×512的效果,无水印展示。使用Matlab 2022a和Vivado 2019.2开发,提供完整代码及详细中文注释、操作视频。核心程序实现图像缩放,并在Matlab中验证效果。双线性插值算法通过FPGA高效实现图像缩放,确保质量。
|
1月前
|
算法 数据安全/隐私保护 计算机视觉
基于Retinex算法的图像去雾matlab仿真
本项目展示了基于Retinex算法的图像去雾技术。完整程序运行效果无水印,使用Matlab2022a开发。核心代码包含详细中文注释和操作步骤视频。Retinex理论由Edwin Land提出,旨在分离图像的光照和反射分量,增强图像对比度、颜色和细节,尤其在雾天条件下表现优异,有效解决图像去雾问题。

热门文章

最新文章