【目标检测】目标检测界的扛把子YOLOv5（原理详解+修炼指南）

2023-01-19 488

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【目标检测】目标检测界的扛把子YOLOv5（原理详解+修炼指南）

1.YOLO输入端

1.1 Mosaic数据增强

Yolov5的输入端采用了和Yolov4一样的Mosaic数据增强的方式。

Mosaic数据增强提出的作者也是来自Yolov5团队的成员，不过，随机缩放、随机裁剪、随机排布的方式进行拼接，对于小目标的检测效果还是很不错的。

算法优点：

在Yolo算法中，针对不同的数据集，都会有初始设定长宽的锚框。

在网络训练中，网络在初始锚框的基础上输出预测框，进而和真实框groundtruth进行比对，计算两者差距，再反向更新，迭代网络参数。

在常用的目标检测算法中，不同的图片长宽都不相同，因此常用的方式是将原始图片统一缩放到一个标准尺寸，再送入检测网络中。

letterbox自适应图片缩放技术尽量保持高宽比，缺的用灰边补齐达到固定的尺寸。

主要进行特征提取，将图像中的物体信息通过卷积网络进行提取，用于后面目标检测。

Focus层原理和PassThrough层很类似。它采用切片操作把高分辨率的图片拆分成多个低分辨率的图片/特征图，即隔列采样+拼接。

空间金字塔池化，能将任意大小的特征图转换成固定大小的特征向量。

backbone是较深的网络，增加残差结构可以增加层与层之间反向传播的梯度值，避免因为加深而带来的梯度消失，从而可以提取到更细粒度的特征并且不用担心网络退化。

对特征进行混合与组合，增强网络的鲁棒性，加强物体检测能力，并且将这些特征传递给Head层进行预测。

主要进行最终的预测输出。

真实检测框和模型预测输出框的吻合程度，用于反向传播优化模型。

判断相邻网格识别的是否是同一物体，消除掉多余检测框。