05 yolo v3的理解

2022-10-17 105

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： yolo v3的理解

1. 摘要

对当前的yolo的模型做出了一点改进，网络的更大，精确度得到了提高，但是它速度方面还是有保证的，与其他网络相比性能仍是十分出众。

2.1 利用多尺度特征进行对象预测

YOLO2曾采用passthrough结构来检测细粒度特征，在YOLO3更进一步采用了3个不同尺度的特征图来进行对象检测。

结合上图看，卷积网络在79层后，经过下方几个黄色的卷积层得到一种尺度的检测结果。相比输入图像，这里用于检测的特征图有32倍的下采样。比如输入是416x416的话，这里的特征图就是13x13了。由于下采样倍数高，这里特征图的感受野比较大，因此适合检测图像中尺寸比较大的对象。

为了实现细粒度的检测，第79层的特征图又开始作上采样（从79层往右开始上采样卷积），然后与第61层特征图融合（Concatenation），这样得到第91层较细粒度的特征图，同样经过几个卷积层后得到相对输入图像16倍下采样的特征图。它具有中等尺度的感受野，适合检测中等尺度的对象。

最后，第91层特征图再次上采样，并与第36层特征图融合（Concatenation），最后得到相对输入图像8倍下采样的特征图。它的感受野最小，适合检测小尺寸的对象。

2.2 9种尺度的先验框

随着输出的特征图的数量和尺度的变化，先验框的尺寸也需要相应的调整。YOLO2已经开始采用K-means聚类得到先验框的尺寸，YOLO3延续了这种方法，为每种下采样尺度设定3种先验框，总共聚类出9种尺寸的先验框。在COCO数据集这9个先验框是：(10x13)，(16x30)，(33x23)，(30x61)，(62x45)，(59x119)，(116x90)，(156x198)，(373x326)。

分配上，在最小的13x13特征图上（有最大的感受野）应用较大的先验框(116x90)，(156x198)，(373x326)，适合检测较大的对象。中等的26x26特征图上（中等感受野）应用中等的先验框(30x61)，(62x45)，(59x119)，适合检测中等大小的对象。较大的52*52特征图上（较小的感受野）应用较小的先验框(10x13)，(16x30)，(33x23)，适合检测较小的对象。

感受一下9种先验框的尺寸，下图中蓝色框为聚类得到的先验框。黄色框式ground truth，红框是对象中心点所在的网格。

2.3 采用了新的方法进行特征提取DarkNet-53

这个网络主要是在yolo v2 darknet-19的基础之上引入了residual network。网络结构如下图所示：

Average mean AP上Darknet-53与SSD的变体相当，但是速度要比它快上3倍。但是它与facebook推出的RetinaNet还是有一定的差距。可是以“旧”的检查指标（mAP at IOU= .5）时，它几乎和RetinaNet达到同样的水平远远超过SSD变种。这暗示了yolo v3是擅长为对象估测框。可是随着IOU阈值的提升，它的性能得到了很快的下降，这说明yolo v3只能估计对象的大体区域。很难与待检测对象完美对齐

3. 思考

可以参看residual去提高网络的检测性能。
存在的一个问题，通过多尺度先验框可以提高对小物体检测的性能，但是又使对较大型的物体检查较差。

05 yolo v3的理解

1. 摘要

2.1 利用多尺度特征进行对象预测

2.2 9种尺度的先验框

2.3 采用了新的方法进行特征提取DarkNet-53

3. 思考

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

05 yolo v3的理解

1. 摘要

2.1 利用多尺度特征进行对象预测

2.2 9种尺度的先验框

2.3 采用了新的方法进行特征提取DarkNet-53

3. 思考

热门文章

最新文章

相关课程

相关电子书

相关实验场景