05 yolo v3的理解

简介: yolo v3的理解

1. 摘要

对当前的yolo的模型做出了一点改进,网络的更大,精确度得到了提高,但是它速度方面还是有保证的,与其他网络相比性能仍是十分出众。

2.1 利用多尺度特征进行对象预测

YOLO2曾采用passthrough结构来检测细粒度特征,在YOLO3更进一步采用了3个不同尺度的特征图来进行对象检测。


结合上图看,卷积网络在79层后,经过下方几个黄色的卷积层得到一种尺度的检测结果。相比输入图像,这里用于检测的特征图有32倍的下采样。比如输入是416x416的话,这里的特征图就是13x13了。由于下采样倍数高,这里特征图的感受野比较大,因此适合检测图像中尺寸比较大的对象。


为了实现细粒度的检测,第79层的特征图又开始作上采样(从79层往右开始上采样卷积),然后与第61层特征图融合(Concatenation),这样得到第91层较细粒度的特征图,同样经过几个卷积层后得到相对输入图像16倍下采样的特征图。它具有中等尺度的感受野,适合检测中等尺度的对象。


最后,第91层特征图再次上采样,并与第36层特征图融合(Concatenation),最后得到相对输入图像8倍下采样的特征图。它的感受野最小,适合检测小尺寸的对象。

2.2 9种尺度的先验框

随着输出的特征图的数量和尺度的变化,先验框的尺寸也需要相应的调整。YOLO2已经开始采用K-means聚类得到先验框的尺寸,YOLO3延续了这种方法,为每种下采样尺度设定3种先验框,总共聚类出9种尺寸的先验框。在COCO数据集这9个先验框是:(10x13),(16x30),(33x23),(30x61),(62x45),(59x119),(116x90),(156x198),(373x326)。


分配上,在最小的13x13特征图上(有最大的感受野)应用较大的先验框(116x90),(156x198),(373x326),适合检测较大的对象。中等的26x26特征图上(中等感受野)应用中等的先验框(30x61),(62x45),(59x119),适合检测中等大小的对象。较大的52*52特征图上(较小的感受野)应用较小的先验框(10x13),(16x30),(33x23),适合检测较小的对象。

感受一下9种先验框的尺寸,下图中蓝色框为聚类得到的先验框。黄色框式ground truth,红框是对象中心点所在的网格。

2.3 采用了新的方法进行特征提取DarkNet-53

这个网络主要是在yolo v2 darknet-19的基础之上引入了residual network。网络结构如下图所示:

Average mean AP上Darknet-53与SSD的变体相当,但是速度要比它快上3倍。但是它与facebook推出的RetinaNet还是有一定的差距。可是以“旧”的检查指标(mAP at IOU= .5)时,它几乎和RetinaNet达到同样的水平远远超过SSD变种。这暗示了yolo v3是擅长为对象估测框。可是随着IOU阈值的提升,它的性能得到了很快的下降,这说明yolo v3只能估计对象的大体区域。很难与待检测对象完美对齐

3. 思考

  • 可以参看residual去提高网络的检测性能。
  • 存在的一个问题,通过多尺度先验框可以提高对小物体检测的性能,但是又使对较大型的物体检查较差。
相关文章
|
5月前
|
机器学习/深度学习 数据可视化 网络架构
请你继续卷:YOLOV9
请你继续卷:YOLOV9
190 0
|
5月前
|
机器学习/深度学习 监控 算法
YOLOv3没有比这详细的了吧
YOLOv3没有比这详细的了吧
|
5月前
|
监控 算法 自动驾驶
YOLO
YOLO“【5月更文挑战第23天】”
78 1
|
4月前
|
机器学习/深度学习 计算机视觉 网络架构
YOLOv9这么快就来了,赶紧学起来~
YOLOv9这么快就来了,赶紧学起来~
|
数据挖掘
YoloV2的改进
YoloV2的改进
126 0
|
机器学习/深度学习 人工智能 固态存储
YOLO v1详细解读
《You Only Look Once: Unifified, Real-Time Object Detection》 Joseph Redmon∗* , Santosh Divvala∗†, Ross Girshick*¶* , Ali Farhadi∗† University of Washington∗ , Allen Institute for AI*†* , Facebook AI Research*¶**
YOLO v1详细解读
|
计算机视觉
|
机器学习/深度学习 数据挖掘
|
机器学习/深度学习 算法 数据挖掘
YOLO v3详细解读
《YOLOv3: An Incremental Improvement》 Joseph Redmon Ali Farhadi University of Washington
YOLO v3详细解读