最常问,建议必读的代表性目标检测论文
paper | address |
---|---|
RCNN系列 | Fast R-CNN Faster R-CNN |
SSD | SSD |
YOLOv1~YOLOv9 | YOLOv1 YOLOv2 YOLOv3 YOLOv4 YOLOv5 no paper YOLOv6 YOLOv7 YOLOv8 no paper YOLOv9 |
FCOS | FOCS |
YOLOX | YOLOX |
NanoDet | NanoDet |
DETR | DETR |
PPYOLO系列 | https://arxiv.org/abs/2007.12099v3 |
PP-PicoDet | https://arxiv.org/abs/2111.00902 |
DEMO-YOLO | https://arxiv.org/abs/2211.15444 |
RTMDet | https://arxiv.org/abs/2212.07784 |
1. 介绍YOLO,并且解释一下YOLO为什么可以这么快?
yolo是单阶段检测算法的开山之作,最初的yolov1是在图像分类网络的基础上直接进行的改进,摒弃了二阶段检测算法中的RPN操作,直接对输入图像进行分类预测和回归,所以它相对于二阶段的目标检测算法而言,速度非常的快,但是精度会低很多;但是在迭代到目前的V4、V5版本后,yolo的精度已经可以媲美甚至超过二阶段的目标检测算法,同时保持着非常快的速度,是目前工业界内最受欢迎的算法之一。yolo的核心思想是将输入的图像经过backbone特征提取后,将的到的特征图划分为S x S的网格,物体的中心落在哪一个网格内,这个网格就负责预测该物体的置信度、类别以及坐标位置。
YOLOv1理解和复现
YOLOv1深入理解
2. 介绍一下YOLOv3的原理?
yolov3采用了作者自己设计的darknet53作为主干网络,darknet53借鉴了残差网络的思想,与resnet101、resnet152相比,在精度上差不多的同时,有着更快的速度,网络里使用了大量的残差跳层连接,并且抛弃了pooling池化操作,直接使用步长为2的卷积来实现下采样。在特征融合方面,为了加强小目标的检测,引入了类似与FPN的多尺度特征融合,特征图在经过上采样后与前面层的输出进行concat操作,浅层特征和深层特征的融合,使得yolov3在小目标的精度上有了很大的提升。yolov3的输出分为三个部分,首先是置信度、然后是坐标信息,最后是分类信息。在推理的时候,特征图会等分成S x S的网格,通过设置置信度阈值对格子进行筛选,如果某个格子上存在目标,那么这个格子就负责预测该物体的置信度、坐标和类别信息。
【YOLOv5原理:百面算法工程师 | YOLOv5面试考点原理全解析点击即可跳转】
3. YOLO、SSD和Faster-RCNN的区别,他们各自的优势和不足分别是什么?
YOLO、SSD和Faster-RCNN都是目标检测领域里面非常经典的算法,无论是在工业界还是学术界,都有着深远的影响;Faster-RCNN是基于候选区域的双阶段检测器代表作,而YOLO和SSD则是单阶段检测器的代表;在速度上,单阶段的YOLO和SSD要比双阶段的Faster-RCNN的快很多,而YOLO又比SSD要快,在精度上,Faster-RCNN精度要优于单阶段的YOLO和SSD;不过这也是在前几年的情况下,目标检测发展到现在,单阶段检测器精度已经不虚双阶段,并且保持着非常快的速度,现阶段SSD和Faster-RCNN已经不更了,但是YOLO仍在飞快的发展,目前已经迭代到V4、V5,速度更快,精度更高,在COCO精度上双双破了50map,这是很多双阶段检测器都达不到的精度,而最近的Scale yolov4更是取得了55map,成功登顶榜首。当然虽然SSD和Faster-RCNN已经不更了,但是有很多他们相关的变体,同样有着不错的精度和性能,例如Cascade R-CNN、RefineDet等等。
4. 介绍一下CenterNet的原理,它与传统的目标检测有什么不同点?
CenterNet是属于anchor-free系列的目标检测算法的代表作之一,与它之前的目标算法相比,速度和精度都有不小的提高,尤其是和yolov3相比,在速度相同的情况下,CenterNet精度要比yolov3高好几个点。它的结构非常的简单,而且不需要太多了后处理,连NMS都省了,直接检测目标的中心点和大小,实现了真正的anchor-free。CenterNet论文中用到了三个主干网络:ResNet-18、DLA-34和Hourglass-104,实际应用中,也可以使用resnet-50等网络作为backbone;CenterNet的算法流程是:一张512512(1x3x512x512)的图片输入到网络中,经过backbone特征提取后得到下采样32倍后的特征图(1x2048x16x16),然后再经过三层反卷积模块上采样到128128的尺寸,最后分别送入三个head分支进行预测:分别预测物体的类别、长宽尺寸和中心点偏置。其中推理的核心是从headmap中提取需要的bounding box,通过使用3*3的最大池化,检查当前热点的值是否比周围的8个临近点值都大,每个类别取100个这样的点,经过box后处理后再进行阈值筛选,得到最终的预测框。
目标检测网络CenterNet详解
扔掉anchor!真正的CenterNet
CenterNet推理过程理解
理解CenterNet的heatmap
5. CenterNet中heatmap(热力图)如何生成?
heatmap的生成可以通过高斯核公式来理解,其中(x,y)为待检测图像中枚举的步长块位置,(px,py)为低分辨率图像中对应于GT关键点的坐标。可以看出,当枚举块的位置和GT关键点坐标接近重合的时候,高斯核输出值接近为1;当枚举块位置和GT关键点相差很大时,高斯核输出值接近为0.这样一来经过高斯核映射后的每个关键点(块)高斯热图为:
每个点的范围是0-1,而1则代表 这个目标的中心点,也就是要预测学习的点,该点处为最大值,沿着半径向外按高斯函数递减 。一个类别对应一张heatmap,80个类别则有80张heatmap,若还有一只狗,则狗的keypoint再另一张heatmap上。
6. 你知道哪些边缘端部署的方案?
目前大多数深度学习算法模型要落地对算力要求还是比较高的,如果在服务器上,可以使用GPU进行加速,但是在边缘端或者算力匮乏的开发板子上,不得不对模型进一步的压缩或者改进,也可以针对特定的场景使用市面上现有的推理优化加速框架进行推理。目前来说比较常见的几种部署方案为:
nvidia GPU:pytorch->onnx->TensorRT
intel CPU: pytorch->onnx->openvino
移动端(手机、开发板等):pytorch->onnx->MNN、NCNN、TNN、TF-lite、Paddle-lite、RKNN等
7. 你最常用的几种目标检测算法是什么?为什么选择这些算法,你选择它们的场景分别是什么?
在工作中,我通常会根据不同的任务选取不同的算法模型:
目标检测:yolov5、yolov3、CenterNet、SSD、Faster RCNN、EfficientDet;
图像分类:mobileNetv2、mobileNetv3、ghostNet、ResNet系列、ShuffleNetV2、EfficientNet;
实例分割:mask-rcnn、yolact、solo;
语义分割:deeplabv3、deeplabv3+、UNet;
文本检测:CTPN、PSENet、DBNet、YOLOV5;
文本识别:CRNN+CTC、CRNN+Attention;
通常,我比较喜欢性能好的模型,性能的指标由两部分,一个是精度,一个是速度。比如在目标检测中,用的比较多的是yolo系列,特别是v4、v5出来后。通常在图像分类的任务上,分类并不困难的情况下会选择一些轻量型的网络,能够一定程度上节省算力资源。其他领域的任务算法抉择也大同小异。
8. 介绍一下yolov5
YOLOv5原理:百面算法工程师 | YOLOv5面试考点原理全解析——点击即可跳转