R-CNN:
过程:
先用Selective Search提取候选框
然后将候选框强制到227*227
之后用AlexNet提取特征
最后将特征用SVM分类
优点:
相对于传统方法用HOG或者SITF提取特征,本文用CNN来提取特征
缺点:
两千多个候选框分别送入CNN提特征,时间消耗大
三个阶段分开训练,中间数据还要保存,空间消耗大
Fast R-CNN:
过程:
将整张图送入CNN提取特征图
用Selective Search提取候选框,并在映射到特征图上
借鉴SPP的思想,用ROI pooling将不同尺度的FM转换成固定尺度的特征
用FC做分类和回归
优点:
相对于R-CNN,用softmax取代SVM做分类,提出多任务loss
用ROI pooling将不同尺度的ROI得到固定尺度的输出
缺点:
用SS提取候选框耗时
Faster R-CNN
过程:
对整张图送入CNN提取FM
在FM上使用RPN,在每个像素点设置9个anchor,并用softmax筛选正负anchor
然后对筛选的anchor做回归分类
优点:
提出RPN网络和anchor机制,解决了SS的问题
缺点:
Two-stage仍然无法达到实时
YoloV1:
优点:
相对于R-CNN使用候选框,yolo直接把目标检测看作是回归问题,在CNN里对整张图直接做回归和分类。
将CNN提取的FM划分为SS个网格(77),每个网格预测B个bbox的位置(x、y、w、h)、置信度(confidence为交并比)、类别概率。
缺点:
输入尺度固定,不能处理多尺度输入
每个像素点预测两个box,检测目标过少
多次下采样特征损失
虽然速度快,但识别率不高