深度学习笔记之使用Faster-Rcnn进行目标检测 (原理篇)

简介:
+关注继续查看

Object Detection发展介绍

  Faster rcnn是用来解决计算机视觉(CV)领域中Object Detection的问题的。经典的解决方案是使用: SS(selective search)产生proposal,之后使用像SVM之类的classifier进行分类,得到所有可能的目标. 
使用SS的一个重要的弊端就是:特别耗时,而且使用像传统的SVM之类的浅层分类器,效果不佳。 
鉴于神经网络(NN)的强大的feature extraction特征,可以将目标检测的任务放到NN上面来做,使用这一思想的目标检测的代表是: 
RCNN Fast-RCNNFaster-RCNN YOLO等 

  

  简单点说就是:

  • RCNN 解决的是,“为什么不用CNN做detection呢?”
  • Fast-RCNN 解决的是,“为什么不一起输出bounding box和label呢?”
  • Faster-RCNN 解决的是,“为什么还要用selective search呢?”

 

 

 

 

Faster-Rcnn原理简介

  鉴于之上的分析,想要在时间上有所突破就要在如何更快的产生proposal上做工夫。 
Faster使用NN来做region proposal,在Fast-rcnn的基础上使用共享卷积层的方式。作者提出,卷积后的特征图同样也是可以用来生成 region proposals 的。通过增加两个卷积层来实现Region Proposal Networks (RPNs) , 一个用来将每个特征图 的位置编码成一个向量,另一个则是对每一个位置输出一个 objectness score 和 regressed bounds for k region proposals.

            Faster model

 

 

 

 

RPN

  RPN的作用有以下几个:

(1) 输出proposal的位置(坐标)和score 
(2) 将不同scale和ratio的proposal映射为低维的feature vector 
(3) 输出是否是前景的classification和进行位置的regression

 

 

  这里论文提到了一个叫做Anchor的概念,作者给出的定义是:

The k proposals are parameterized relative to k reference boxes, which we call anchors

  

  我的理解是:不同ratio和scale的box集合就是anchor, 对最后一层卷积生成的feature map将其分为n*n的区域,进行不同ratio和scale的采样.

                RPN

 

 

 

 

RPN的cls和reg

  RPN输出对于某个proposal,其是属于前景或者背景的概率(0 or 1),具体的标准论文里给出的是:

  • 和所有的ground-truth的IoU(Intersection-over-union)小于0.3视为negative(背景)
  • 和任意的ground-truth的IoU大于0.7视为positive(前景)
  • 不属于以上两种情况的proposal直接丢掉,不进行训练使用

 

 

  对于regression,作用是进行proposal位置的修正:

  • 学习k个bounding-box-regressors
  • 每个regresso负责一个scale和ratio的proposal,k个regressor之间不共享权值

 

 

RPN Training

  两种训练方式: joint trainingalternating training 
两种训练的方式都是在预先训练好的model上进行fine-tunning,比如使用VGG16、ZF等,对于新加的layer初始化使用random initiation,使用SGD和BP在caffe上进行训练

 

 

alternating training

  首先训练RPN, 之后使用RPN产生的proposal来训练Fast-RCNN, 使用被Fast-RCNN tuned的网络初始化RPN,如此交替进行

 

joint training

  首先产生region proposal,之后直接使用产生的proposal训练Faster-RCNN,对于BP过程,共享的层需要combine RPN loss和Faster-RCNN los

 

 

Result

  结果自然不用说,肯定是state-of-art,大家自己感受下吧

result



本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/6973201.html,如需转载请自行联系原作者

相关文章
|
5月前
|
编解码 计算机视觉
3D检测新SOTA | PointPillar与Faster RCNN结合会碰撞出怎样的火花(二)
3D检测新SOTA | PointPillar与Faster RCNN结合会碰撞出怎样的火花(二)
64 0
|
5月前
|
存储 编解码 自动驾驶
3D检测新SOTA | PointPillar与Faster RCNN结合会碰撞出怎样的火花(一)
3D检测新SOTA | PointPillar与Faster RCNN结合会碰撞出怎样的火花(一)
40 0
|
5月前
|
机器学习/深度学习 存储 编解码
最强Vision Trabsformer | 87.7%准确率!CvT:将卷积引入视觉Transformer(文末附论文下载)(二)
最强Vision Trabsformer | 87.7%准确率!CvT:将卷积引入视觉Transformer(文末附论文下载)(二)
33 0
|
5月前
|
机器学习/深度学习 算法 计算机视觉
【检测|RCNN系列-1】目标检测算法开山之作RCNN(附论文获取方式)
【检测|RCNN系列-1】目标检测算法开山之作RCNN(附论文获取方式)
51 0
|
5月前
|
机器学习/深度学习 编解码 固态存储
深度学习论文阅读目标检测篇(五)中英对照版:YOLOv2《 YOLO9000: Better, Faster, Stronger》
摘要我们引入了一个先进的实时目标检测系统YOLO9000,可以检测超过9000个目标类别。首先,我们提出了对YOLO检测方法的各种改进,既有新发明的一些东西,也参考了前人的工作。改进后的模型YOLOv2在PASCALVOC和COCO等标准检测任务上性能是最好的。使用一种新颖的、多尺度训练方法,同样的YOLOv2模型可以以不同的尺度运行,从而在速度和准确性之间获得了良好的权衡。以67FPS的检测速度,YOLOv2在VOC2007上获得了76.8mAP。
38 0
|
5月前
|
机器学习/深度学习 存储 算法
深度学习经典网络解析目标检测篇(二):Fast R-CNN
R-CNN网络训练、测试繁琐:R-CNN网络训练过程分为ILSVRC 2012样本下有监督预训练、PASCAL VOC 2007该特定样本下的微调、20类即20个SVM分类器训练、20类即20个Bounding-box回归器训练,该训练流程繁琐复杂;同理测试过程也包括提取建议框、提取CNN特征、SVM分类和Bounding-box回归等步骤,过于繁琐;
39 0
|
9月前
|
机器学习/深度学习 数据挖掘 计算机视觉
经典神经网络 | Faster R-CNN 论文解析
经典神经网络 | Faster R-CNN 论文解析
经典神经网络 | Faster R-CNN 论文解析
|
9月前
|
机器学习/深度学习 数据挖掘 数据库
目标检测:RCNN核心思想
目标检测:RCNN核心思想
76 0
目标检测:RCNN核心思想
|
10月前
|
机器学习/深度学习 算法 数据挖掘
二阶段目标检测网络-Faster RCNN 详解
二阶段目标检测网络-Faster RCNN 详解
212 0
|
10月前
|
机器学习/深度学习 人工智能 算法
目标检测技术演进:Fast R-CNN、Faster R-CNN
我讲了 RCNN 算法,似乎它的表现不太好,所以这次我们讲讲它的进化版 —— Fast RCNN 和 Faster RCNN
72 1
目标检测技术演进:Fast R-CNN、Faster R-CNN
相关产品
机器翻译
推荐文章
更多