目标检测：RCNN核心思想

2023-01-01 110

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 目标检测：RCNN核心思想

R-CNN

在这里插入图片描述

候选框生成

在这里插入图片描述

本文采用Selective Search方法来提取候选框，每一张图片提取2000-3000个候选框，提取流程如下：

根据图像像素聚类，产生初始分割区域。
根据纹理、纹理大小、形状、相似度进行加权合并。
重复上述操作，产生2000-3000个候选框。

上述方法产生的候选框宽高不一，但是后续提取特征用到的CNN需要固定宽高，作者对图像resize到227*227。
因为直接resize这种做法会让图像失真，作者采用各向异性缩放+16padding的方式。

Training

迁移学习

由于当时的目标检测数据集规模有限，于是先用了ILSVRC2012这个训练数据库（这是一个图片分类训练数据库），先进行网络图片分类训练。这个数据库有大量的标注数据，共包含了1000种类别物体，因此预训练阶段CNN模型的输出是1000个神经元，这样就可以通过图像分类数据集获得一定先验知识，然后把全连接层1000个神经元换成21个神经元（20个类别+背景），随机初始化新的Linear权重，固定卷积层的权重，调小学习率在目标检测数据集上拟合新的全连接层的权重。

分类与回归候选框

在这里把候选框与真实框计算IOU，如果IOU>0.5则被认为是正类，反之认为是负类（背景类），用来训练全连接层权重，收敛后，把4096维的特征拿出来，放入SVM模型进行分类。
用SVM的原因是，利用CNN训练需要大量的数据，否则会过拟合，而SVM则不需要大量的数据，在训练SVM的时候把IOU>0.7才标注为正类，这样会增大map。
回归

R-CNN存在的问题

训练时间长：主要原因是分阶段多次训练，而且对于每个region proposal都要单独计算一次feature map，导致整体的时间变长。
占用空间大：每个region proposal的feature map都要写入硬盘中保存，以供后续的步骤使用。
multi-stage：文章中提出的模型包括多个模块，每个模块都是相互独立的，训练也是分开的。这会导致精度不高，因为整体没有一个训练联动性，都是不共享分割训练的，自然最重要的CNN特征提取也不会做的太好。
测试时间长，由于不共享计算，所以对于test image，也要为每个proposal单独计算一次feature map，因此测试时间也很长。

目标检测：RCNN核心思想

R-CNN

候选框生成

Training

迁移学习

分类与回归候选框

R-CNN存在的问题

热门文章

最新文章

相关课程

相关电子书

相关实验场景