01目标检测之一(RCNN)

简介: 目标检测训练部分第一阶段

目标检测


训练部分

第一阶段

  • 所训练模型的已知条件
  • 输入图片input image ,图片是227x227x3的类型
  • 人工的标注grand-truth(对目标对象位置的标注),(gx,gy,gw,gh)即目标物体的gx,gy坐标的高和宽,和类别y
  • 输入图片Selective Serach处理

处理目的:得到尺寸不一的候选框Proposals,即(px,py,pw,ph)

算法

1.颜色相似度(color similarity),采用颜色直方图

2.纹理相似度(texture similarity),采用梯形直方图

3.尺寸相似度和交叠相似度

4.各种相似度平均加权

将不同的proposa拉伸到一个固定的尺寸,输入到深度学习中进行提取特征

  • 要求:拉伸到固定的尺寸,需要选择合适的正样本和负样本,送入深度学习网络
  • 衡量标准IOU:是产生的候选框(Proposals)与原标记框(grand-truth)的交叠率。即它们的交集与并集的比值。
  • 具体方法
  • a.根据proposal框与grandtruth框的IOU值
  • 1)IOU>=0.5的候选框为正样本
  • 2)IOU < 0.3的候选框为负样本
  • 3)0.3 <= IOU < 0.5的候选框为灰色地带,这个区间的候选框被抛去
  • b.一般的正样本会用到后续满足Bounding-box有效条件修正。
  • c.通常负样本远远大于正样本时,一般限定正负样本比为1:3,并使用hard negative mining取代随机从IOU < 0.3的候选框中选取

第二阶段

  • 从深度学习网络得到:proposal的已知条件(px,py,pw,ph) 与grandtruth的位置参数(gx,gy,gw,gh)的映射关系t_pre(dict),当前框中目标类别y_pre(dict);相应的label为t和目标类别y。
  • RCNN算法train时得到label中映射关系t的过程称为编码过程。
  • 编码过程(可以理解编码之后的真实值)
  • t_x = (G_x - P_x) / P_w
  • t_y = (G_y - P_y) / P_w
  • t_w = log(G_w / P_w)
  • t_h = log(G_h / P_h)

解释说明: 经过深度学习后输出为映射关系t_pre = f(wx),目标类别y_pre=g(wx)


位置目标的预测函数为 loss = (t-f(wx))2+…+(t-f(wx))2,其中t为(t_x,t_y,t_w,t_h),f(wx)为t_pre


得到求取预测框G_pre需要的映射关系t_x_pre,t_y_pre,t_w_pre,t_h_pre和目标预测y_pre


G_x_pre = t_x_pre * P_w + P_x

G_y_pre = t_y_pre * P_w + P_y

G_w_pre = P_w * exp(t_pre)

G_h_pre = t_x_pre * P_w + P_xe

注意:上些式子是一个非线性变换,P和G要离的比较近,当P和G相距过远的时候基本不会是同一个物体,P和G最大的IoU要离的比较近,否则抛弃P框

通过SVMs得到y_pre

预测部分

  • 模型test的已知条件:输入图片input_imageh和训练好的模型参数w
  • 输入图片Selective Serach处理,得到尺寸不一的候选框Proposals
  • 将不同的proposa拉伸到一个固定的尺寸,输入到深度学习中进行提取特征
  • a.proposal与G_pre的映射关系t_pre,通过解码关系得到G_pre
  • b.目标预测类别y_pre
相关文章
|
机器学习/深度学习 算法 数据挖掘
目标检测算法——YOLOv3
目标检测算法——YOLOv3
332 0
目标检测算法——YOLOv3
|
机器学习/深度学习 算法 自动驾驶
目标检测之TextSnake
翻译:《TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes》
103 0
|
机器学习/深度学习 固态存储 算法
目标检测之TextBoxes++
翻译:《 TextBoxes++: A Single-Shot Oriented Scene Text Detector》
|
机器学习/深度学习 人工智能 算法
目标检测:RPN — Faster R-CNN 的主干
目标检测:RPN — Faster R-CNN 的主干
240 0
|
编解码 人工智能 固态存储
R-FCN、Mask RCNN、YoLo、SSD、FPN、RetinaNet…你都掌握了吗?一文总结目标识别必备经典模型(2)
R-FCN、Mask RCNN、YoLo、SSD、FPN、RetinaNet…你都掌握了吗?一文总结目标识别必备经典模型
254 0
|
机器学习/深度学习 数据采集 编解码
R-FCN、Mask RCNN、YoLo、SSD、FPN、RetinaNet…你都掌握了吗?一文总结目标识别必备经典模型(1)
R-FCN、Mask RCNN、YoLo、SSD、FPN、RetinaNet…你都掌握了吗?一文总结目标识别必备经典模型
163 0
|
机器学习/深度学习 算法 数据可视化
详细解读SSPNet| 小目标检测该如何进行改进?
详细解读SSPNet| 小目标检测该如何进行改进?
229 0
|
存储 编解码 固态存储
一文带你了解时下最新的目标检测模型——YOLOv8
Ultralytics YOLOv8: State-of-the-Art YOLO Models,作者:Sovit Rath
1518 0
|
机器学习/深度学习 人工智能 算法
目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN 之 RCNN
这篇文章的内容总结翻译自 A Step-by-Step Introduction to the Basic Object Detection Algorithms (Part 1) ,文中有加入自己的理解。
132 1
|
机器学习/深度学习 算法 数据可视化
目标检测算法——Faster R-CNN
目标检测算法——Faster R-CNN
171 0
目标检测算法——Faster R-CNN