目标检测技术演化:从R-CNN到Faster R-CNN

简介: 一文了解目标检测技术发展,不要错过哟。

目标检测旨在准确地找到给定图片中物体的位置,并将其正确分类。准确地来讲,目标检测需要确定目标是什么以及对其定位。

然而,想要解决这个问题并不容易。因为,目标的大小,其在空间中的方向,其姿态,以及其在图片中的位置都是变化的。

这里有一张图片,我们需要识别图片中的物体,并且用方框将该物体圈出来。

1

图像识别(分类)

  1. 输入:图像
  2. 输出:目标类型
  3. 评价指标:精确度

定位:

  1. 输入:图像
  2. 输出:方框在图片中的位置(x,y,w,h)
  3. 评价指标:检测评价函数(IOU)

如今大火的卷积神经网络帮助我们很好地进行图像识别。但是,我们仍需要一些额外的功能来进行精确定位,深度学习在这里发挥了很好的作用。

在本文中,我们将从目标定位的角度入手探讨目标检测技术的发展。我们将按着如下的演化顺序讲述:R-CNN->SPP Net->Fast R-CNN-> Faster R-CNN

在开始前,我们将对基于区域的卷积神经网络(R-CNN)进行简单的介绍。

将定位看作回归问题

如果我们将其看作是一个回归问题,则需要对(x,y,w,h)四个参数进行预测,从而得到方框所在位置。

1


步骤1
  1. 先解决最简单的问题:使用神经网络识别图片
  2. 在AlexNet VGG GoogleLenet上微调(fine-tuning)

    1

步骤2

  1. 在上述神经网络的尾部展开(CNN前面保持不变,我们对CNN的结尾处做出改进:加了两个头:“分类头”和“回归头”)
  2. 将其转化为分类 + 回归模型

    1

步骤3

  1. 在回归部分使用欧氏距离损失
  2. 使用随机梯度下降进行训练

步骤4

  1. 在预测部分结合回归和分类
  2. 实现不同的功能

接着,我们将进行两次微调操作。第一次在AlexNet上进行,第二次将头部改为回归头。

回归部分加在哪里呢?

两种解决办法:

  1. 加在最后一个卷积层后面(如VGG)
  2. 加在最后一个全连接层后面(如R-CNN)

但是实现回归操作太困难了,我们需要找到一种方法将其变为分类问题。回归的训练参数收敛的时间要长得多,所以上面的网络采取了用分类的网络来计算网络共同部分的连接权值。

取图像窗口

  1. 依旧使用前面所提及的分类+回归的思路
  2. 首先选取不同的大小的方框
  3. 让方框出现在不同的位置,计算出这个方框在不同位置的得分
  4. 取得分最高的那方框

1

左上角的黑框:得分0.5
右上角的黑框:得分0.75
左下角的黑框:得分0.6
右下角的黑框:得分0.8

根据这些得分,我们选择右下角的黑框作为所要预测的目标位置。

注:有的时候也会选择得分最高的两个方框,然后取两个方框的交集作为最终需要预测的位置。

问题:方框的大小如何确定呢?

当取了不同的方框后,依次从左上角扫描到右下角。

总结:

对第一张图片,我们使用不同大小的方框(遍历整张图片)将图片截取出来,输入到CNN,然后CNN会输出这个框的分类以及这个框图片对应的(x,y,w,h)。

1

但是,这个方法太耗费时间了,需要做一些优化。最初的网络模型如下图所示:

1

所做优化:将全连接层改为为卷积层以提高速度。

2

目标检测

当图中有多个物体存在的时候我们应该如何做呢?现在我们所要解决的问题就变成了:多个目标识别+定位。

现在我们还能将其看作分类问题么?

1

可是,将其看作分类问题的话会有如下矛盾产生:

  1. 你需要找到许多的位置,并提供不同大小的方框
  2. 你还需要对方框中的图像进行分类
  3. 当然,如果你的GPU很强大,将其看作分类问题也没什么不妥

如果将其看作分类问题,我们能做哪些优化呢?我们并不想使用太多的方框在不同的位置间来回尝试。下面,给出了一种解决方案:

首先,我们需要找出包含所有目标的方框。其中有的方框会产生重叠或者互相包含,这样我们就不用枚举出所有的方框了。

2

对于候选框的获取,前人发现了很多种方法:比如EdgeBoxes和Selective Search。以下是候选方框获取方法的性能对比:

1

对于“选择性搜索”是如何选出所有候选方框这个问题,本文不作介绍,有兴趣的可以对其相关论文进行研究。

R-CNN

上述提及的思路推动了R-CNN的面世。让我们以同样的图片为例,对R-CNN进行讲解。

步骤1

下载一个分类模型(如AlexNet)


2

步骤2

对模型进行微调

  1. 将分类数目从1000降至20
  2. 去掉最后一个全连接层

3

步骤3

特征提取:

  1. 提取出图像中所有的候选方框(选择性搜索)
  2. 对每一个区域:调整区域的大小,使其与CNN的输入一致,做一次向前运算,将第五个池化层的输出存入硬盘中

4

步骤4

  1. 训练一个支持向量机(SVM)分类器(二分类),用以判断这个候选框里物体的类别
  2. 判断SVM是否属于对应的类别。如果是,就是positive,如果否,就是negative。下面是一个给狗分类的SVM示例。

5

步骤5

使用回归器对候选方框的位置进行仔细校正。对于每一个分类,都需要训练一个线性回归模型,用以判断这个方框是否足够匹配。

6

SPP Net

空间金字塔池化(SPP:Spatial Pyramid Pooling)概念的提出对R-CNN的发展有着非凡的意义。在此我们会对SPP进行简明的介绍。

SPP有两个特征:

1. 结合空间金字塔法,实现CNN的多尺度输入
一般来说,在CNN后面会接有一个全连接层或者一个分类器。它们都需要调整至合适大小方可作为输入,因此需要对输入数据进行分割和变形。然而,这些预处理可能会造成数据的丢失或几何的失真。SPP Net的第一个贡献就是将金字塔思想与CNN相结合,实现数据的多尺度输入。
如下图所示,在卷积层和全连接层之间加入一个SPP层。此时,网络的输入尺度可以是任意的,在SPP层中,池化所需的过滤器会根据输入自动调节大小,但SPP的输出尺度确实保持不变的。

1

2. 只对原始图像提取一次卷积特征
在R-CNN中,每个候选框会将其尺寸调至统一,然后分别作为CNN的输入,但这样的做法降低了效率。SPP Net针对这个缺点做了相应的优化:只对原始图像进行一次卷积操作,得到特征图,然后找到每个候选方框在特征图上的映射,然后将该映射作为卷积特征输入SPP层。这种优化方法节约了大量的计算时间,相比 R-CNN快上百倍。

2

Fast R-CNN

SPP Net非常实用,有学者就在R-CNN的基础上结合SPP Net,提出Fast R-CNN,进一步提升了性能。

R-CNN与Fast R-CNN有什么区别呢?

首先,让我们来看看R-CNN的不足之处。尽管它在提取潜在边框作为输入时,使用了选择性搜索以及其它处理方法,但是R-CNN在运算速度上仍然遇到了瓶颈。这是由于计算机在对所有区域进行特征提取时会进行大量的重复计算。

为了解决这个问题,研究学者提出了Fast R-CNN。

3

在Fast R-CNN中,有一个被称为ROI Pooling的单层SPP网络层。该网络层能够将不同尺寸的输入映射为一系列固定尺度的特征向量,正如我们所知,conv,pooling,relu以及一些其它操作并不需要固定尺度的输入。因此,当我们在原始图片上执行这些操作后,由于输入图片的尺寸不同,得到的特征图尺寸也不一样,不能将它们直接连接到一个全连接层上进行分类,但是我们可以在其中加入ROI Pooling层,以一个固定尺度的特征来表示每个区域,再通过softmax进行分类。

此外,前面所讲的R-CNN需要先有一个proposal,再输入到CNN中进行特征提取,之后采用SVM进行分类,最后进行边框回归。但是在Fast R-CNN模型中,作者将边框回归引入神经网络,并将其与区域分类合并,形成一个多任务模型。

实验证明,这两个任务能够共享卷积特征。Fast R-CNN的一个额外贡献是使Region Proposal+CNN这一框架得以运用,同时让人们看到进行多类检测的同时仍保证精度是能够实现的。

R-CNN总结:

  1. R-CNN有一些缺点
  2. 主要缺点:因为每一个候选方框都需要独立地输入到CNN中,此操作十分耗费时间
  3. 次要缺点:在共享层,不是每个候选方框都作为输入进入到CNN中。相反,输入的是一张完整的图片,在第五个卷积层提取出每个候选方框的特征
  4. 原始方法:大量候选方框(例如2000个)→CNN→得到每个候选方框的特征→分类+回归
  5. 现在的方法:完整的图片→CNN→得到每个候选方框的特征→分类+回归
    很明显,Fast R-CNN比R-CNN在速度上有了大幅提升;与R-CNN对每个候选方框输入到CNN中提取特征不同的是,Fast R-CNN只对输入的整张图片提取一次特征,然后在第五个卷积层上提取每个候选方框的特征,此操作只需要计算一次特征,剩下的操作在第五个卷积层上完成即可。

性能的提升也十分明显:

4

Faster R-CNN

毫无疑问,Fast R-CNN与传统的CNN相比,在性能上有了大幅提升。但Fast R-CNN的一个主要问题在于它使用选择性搜索去找所有的候选方框,这是非常耗时的。

是否有更加高效的方法去找出所有的候选方框呢?

解决办法:增加一个可以对边缘进行提取的神经网络。换句话说,利用神经网络去寻找所有的候选方框。能够实现这种操作的神经网络叫做区域生成网络(RPN:Region Proposal Network)。

让我们看看RPN有哪些提升:

  1. 在最后一个全连接层后加入RPN
  2. RPN直接训练得到候选区域

5

RPN总结:

  1. 在特征图上进行窗口滑动
  2. 建立一个神经网络用于目标分类以及方框的位置回归
  3. 滑动窗口的位置提供关于目标的大致位置信息
  4. 回归能够提供一个更加精确的方框位置

6

四种损失函数:

  1. RPN分类
  2. RPN回归
  3. Fast R-CNN分类
  4. Fast R-CNN回归

7

8


速度比较

Faster R-CNN的贡献在于它设计了一个RPN网络对候选区域进行提取,此步骤代替了耗时过多的选择性搜索,使速度得到大幅提升。

总结

总的来说,从R-CNN,SPP-NET,Fast R-CNN到R-CNN,基于深度学习进行目标检测的步骤得到了简化,精度得到了提高,速度得到了提升。可以说,基于区域生成的系列R-CNN目标检测算法在目标检测领域已经成为最主要的分支。

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

以上为译文

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《From R-CNN to Faster R-CNN: The Evolution of Object Detection Technology》,作者:Leona Zhang,译者:Elaine,审校:袁虎。

文章为简译,更为详细的内容,请查看原文

相关文章
|
5月前
|
机器学习/深度学习 算法 安全
FRCNN来袭 | Faster RCNN与FCN永不遗忘,联邦学习+边缘数据既保护隐私也提升性能
FRCNN来袭 | Faster RCNN与FCN永不遗忘,联邦学习+边缘数据既保护隐私也提升性能
195 0
|
2月前
|
机器学习/深度学习 网络安全 TensorFlow
探索操作系统的心脏:内核与用户空间的奥秘云计算与网络安全:技术挑战与未来趋势深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【8月更文挑战第29天】在数字世界的每一次点击与滑动背后,都隐藏着一个不为人知的故事。这个故事关于操作系统——计算机的灵魂,它如何协调硬件与软件,管理资源,并确保一切运行得井井有条。本文将带你走进操作系统的核心,揭示内核与用户空间的秘密,展现它们如何共同编织出我们日常数字生活的底层结构。通过深入浅出的讲解和代码示例,我们将一同解锁操作系统的神秘面纱,理解其对现代计算的重要性。 【8月更文挑战第29天】本文将深入探讨卷积神经网络(CNN)的基本原理和结构,以及它们如何被广泛应用于图像识别任务中。我们将通过代码示例来展示如何使用Python和TensorFlow库构建一个简单的CNN模型,并训练
|
5月前
|
机器学习/深度学习 自然语言处理 大数据
深度学习中的卷积神经网络优化技术探析
【2月更文挑战第4天】在深度学习领域,卷积神经网络(CNN)一直扮演着重要角色,但其训练和推理过程中存在许多挑战。本文将从优化角度出发,探讨卷积神经网络中的权重初始化、损失函数设计、学习率调整等优化技术,旨在为深度学习爱好者提供一些实用的技术感悟和分享。
77 3
|
5月前
|
机器学习/深度学习 数据可视化 定位技术
PrObeD方法开源 | 主动方法助力YOLOv5/Faster RCNN/DETR在COCO/GOD涨点
PrObeD方法开源 | 主动方法助力YOLOv5/Faster RCNN/DETR在COCO/GOD涨点
70 0
|
5月前
|
机器学习/深度学习 编解码 算法
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
171 0
|
5月前
|
机器学习/深度学习 编解码 数据可视化
RecursiveDet | 超越Sparse RCNN,完全端到端目标检测的新曙光
RecursiveDet | 超越Sparse RCNN,完全端到端目标检测的新曙光
98 0
|
5月前
|
机器学习/深度学习 监控 算法
【Keras计算机视觉】Faster R-CNN神经网络实现目标检测实战(附源码和数据集 超详细)
【Keras计算机视觉】Faster R-CNN神经网络实现目标检测实战(附源码和数据集 超详细)
70 0
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN)及其应用
【9月更文挑战第24天】本文将深入探讨深度学习中的一种重要模型——卷积神经网络(CNN)。我们将通过简单的代码示例,了解CNN的工作原理和应用场景。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的信息。
36 1
|
15天前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【9月更文挑战第19天】在人工智能的浩瀚星海中,卷积神经网络(CNN)如同一颗璀璨的星辰,照亮了图像处理的天空。本文将深入CNN的核心,揭示其在图像识别领域的强大力量。通过浅显易懂的语言和直观的比喻,我们将一同探索CNN的奥秘,并见证它如何在现实世界中大放异彩。
|
3天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【9月更文挑战第31天】本文旨在通过浅显易懂的语言和直观的比喻,为初学者揭开深度学习中卷积神经网络(CNN)的神秘面纱。我们将从CNN的基本原理出发,逐步深入到其在图像识别领域的实际应用,并通过一个简单的代码示例,展示如何利用CNN进行图像分类。无论你是编程新手还是深度学习的初学者,这篇文章都将为你打开一扇通往人工智能世界的大门。

热门文章

最新文章

下一篇
无影云桌面