目标检测网络R-CNN 系列

简介: 图像实例分割完成的是像素级的实例目标分割任务,是人工智能与计算机视觉领域的重要发展方向,其被广泛应用到各个领域,如工业生产、监控安防和医疗卫生等。目前的图像实例分割模型主要存在两个问题,第一,传统的图像实例分割模型由于图像中实例对象尺寸差异跨度较大,导致目标检测阶段出现误检、漏检等问题,从而使生成的掩码精度较低。第二,传统的实例分割模型在掩码生成阶段,主要是通过汇聚到全连接层的特征信息对像素点进行分类和归属判定。池化操作会导致特征图尺寸下降,在语义分割阶段,使传递给全连接层的特征信息有所丢失,进而导致像素点的类别归属出现偏差,生成的掩码质量低,实例边缘的细节信息不够精细化。

 R-CNN 系列目标检测网络,是深度学习在目标检测领域的首个系列网络,作为典型的 Two-Stage 目标检测网络。该系列包括 R-CNN、Fast R-CNN、Faster R-CNN,就像它们的名字一样,一代比一代速度快,主要是因为 Two-Stage 网络的特点就是精度高,速度慢。到 Faster R-CNN 网络时,就已经做到了端到端的全卷积目标检测网络。其作者 Ross Girshick 成为了 Facebook 的人工智能实验室(FAIR)的一员,即 Detectron2 平台的团队,还在不断为 R-CNN 系列算法的优化而努力。

(1)R-CNN

     R-CNN 目标检测网络,字母 R 代表 Region,即区域的意思,中文全称为区域卷积神经网络,是 2014 年出现的,是第一个出现在目标检测领域的深度学习算法,也是它掀起了深度学习在目标检测领域的新篇章,包括后面的 YOLO 等系列也是在此基础上出现的。R-CNN 的网络的结构逻辑如下图所示。

`X03MOX`NH[2~]8]OGCMYUA.png

R-CNN 网络处理数据的流程如下:

1)输入图像。

2)使用 selective search 的方法生成多个候选框。

3)将每个候选框输入到卷积层进行特征提取,卷积层网络常用 AlextNet、VGG。

4)再将第三步提取的特征输入到一个又一个类别的 SVM 分类器中进行判断,预测类别信息。

5)最后将经过分类的候选框做回归和修正,预测位置信息。

R-CNN 将深度学习带入检测领域后,PASCAL VOC 上的检测率大幅度提升,从35.1%提升到 53.7%。具备以下优点:

1)采用 CNN 的方式来提取特征,为视觉工作提供思路,只能靠人来考虑提取哪些特征的时代一去不复返了。

2)引入迁移学习的概念,即在大样本上的预训练模型,然后小样本时 fine-tune。

(2)Fast R-CNN

    继 R-CNN 推出之后,作者于 2015 年推出了 Fast R-CNN,优化了原本网络结构,提升了检测速度,降低了网络训练对空间的要求。其网络结构逻辑如下图所示。

5C(GIS6X4R$P7$)T2T@LEB5.png

Fast R-CNN 处理数据的流程如下:

1)输入图像。

2)使用 selective search 的方法生成多个候选框。

3)将整张图片输入到卷积层进行特征提取。

4)在卷积后的特征图上找到对应卷积前的候选框区域。

5)将对应的候选框区域经过 ROI Pooling 转换成固定大小的特征图。

6)将特征图输入到全连接层生成特征向量,用于分类和回归,分别得到分类信息和位置信息。

    Fast R-CNN 模型相较于 R-CNN 提升很大,训练时间缩短到原来的九分之一,测试时间缩短到原来的百分之一,测试精度还稍有提升,让人看到了 R-CNN 系列网络实现实时检测的可能。具备以下优点:

1)分类用 Soft max 代替了 SVM,并且采用分类和回归一起进行的方式,降低了训练及测试时长。

2)优化了网络结构,首先采用将整张图先输入到卷积神经网络再提取特征的方式,然后添加 RoI pooling 层使得最终的特征图尺寸一致,这样使得整个过程只需要一个全连接层,而且分类和回归也通过深度网络的方式实现,节约了内存需要。

(3)Faster R-CNN

     2015 年,何凯明团队再次提出新算法 Faster R-CNN,将候选框的生成也通过神经网络的方法实现,是第一个实现了端到端的目标检测网络,大大提高了检测速度,在当年的各大视觉竞赛中夺魁。其网络结构逻辑如下图所示。

NUDQ5Q)_HR4WI97Q_)}{ZNK.png

Faster R-CNN 处理数据的流程如下:

1)输入图像。

2)将整张图片输入到卷积层进行特征提取。

3)RPN 生成候选框。

4)在卷积后的特征图上找到对应卷积前的候选框区域。

5)将对应的候选框区域经过 ROI Pooling 转换成固定大小的特征图。

6)将特征图输入到全连接层生成特征向量,用于分类和回归,分别得到分类信息和位置信息。

    Faster R-CNN 目标检测网络无论在速度还是精度上,都得到大幅度提升,于当年的多个赛事中摘得桂冠。具备以下优点:

1)提出 Region Proposal Network(RPN)方法,用卷积神经网络的方式实现了候选框的生成,使网络实现端到端。

2)产生建议窗口的 CNN 和目标检测的 CNN 共享。

相关文章
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
本文旨在通过深入浅出的方式,为读者揭示卷积神经网络(CNN)的神秘面纱,并展示其在图像识别领域的实际应用。我们将从CNN的基本概念出发,逐步深入到网络结构、工作原理以及训练过程,最后通过一个实际的代码示例,带领读者体验CNN的强大功能。无论你是深度学习的初学者,还是希望进一步了解CNN的专业人士,这篇文章都将为你提供有价值的信息和启发。
|
21天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
|
11天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第36天】探索卷积神经网络(CNN)的神秘面纱,揭示其在图像识别领域的威力。本文将带你了解CNN的核心概念,并通过实际代码示例,展示如何构建和训练一个简单的CNN模型。无论你是深度学习的初学者还是希望深化理解,这篇文章都将为你提供有价值的见解。
|
15天前
|
机器学习/深度学习 自然语言处理 前端开发
前端神经网络入门:Brain.js - 详细介绍和对比不同的实现 - CNN、RNN、DNN、FFNN -无需准备环境打开浏览器即可测试运行-支持WebGPU加速
本文介绍了如何使用 JavaScript 神经网络库 **Brain.js** 实现不同类型的神经网络,包括前馈神经网络(FFNN)、深度神经网络(DNN)和循环神经网络(RNN)。通过简单的示例和代码,帮助前端开发者快速入门并理解神经网络的基本概念。文章还对比了各类神经网络的特点和适用场景,并简要介绍了卷积神经网络(CNN)的替代方案。
|
26天前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习中的卷积神经网络(CNN)及其应用
【10月更文挑战第21天】本文旨在深入探讨深度学习领域的核心组成部分——卷积神经网络(CNN)。通过分析CNN的基本结构、工作原理以及在图像识别、语音处理等领域的广泛应用,我们不仅能够理解其背后的技术原理,还能把握其在现实世界问题解决中的强大能力。文章将用浅显的语言和生动的例子带领读者一步步走进CNN的世界,揭示这一技术如何改变我们的生活和工作方式。
|
27天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于贝叶斯优化CNN-LSTM网络的数据分类识别算法matlab仿真
本项目展示了基于贝叶斯优化(BO)的CNN-LSTM网络在数据分类中的应用。通过MATLAB 2022a实现,优化前后效果对比明显。核心代码附带中文注释和操作视频,涵盖BO、CNN、LSTM理论,特别是BO优化CNN-LSTM网络的batchsize和学习率,显著提升模型性能。
|
1月前
|
机器学习/深度学习 人工智能 监控
深入理解深度学习中的卷积神经网络(CNN):从原理到实践
【10月更文挑战第14天】深入理解深度学习中的卷积神经网络(CNN):从原理到实践
86 1
|
12天前
|
机器学习/深度学习 人工智能 自动驾驶
深入解析深度学习中的卷积神经网络(CNN)
深入解析深度学习中的卷积神经网络(CNN)
29 0
|
15天前
|
机器学习/深度学习 人工智能 TensorFlow
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第32天】本文将介绍深度学习中的一个重要分支——卷积神经网络(CNN),以及其在图像识别领域的应用。我们将通过一个简单的代码示例,展示如何使用Python和TensorFlow库构建一个基本的CNN模型,并对其进行训练和测试。
|
21天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合DWRSeg二次创新C3k2_DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2融合DWRSDWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取方法分解为区域残差化和语义残差化两步,提高了多尺度信息获取的效率。网络设计了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,分别用于高阶段和低阶段,以充分利用不同感受野的特征图。实验结果表明,DWRSeg在Cityscapes和CamVid数据集上表现出色,以每秒319.5帧的速度在NVIDIA GeForce GTX 1080 Ti上达到72.7%的mIoU,超越了现有方法。代码和模型已公开。

热门文章

最新文章

下一篇
无影云桌面