DL之R-CNN:R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

简介: R-CNN是用深度学习解决目标检测问题的开山之作,2014年,第一次用深度学习来做传统的目标检测任务。

 DL之R-CNN:R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

目录

R-CNN算法的简介(论文介绍)

0、R-CNN算法流程图

1、实验结果

R-CNN算法的架构详解

R-CNN算法的案例应用


相关文章

DL之R-CNN:R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DL之R-CNN:R-CNN算法的架构详解

DL之FastR-CNN:Fast R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DL之FasterR-CNN:Faster R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

 

R-CNN算法的简介(论文介绍)

image.gif

        R-CNN是用深度学习解决目标检测问题的开山之作,2014年,第一次用深度学习来做传统的目标检测任务

        罗斯·格希克(Ross Girshick)是Facebook人工智能研究(FAIR)的一名研究科学家,致力于计算机视觉和机器学习。2012年,他在Pedro Felzenszwalb的指导下获得了芝加哥大学计算机科学博士学位。在加入FAIR之前,罗斯是微软研究院(Microsoft Research)的研究员、雷德蒙德(Redmond)和加州大学伯克利分校(University of California, Berkeley)的博士后。他的兴趣包括实例级对象理解和视觉推理挑战,这些挑战将自然语言处理和计算机视觉结合起来。他获得了2017年PAMI青年研究员奖,并以开发用于目标检测的R-CNN(基于区域的卷积神经网络)方法而闻名。2017年,罗斯还凭借《面具R-CNN》获得ICCV的Marr奖。

评价:RBG是这个领域神一样的存在,后续的一些改进方法如Fast R-CNN、Faster R-CNN、YOLO等相关工作都和他有关。

Abstract  

      Object detection performance, as measured on the  canonical PASCAL VOC dataset, has plateaued in the last  few years. The best-performing methods are complex ensemble  systems that typically combine multiple low-level  image features with high-level context. In this paper, we  propose a simple and scalable detection algorithm that improves  mean average precision (mAP) by more than 30%  relative to the previous best result on VOC 2012—achieving  a mAP of 53.3%. Our approach combines two key insights:  (1) one can apply high-capacity convolutional neural networks  (CNNs) to bottom-up region proposals in order to  localize and segment objects and (2) when labeled training  data is scarce, supervised pre-training for an auxiliary task,  followed by domain-specific fine-tuning, yields a significant  performance boost. Since we combine region proposals  with CNNs, we call our method R-CNN: Regions with CNN  features. We also compare R-CNN to OverFeat, a recently  proposed sliding-window detector based on a similar CNN  architecture. We find that R-CNN outperforms OverFeat  by a large margin on the 200-class ILSVRC2013 detection  dataset. Source code for the complete system is available at

http://www.cs.berkeley.edu/˜rbg/rcnn.

摘要

      在过去的几年中,通过标准的PASCAL VOC数据集测量,目标检测性能已经趋于稳定。最有效的方法是复杂的集成系统,通常将多个低级图像特征与高级上下文结合起来。在本文中,我们提出了一种简单且可扩展的检测算法,相对于之前VOC 2012的最佳结果,平均精度(MAP)提高了30%以上,实现了53.3%的MAP。我们的方法结合了两个关键的观点:(1)一种方法可以将大容量卷积神经网络(CNN)应用于自下而上的区域方案,以便对对象进行定位和分段;(2)当标记的训练数据不足时,为辅助任务进行有监督的预训练,然后进行特定领域的微调,可以显著提高性能。由于我们将region proposals与CNN结合起来,我们称之为R-CNN方法:具有CNN特征的Regions。我们还将R-CNN与OverFeat 进行了比较,后者是一种基于类似CNN架构的滑动窗口探测器。我们发现,R-CNN在200-class ILSVRC2013检测数据集上的优势,远远超过了OverFeat 。完整系统的源代码可在http://www.cs.berkeley.edu/˜rbg/rcnn上找到。

Conclusion  

      In recent years, object detection performance had stagnated.  The best performing systems were complex ensembles  combining multiple low-level image features with  high-level context from object detectors and scene classifiers.  This paper presents a simple and scalable object detection  algorithm that gives a 30% relative improvement  over the best previous results on PASCAL VOC 2012.  

      We achieved this performance through two insights. The  first is to apply high-capacity convolutional neural networks  to bottom-up region proposals in order to localize  and segment objects. The second is a paradigm for training  large CNNs when labeled training data is scarce. We  show that it is highly effective to pre-train the network—  with supervision—for a auxiliary task with abundant data  (image classification) and then to fine-tune the network for  the target task where data is scarce (detection). We conjecture  that the “supervised pre-training/domain-specific finetuning”  paradigm will be highly effective for a variety of  data-scarce vision problems.  

      We conclude by noting that it is significant that we achieved these results by using a combination of classical tools from computer vision and deep learning (bottomup region proposals and convolutional neural networks). Rather than opposing lines of scientific inquiry, the two are natural and inevitable partners.

结论

      近年来,目标检测性能停滞不前。性能最好的系统是将多个低级图像特征与来自对象检测器和场景分类器的高级上下文相结合的复杂集成。本文提出了一种简单且可扩展的目标检测算法,该算法比之前在PASCAL VOC 2012上获得的最佳结果有30%的相对改进。

      我们通过两个视角来实现这一性能。第一种方法是将大容量卷积神经网络应用于自下而上的区域方案,以实现目标的定位和分段。第二种模式是在标记训练数据稀缺的情况下训练大型CNN。结果表明,对一个数据丰富的辅助任务(图像分类)进行预训练,然后对数据稀缺的目标任务(检测)进行网络微调,是一种非常有效的方法。我们推测,“有监督的预训练/特定区域微调”范式对于各种数据稀缺的视觉问题将非常有效。

      最后,我们注意到,我们通过结合计算机视觉和深度学习(自下而上的区域建议和卷积神经网络)的经典工具,取得了这些成果,这是非常重要的。两者不是对立的科学探究路线,而是自然的、不可避免的合作伙伴。

论文

Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik.

Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. CVPR 2014

https://arxiv.org/abs/1311.2524v3

Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik(2014):Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. In 580–587.

Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v3)

0、R-CNN算法流程图

image.gif

image.gifimage.gif

image.gif

1、实验结果

1、Detection average precision (%) on VOC 2010 test

      R-CNN BB算法(加了BBox回归技巧),前边20列是20个分类的每个AP,最后一列是平均,mAP达到53.7!

image.gif

2、ILSVRC2013 detection test mAP

         即在ImageNet上的测试结果,

image.gif

R-CNN算法的架构详解

更新……

DL之R-CNN:R-CNN算法的架构详解

R-CNN算法的案例应用

更新……


相关文章
|
5月前
|
运维 监控 JavaScript
基于 Node.js 图结构的局域网设备拓扑分析算法在局域网内监控软件中的应用研究
本文探讨图结构在局域网监控系统中的应用,通过Node.js实现设备拓扑建模、路径分析与故障定位,提升网络可视化、可追溯性与运维效率,结合模拟实验验证其高效性与准确性。
346 3
|
5月前
|
机器学习/深度学习 资源调度 算法
遗传算法模型深度解析与实战应用
摘要 遗传算法(GA)作为一种受生物进化启发的优化算法,在复杂问题求解中展现出独特优势。本文系统介绍了GA的核心理论、实现细节和应用经验。算法通过模拟自然选择机制,利用选择、交叉、变异三大操作在解空间中进行全局搜索。与梯度下降等传统方法相比,GA不依赖目标函数的连续性或可微性,特别适合处理离散优化、多目标优化等复杂问题。文中详细阐述了染色体编码、适应度函数设计、遗传操作实现等关键技术,并提供了Python代码实现示例。实践表明,GA的成功应用关键在于平衡探索与开发,通过精心调参维持种群多样性同时确保收敛效率
|
5月前
|
机器学习/深度学习 边缘计算 人工智能
粒子群算法模型深度解析与实战应用
蒋星熠Jaxonic是一位深耕智能优化算法领域多年的技术探索者,专注于粒子群优化(PSO)算法的研究与应用。他深入剖析了PSO的数学模型、核心公式及实现方法,并通过大量实践验证了其在神经网络优化、工程设计等复杂问题上的卓越性能。本文全面展示了PSO的理论基础、改进策略与前沿发展方向,为读者提供了一份详尽的技术指南。
粒子群算法模型深度解析与实战应用
|
5月前
|
机器学习/深度学习 算法 安全
小场景大市场:猫狗识别算法在宠物智能设备中的应用
将猫狗识别算法应用于宠物智能设备,是AIoT领域的重要垂直场景。本文从核心技术、应用场景、挑战与趋势四个方面,全面解析这一融合算法、硬件与用户体验的系统工程。
|
5月前
|
机器学习/深度学习 传感器 数据采集
基于贝叶斯优化CNN-LSTM混合神经网络预测(Matlab代码实现)
基于贝叶斯优化CNN-LSTM混合神经网络预测(Matlab代码实现)
890 0
|
5月前
|
机器学习/深度学习 传感器 数据采集
【故障识别】基于CNN-SVM卷积神经网络结合支持向量机的数据分类预测研究(Matlab代码实现)
【故障识别】基于CNN-SVM卷积神经网络结合支持向量机的数据分类预测研究(Matlab代码实现)
403 0
|
6月前
|
机器学习/深度学习 数据采集 TensorFlow
基于CNN-GRU-Attention混合神经网络的负荷预测方法(Python代码实现)
基于CNN-GRU-Attention混合神经网络的负荷预测方法(Python代码实现)
367 0
|
7月前
|
机器学习/深度学习 人工智能 PyTorch
零基础入门CNN:聚AI卷积神经网络核心原理与工业级实战指南
卷积神经网络(CNN)通过局部感知和权值共享两大特性,成为计算机视觉的核心技术。本文详解CNN的卷积操作、架构设计、超参数调优及感受野计算,结合代码示例展示其在图像分类、目标检测等领域的应用价值。
449 7
|
8月前
|
机器学习/深度学习 数据采集 监控
基于CNN卷积神经网络和GEI步态能量提取的步态识别算法matlab仿真,对比不同角度下的步态识别性能
本项目基于CNN卷积神经网络与GEI步态能量提取技术,实现高效步态识别。算法使用不同角度(0°、45°、90°)的步态数据库进行训练与测试,评估模型在多角度下的识别性能。核心流程包括步态图像采集、GEI特征提取、数据预处理及CNN模型训练与评估。通过ReLU等激活函数引入非线性,提升模型表达能力。项目代码兼容Matlab2022a/2024b,提供完整中文注释与操作视频,助力研究与应用开发。
|
机器学习/深度学习 算法 计算机视觉
基于CNN卷积神经网络的金融数据预测matlab仿真,对比BP,RBF,LSTM
本项目基于MATLAB2022A,利用CNN卷积神经网络对金融数据进行预测,并与BP、RBF和LSTM网络对比。核心程序通过处理历史价格数据,训练并测试各模型,展示预测结果及误差分析。CNN通过卷积层捕捉局部特征,BP网络学习非线性映射,RBF网络进行局部逼近,LSTM解决长序列预测中的梯度问题。实验结果表明各模型在金融数据预测中的表现差异。
497 10