DL之R-CNN:R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略(一)

简介: DL之R-CNN:R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

目录


R-CNN算法的简介(论文介绍)


0、R-CNN算法流程图


1、实验结果


R-CNN算法的架构详解


R-CNN算法的案例应用




相关文章

DL之R-CNN:R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DL之R-CNN:R-CNN算法的架构详解

DL之FastR-CNN:Fast R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DL之FasterR-CNN:Faster R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略


R-CNN算法的简介(论文介绍)


        R-CNN是用深度学习解决目标检测问题的开山之作,2014年,第一次用深度学习来做传统的目标检测任务。

        罗斯·格希克(Ross Girshick)是Facebook人工智能研究(FAIR)的一名研究科学家,致力于计算机视觉和机器学习。2012年,他在Pedro Felzenszwalb的指导下获得了芝加哥大学计算机科学博士学位。在加入FAIR之前,罗斯是微软研究院(Microsoft Research)的研究员、雷德蒙德(Redmond)和加州大学伯克利分校(University of California, Berkeley)的博士后。他的兴趣包括实例级对象理解和视觉推理挑战,这些挑战将自然语言处理和计算机视觉结合起来。他获得了2017年PAMI青年研究员奖,并以开发用于目标检测的R-CNN(基于区域的卷积神经网络)方法而闻名。2017年,罗斯还凭借《面具R-CNN》获得ICCV的Marr奖。

评价:RBG是这个领域神一样的存在,后续的一些改进方法如Fast R-CNN、Faster R-CNN、YOLO等相关工作都和他有关。



Abstract  

      Object detection performance, as measured on the  canonical PASCAL VOC dataset, has plateaued in the last  few years. The best-performing methods are complex ensemble  systems that typically combine multiple low-level  image features with high-level context. In this paper, we  propose a simple and scalable detection algorithm that improves  mean average precision (mAP) by more than 30%  relative to the previous best result on VOC 2012—achieving  a mAP of 53.3%. Our approach combines two key insights:  (1) one can apply high-capacity convolutional neural networks  (CNNs) to bottom-up region proposals in order to  localize and segment objects and (2) when labeled training  data is scarce, supervised pre-training for an auxiliary task,  followed by domain-specific fine-tuning, yields a significant  performance boost. Since we combine region proposals  with CNNs, we call our method R-CNN: Regions with CNN  features. We also compare R-CNN to OverFeat, a recently  proposed sliding-window detector based on a similar CNN  architecture. We find that R-CNN outperforms OverFeat  by a large margin on the 200-class ILSVRC2013 detection  dataset. Source code for the complete system is available at

http://www.cs.berkeley.edu/˜rbg/rcnn.

摘要

      在过去的几年中,通过标准的PASCAL VOC数据集测量,目标检测性能已经趋于稳定。最有效的方法是复杂的集成系统,通常将多个低级图像特征与高级上下文结合起来。在本文中,我们提出了一种简单且可扩展的检测算法,相对于之前VOC 2012的最佳结果,平均精度(MAP)提高了30%以上,实现了53.3%的MAP。我们的方法结合了两个关键的观点:(1)一种方法可以将大容量卷积神经网络(CNN)应用于自下而上的区域方案,以便对对象进行定位和分段;(2)当标记的训练数据不足时,为辅助任务进行有监督的预训练,然后进行特定领域的微调,可以显著提高性能。由于我们将region proposals与CNN结合起来,我们称之为R-CNN方法:具有CNN特征的Regions。我们还将R-CNN与OverFeat 进行了比较,后者是一种基于类似CNN架构的滑动窗口探测器。我们发现,R-CNN在200-class ILSVRC2013检测数据集上的优势,远远超过了OverFeat 。完整系统的源代码可在http://www.cs.berkeley.edu/˜rbg/rcnn上找到。

Conclusion  

      In recent years, object detection performance had stagnated.  The best performing systems were complex ensembles  combining multiple low-level image features with  high-level context from object detectors and scene classifiers.  This paper presents a simple and scalable object detection  algorithm that gives a 30% relative improvement  over the best previous results on PASCAL VOC 2012.  

      We achieved this performance through two insights. The  first is to apply high-capacity convolutional neural networks  to bottom-up region proposals in order to localize  and segment objects. The second is a paradigm for training  large CNNs when labeled training data is scarce. We  show that it is highly effective to pre-train the network—  with supervision—for a auxiliary task with abundant data  (image classification) and then to fine-tune the network for  the target task where data is scarce (detection). We conjecture  that the “supervised pre-training/domain-specific finetuning”  paradigm will be highly effective for a variety of  data-scarce vision problems.  

      We conclude by noting that it is significant that we achieved these results by using a combination of classical tools from computer vision and deep learning (bottomup region proposals and convolutional neural networks). Rather than opposing lines of scientific inquiry, the two are natural and inevitable partners.

结论

      近年来,目标检测性能停滞不前。性能最好的系统是将多个低级图像特征与来自对象检测器和场景分类器的高级上下文相结合的复杂集成。本文提出了一种简单且可扩展的目标检测算法,该算法比之前在PASCAL VOC 2012上获得的最佳结果有30%的相对改进。

      我们通过两个视角来实现这一性能。第一种方法是将大容量卷积神经网络应用于自下而上的区域方案,以实现目标的定位和分段。第二种模式是在标记训练数据稀缺的情况下训练大型CNN。结果表明,对一个数据丰富的辅助任务(图像分类)进行预训练,然后对数据稀缺的目标任务(检测)进行网络微调,是一种非常有效的方法。我们推测,“有监督的预训练/特定区域微调”范式对于各种数据稀缺的视觉问题将非常有效。

      最后,我们注意到,我们通过结合计算机视觉和深度学习(自下而上的区域建议和卷积神经网络)的经典工具,取得了这些成果,这是非常重要的。两者不是对立的科学探究路线,而是自然的、不可避免的合作伙伴。


论文

Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik.

Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. CVPR 2014

https://arxiv.org/abs/1311.2524v3


Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik(2014):Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. In 580–587.

《Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v3)》


相关文章
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN)及其应用
【9月更文挑战第24天】本文将深入探讨深度学习中的一种重要模型——卷积神经网络(CNN)。我们将通过简单的代码示例,了解CNN的工作原理和应用场景。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的信息。
40 1
|
19天前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【9月更文挑战第19天】在人工智能的浩瀚星海中,卷积神经网络(CNN)如同一颗璀璨的星辰,照亮了图像处理的天空。本文将深入CNN的核心,揭示其在图像识别领域的强大力量。通过浅显易懂的语言和直观的比喻,我们将一同探索CNN的奥秘,并见证它如何在现实世界中大放异彩。
|
2月前
|
人工智能 自然语言处理 算法
首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效
【8月更文挑战第26天】在人工智能领域,尽管大型语言模型(LLMs)作为自动评估工具展现了巨大潜力,但在自然语言生成质量评估中仍存偏见问题,且难以确保一致性。为解决这一挑战,研究者开发了Pairwise-preference Search(PairS)算法,一种基于不确定性的搜索方法,通过成对比较及不确定性引导实现高效文本排名,有效减少了偏见、提升了评估效率和可解释性。PairS在多项任务中表现出色,相较于传统评分法有显著提升,为自然语言处理评估提供了新思路。更多详情参阅论文:https://arxiv.org/abs/2403.16950。
40 4
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【8月更文挑战第28天】本文将深入探讨深度学习领域的核心概念之一——卷积神经网络(CNN),并展示其在图像识别任务中的强大能力。文章首先介绍CNN的基本结构,然后通过一个简单的代码示例来演示如何构建一个基础的CNN模型。接着,我们将讨论CNN如何处理图像数据以及它在图像分类、检测和分割等任务中的应用。最后,文章将指出CNN面临的挑战和未来的发展方向。
|
7天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【9月更文挑战第31天】本文旨在通过浅显易懂的语言和直观的比喻,为初学者揭开深度学习中卷积神经网络(CNN)的神秘面纱。我们将从CNN的基本原理出发,逐步深入到其在图像识别领域的实际应用,并通过一个简单的代码示例,展示如何利用CNN进行图像分类。无论你是编程新手还是深度学习的初学者,这篇文章都将为你打开一扇通往人工智能世界的大门。
|
18天前
|
机器学习/深度学习 自动驾驶 TensorFlow
深入理解卷积神经网络(CNN)在图像识别中的应用
【9月更文挑战第20天】本文旨在通过直观的解释和代码示例,向初学者介绍卷积神经网络(CNN)的基本概念及其在图像识别领域的应用。文章将首先解释什么是CNN以及它如何工作,然后通过一个简单的Python代码示例展示如何构建一个基本的CNN模型。最后,我们将讨论CNN在现实世界问题中的潜在应用,并探讨其面临的挑战和发展方向。
40 2
|
22天前
|
机器学习/深度学习 算法 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【9月更文挑战第16天】本文将深入浅出地介绍卷积神经网络(CNN)的基本概念、结构和工作原理,同时通过一个实际的代码示例来展示如何在Python中使用Keras库构建一个简单的CNN模型进行图像识别。我们将看到,即使是初学者也能够通过简单的步骤实现深度学习的强大功能,进而探索其在复杂数据集上的应用潜力。
|
2月前
|
机器学习/深度学习 算法框架/工具 计算机视觉
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【8月更文挑战第28天】本文深入探讨了深度学习领域中的一个核心概念——卷积神经网络(CNN),并详细解释了其在图像识别任务中的强大应用。从CNN的基本结构出发,我们逐步展开对其工作原理的解析,并通过实际代码示例,展示如何利用CNN进行有效的图像处理和识别。文章旨在为初学者提供一个清晰的学习路径,同时也为有经验的开发者提供一些深入的见解和应用技巧。
53 1
|
25天前
|
机器学习/深度学习 人工智能 TensorFlow
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【9月更文挑战第13天】本文将深入浅出地介绍卷积神经网络(CNN)的基本原理,并探讨其在图像识别领域的应用。通过实例演示如何利用Python和TensorFlow框架实现一个简单的CNN模型,我们将一步步从理论到实践,揭示CNN如何改变现代图像处理技术的面貌。无论你是深度学习新手还是希望深化理解,这篇文章都将为你提供价值。
|
2月前
|
机器学习/深度学习 网络安全 TensorFlow
探索操作系统的心脏:内核与用户空间的奥秘云计算与网络安全:技术挑战与未来趋势深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【8月更文挑战第29天】在数字世界的每一次点击与滑动背后,都隐藏着一个不为人知的故事。这个故事关于操作系统——计算机的灵魂,它如何协调硬件与软件,管理资源,并确保一切运行得井井有条。本文将带你走进操作系统的核心,揭示内核与用户空间的秘密,展现它们如何共同编织出我们日常数字生活的底层结构。通过深入浅出的讲解和代码示例,我们将一同解锁操作系统的神秘面纱,理解其对现代计算的重要性。 【8月更文挑战第29天】本文将深入探讨卷积神经网络(CNN)的基本原理和结构,以及它们如何被广泛应用于图像识别任务中。我们将通过代码示例来展示如何使用Python和TensorFlow库构建一个简单的CNN模型,并训练