DL之R-CNN:R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

简介: R-CNN是用深度学习解决目标检测问题的开山之作,2014年,第一次用深度学习来做传统的目标检测任务。

 DL之R-CNN:R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

目录

R-CNN算法的简介(论文介绍)

0、R-CNN算法流程图

1、实验结果

R-CNN算法的架构详解

R-CNN算法的案例应用


相关文章

DL之R-CNN:R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DL之R-CNN:R-CNN算法的架构详解

DL之FastR-CNN:Fast R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DL之FasterR-CNN:Faster R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

 

R-CNN算法的简介(论文介绍)

image.gif

        R-CNN是用深度学习解决目标检测问题的开山之作,2014年,第一次用深度学习来做传统的目标检测任务

        罗斯·格希克(Ross Girshick)是Facebook人工智能研究(FAIR)的一名研究科学家,致力于计算机视觉和机器学习。2012年,他在Pedro Felzenszwalb的指导下获得了芝加哥大学计算机科学博士学位。在加入FAIR之前,罗斯是微软研究院(Microsoft Research)的研究员、雷德蒙德(Redmond)和加州大学伯克利分校(University of California, Berkeley)的博士后。他的兴趣包括实例级对象理解和视觉推理挑战,这些挑战将自然语言处理和计算机视觉结合起来。他获得了2017年PAMI青年研究员奖,并以开发用于目标检测的R-CNN(基于区域的卷积神经网络)方法而闻名。2017年,罗斯还凭借《面具R-CNN》获得ICCV的Marr奖。

评价:RBG是这个领域神一样的存在,后续的一些改进方法如Fast R-CNN、Faster R-CNN、YOLO等相关工作都和他有关。

Abstract  

      Object detection performance, as measured on the  canonical PASCAL VOC dataset, has plateaued in the last  few years. The best-performing methods are complex ensemble  systems that typically combine multiple low-level  image features with high-level context. In this paper, we  propose a simple and scalable detection algorithm that improves  mean average precision (mAP) by more than 30%  relative to the previous best result on VOC 2012—achieving  a mAP of 53.3%. Our approach combines two key insights:  (1) one can apply high-capacity convolutional neural networks  (CNNs) to bottom-up region proposals in order to  localize and segment objects and (2) when labeled training  data is scarce, supervised pre-training for an auxiliary task,  followed by domain-specific fine-tuning, yields a significant  performance boost. Since we combine region proposals  with CNNs, we call our method R-CNN: Regions with CNN  features. We also compare R-CNN to OverFeat, a recently  proposed sliding-window detector based on a similar CNN  architecture. We find that R-CNN outperforms OverFeat  by a large margin on the 200-class ILSVRC2013 detection  dataset. Source code for the complete system is available at

http://www.cs.berkeley.edu/˜rbg/rcnn.

摘要

      在过去的几年中,通过标准的PASCAL VOC数据集测量,目标检测性能已经趋于稳定。最有效的方法是复杂的集成系统,通常将多个低级图像特征与高级上下文结合起来。在本文中,我们提出了一种简单且可扩展的检测算法,相对于之前VOC 2012的最佳结果,平均精度(MAP)提高了30%以上,实现了53.3%的MAP。我们的方法结合了两个关键的观点:(1)一种方法可以将大容量卷积神经网络(CNN)应用于自下而上的区域方案,以便对对象进行定位和分段;(2)当标记的训练数据不足时,为辅助任务进行有监督的预训练,然后进行特定领域的微调,可以显著提高性能。由于我们将region proposals与CNN结合起来,我们称之为R-CNN方法:具有CNN特征的Regions。我们还将R-CNN与OverFeat 进行了比较,后者是一种基于类似CNN架构的滑动窗口探测器。我们发现,R-CNN在200-class ILSVRC2013检测数据集上的优势,远远超过了OverFeat 。完整系统的源代码可在http://www.cs.berkeley.edu/˜rbg/rcnn上找到。

Conclusion  

      In recent years, object detection performance had stagnated.  The best performing systems were complex ensembles  combining multiple low-level image features with  high-level context from object detectors and scene classifiers.  This paper presents a simple and scalable object detection  algorithm that gives a 30% relative improvement  over the best previous results on PASCAL VOC 2012.  

      We achieved this performance through two insights. The  first is to apply high-capacity convolutional neural networks  to bottom-up region proposals in order to localize  and segment objects. The second is a paradigm for training  large CNNs when labeled training data is scarce. We  show that it is highly effective to pre-train the network—  with supervision—for a auxiliary task with abundant data  (image classification) and then to fine-tune the network for  the target task where data is scarce (detection). We conjecture  that the “supervised pre-training/domain-specific finetuning”  paradigm will be highly effective for a variety of  data-scarce vision problems.  

      We conclude by noting that it is significant that we achieved these results by using a combination of classical tools from computer vision and deep learning (bottomup region proposals and convolutional neural networks). Rather than opposing lines of scientific inquiry, the two are natural and inevitable partners.

结论

      近年来,目标检测性能停滞不前。性能最好的系统是将多个低级图像特征与来自对象检测器和场景分类器的高级上下文相结合的复杂集成。本文提出了一种简单且可扩展的目标检测算法,该算法比之前在PASCAL VOC 2012上获得的最佳结果有30%的相对改进。

      我们通过两个视角来实现这一性能。第一种方法是将大容量卷积神经网络应用于自下而上的区域方案,以实现目标的定位和分段。第二种模式是在标记训练数据稀缺的情况下训练大型CNN。结果表明,对一个数据丰富的辅助任务(图像分类)进行预训练,然后对数据稀缺的目标任务(检测)进行网络微调,是一种非常有效的方法。我们推测,“有监督的预训练/特定区域微调”范式对于各种数据稀缺的视觉问题将非常有效。

      最后,我们注意到,我们通过结合计算机视觉和深度学习(自下而上的区域建议和卷积神经网络)的经典工具,取得了这些成果,这是非常重要的。两者不是对立的科学探究路线,而是自然的、不可避免的合作伙伴。

论文

Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik.

Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. CVPR 2014

https://arxiv.org/abs/1311.2524v3

Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik(2014):Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. In 580–587.

Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v3)

0、R-CNN算法流程图

image.gif

image.gifimage.gif

image.gif

1、实验结果

1、Detection average precision (%) on VOC 2010 test

      R-CNN BB算法(加了BBox回归技巧),前边20列是20个分类的每个AP,最后一列是平均,mAP达到53.7!

image.gif

2、ILSVRC2013 detection test mAP

         即在ImageNet上的测试结果,

image.gif

R-CNN算法的架构详解

更新……

DL之R-CNN:R-CNN算法的架构详解

R-CNN算法的案例应用

更新……


相关文章
|
3月前
|
存储 机器学习/深度学习 编解码
双选择性信道下正交啁啾分复用(OCDM)的低复杂度均衡算法研究——论文阅读
本文提出统一相位正交啁啾分复用(UP-OCDM)方案,利用循环矩阵特性设计两种低复杂度均衡算法:基于带状近似的LDL^H分解和基于BEM的迭代LSQR,将复杂度由$O(N^3)$降至$O(NQ^2)$或$O(iNM\log N)$,在双选择性信道下显著提升高频谱效率与抗多普勒性能。
251 0
双选择性信道下正交啁啾分复用(OCDM)的低复杂度均衡算法研究——论文阅读
|
4月前
|
算法 关系型数据库 文件存储
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
ProxylessNAS是一种直接在目标任务和硬件上进行神经架构搜索的方法,有效降低了传统NAS的计算成本。通过路径二值化和两路径采样策略,减少内存占用并提升搜索效率。相比代理任务方法,ProxylessNAS在ImageNet等大规模任务中展现出更优性能,兼顾准确率与延迟,支持针对不同硬件(如GPU、CPU、移动端)定制高效网络架构。
330 126
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
|
3月前
|
机器学习/深度学习 人工智能 缓存
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
本文提出面向边缘通用智能的多大语言模型(Multi-LLM)系统,通过协同架构、信任机制与动态编排,突破传统边缘AI的局限。融合合作、竞争与集成三种范式,结合模型压缩、分布式推理与上下文优化技术,实现高效、可靠、低延迟的边缘智能,推动复杂场景下的泛化与自主决策能力。
350 3
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
|
4月前
|
机器学习/深度学习 人工智能 搜索推荐
从零构建短视频推荐系统:双塔算法架构解析与代码实现
短视频推荐看似“读心”,实则依赖双塔推荐系统:用户塔与物品塔分别将行为与内容编码为向量,通过相似度匹配实现精准推送。本文解析其架构原理、技术实现与工程挑战,揭秘抖音等平台如何用AI抓住你的注意力。
1195 7
从零构建短视频推荐系统:双塔算法架构解析与代码实现
|
4月前
|
传感器 资源调度 算法
DDMA-MIMO雷达多子带相干累积目标检测算法——论文阅读
本文提出一种多子带相干累积(MSCA)算法,通过引入空带和子带相干处理,解决DDMA-MIMO雷达的多普勒模糊与能量分散问题。该方法在低信噪比下显著提升检测性能,实测验证可有效恢复目标速度,适用于车载雷达高精度感知。
623 4
DDMA-MIMO雷达多子带相干累积目标检测算法——论文阅读
|
4月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
226 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
3月前
|
人工智能 JavaScript 前端开发
GenSX (不一样的AI应用框架)架构学习指南
GenSX 是一个基于 TypeScript 的函数式 AI 工作流框架,以“函数组合替代图编排”为核心理念。它通过纯函数组件、自动追踪与断点恢复等特性,让开发者用自然代码构建可追溯、易测试的 LLM 应用。支持多模型集成与插件化扩展,兼具灵活性与工程化优势。
321 6
|
4月前
|
机器学习/深度学习 人工智能 资源调度
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
MicroNAS是一种专为微控制器单元(MCU)设计的零样本神经架构搜索(NAS)框架,无需训练即可通过理论驱动的性能指标评估网络架构。相比传统NAS方法,其搜索效率提升高达1104倍,同时兼顾精度与硬件效率,适用于边缘计算场景。该框架结合神经切线核(NTK)条件数、线性区域计数及硬件感知延迟模型,实现快速、高效的架构搜索,为资源受限设备上的AI部署提供了新思路。
285 2
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
|
4月前
|
人工智能 Cloud Native 中间件
划重点|云栖大会「AI 原生应用架构论坛」看点梳理
本场论坛将系统性阐述 AI 原生应用架构的新范式、演进趋势与技术突破,并分享来自真实生产环境下的一线实践经验与思考。
|
4月前
|
机器学习/深度学习 人工智能 vr&ar
H4H:面向AR/VR应用的NPU-CIM异构系统混合卷积-Transformer架构搜索——论文阅读
H4H是一种面向AR/VR应用的混合卷积-Transformer架构,基于NPU-CIM异构系统,通过神经架构搜索实现高效模型设计。该架构结合卷积神经网络(CNN)的局部特征提取与视觉Transformer(ViT)的全局信息处理能力,提升模型性能与效率。通过两阶段增量训练策略,缓解混合模型训练中的梯度冲突问题,并利用异构计算资源优化推理延迟与能耗。实验表明,H4H在相同准确率下显著降低延迟和功耗,为AR/VR设备上的边缘AI推理提供了高效解决方案。
550 0

热门文章

最新文章