DL之FasterR-CNN:Faster R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略(一)

简介: DL之FasterR-CNN:Faster R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

Faster R-CNN算法的简介(论文介绍)


     Faster R-CNN,顾名思义,相对R-CNN有非常大的提高!


Abstract

     State-of-the-art object detection networks depend on region proposal algorithms to hypothesize object locations.  Advances like SPPnet [1] and Fast R-CNN [2] have reduced the running time of these detection networks, exposing region  proposal computation as a bottleneck. In this work, we introduce a Region Proposal Network (RPN) that shares full-image  convolutional features with the detection network, thus enabling nearly cost-free region proposals. An RPN is a fully convolutional  network that simultaneously predicts object bounds and objectness scores at each position. The RPN is trained end-to-end to  generate high-quality region proposals, which are used by Fast R-CNN for detection. We further merge RPN and Fast R-CNN  into a single network by sharing their convolutional features—using the recently popular terminology of neural networks with  “attention” mechanisms, the RPN component tells the unified network where to look. For the very deep VGG-16 model [3],  our detection system has a frame rate of 5fps (including all steps) on a GPU, while achieving state-of-the-art object detection  accuracy on PASCAL VOC 2007, 2012, and MS COCO datasets with only 300 proposals per image. In ILSVRC and COCO  2015 competitions, Faster R-CNN and RPN are the foundations of the 1st-place winning entries in several tracks. Code has been  made publicly available.

摘要

     最先进的目标检测网络依赖于区域建议算法来假设目标位置。SPPnet[1]和Fast R-CNN[2]等技术的进步,降低了检测网络的运行时间,暴露了区域提案计算的瓶颈。在这项工作中,我们引入了一个与检测网络共享全图像卷积特性的区域建议网络(RPN),从而实现了几乎免费的区域建议。RPN是一个完全卷积的网络,它同时预测每个位置的对象边界和对象得分。对RPN进行端到端训练,生成高质量的区域建议,Fast R-CNN对其进行检测。通过共享卷积特性,我们进一步将RPN和Fast R-CNN合并成一个单独的网络——使用最近流行的具有“注意”机制的神经网络术语,RPN组件告诉统一的网络去哪里看。对于非常深的VGG-16型号[3],我们的检测系统在GPU上的帧率为5fps(包括所有步骤),同时在PASCAL VOC 2007、2012和MS COCO数据集上实现了最先进的目标检测精度,每张图像只有300个提案。在ILSVRC和COCO 2015年的比赛中,Faster R-CNN和RPN是在多个赛道上获得第一名的基础。代码已经公开。

CONCLUSION  

     We have presented RPNs for efficient and accurate  region proposal generation. By sharing convolutional features with the down-stream detection network, the  region proposal step is nearly cost-free. Our method  enables a unified, deep-learning-based object detection  system to run at near real-time frame rates. The  learned RPN also improves region proposal quality  and thus the overall object detection accuracy.

结论

     为了高效、准确地生成区域建议,我们提出了一种新的区域建议生成方法。通过与下游检测网络共享卷积特性,区域建议步骤几乎是免费的。我们的方法使一个统一的,基于深度学习的目标检测系统运行在接近实时帧率。学习的RPN还提高了区域建议质量,从而提高了总体目标检测精度。


论文

Shaoqing Ren, KaimingHe, Ross Girshick, and Jian Sun.

Faster R-CNN: Towards real-time object detection with region proposal networks. NIPS, 2015

https://arxiv.org/abs/1506.01497v3



1、实验结果


1、PASCAL VOC 2007


      Example detections using RPN proposals on PASCAL VOC 2007 test. 下图为在PASCAL VOC 2007测试中,使用RPN进行目标检测的结果。The proposed method detects objects in a wide range of scales and aspect ratios. 该方法检测的目标对象,具有较宽的尺度和宽高比。

image.png



Detection results on PASCAL VOC 2007 test set

SS指采用选择性搜索但没有采用RPN的网络;unshared是指没有共享特征的网络。

RPN+VGG+shared能够得到最好的结果!

image.png

2、PASCAL VOC 2012


Detection results on PASCAL VOC 2012 test set

RPN+VGG+shared能够得到最好的结果!

image.png



测试的速度:VGG+SS+Fast R-CNN来说,每秒0.5帧,即处理一帧(幅图像)大概需要2秒。

VGG+RPN+Fast R-CNN来说,处理一帧(幅图像)大概需要0.2秒。

ZF网络更快,每秒17帧(图像),

image.png


相关文章
|
7月前
|
算法 关系型数据库 文件存储
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
ProxylessNAS是一种直接在目标任务和硬件上进行神经架构搜索的方法,有效降低了传统NAS的计算成本。通过路径二值化和两路径采样策略,减少内存占用并提升搜索效率。相比代理任务方法,ProxylessNAS在ImageNet等大规模任务中展现出更优性能,兼顾准确率与延迟,支持针对不同硬件(如GPU、CPU、移动端)定制高效网络架构。
387 126
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
|
7月前
|
机器学习/深度学习 算法 物联网
μNAS:面向微控制器的约束神经架构搜索——论文解读
μNAS是一种专为微控制器设计的神经架构搜索方法,旨在解决物联网设备中资源受限的挑战。通过多目标优化框架,μNAS能够在有限的内存和计算能力下,自动搜索出高效的神经网络结构。该方法结合了老化进化算法与贝叶斯优化,并引入结构化剪枝技术,实现模型压缩。实验表明,μNAS在多个数据集上均取得了优异的精度与资源使用平衡,显著优于现有方法,为边缘计算设备的智能化提供了可行路径。
516 129
|
6月前
|
机器学习/深度学习 人工智能 缓存
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
本文提出面向边缘通用智能的多大语言模型(Multi-LLM)系统,通过协同架构、信任机制与动态编排,突破传统边缘AI的局限。融合合作、竞争与集成三种范式,结合模型压缩、分布式推理与上下文优化技术,实现高效、可靠、低延迟的边缘智能,推动复杂场景下的泛化与自主决策能力。
549 3
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
|
7月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
285 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
7月前
|
机器学习/深度学习 人工智能 资源调度
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
MicroNAS是一种专为微控制器单元(MCU)设计的零样本神经架构搜索(NAS)框架,无需训练即可通过理论驱动的性能指标评估网络架构。相比传统NAS方法,其搜索效率提升高达1104倍,同时兼顾精度与硬件效率,适用于边缘计算场景。该框架结合神经切线核(NTK)条件数、线性区域计数及硬件感知延迟模型,实现快速、高效的架构搜索,为资源受限设备上的AI部署提供了新思路。
409 2
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
|
7月前
|
机器学习/深度学习 数据采集 并行计算
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
740 2
|
7月前
|
机器学习/深度学习 人工智能 vr&ar
H4H:面向AR/VR应用的NPU-CIM异构系统混合卷积-Transformer架构搜索——论文阅读
H4H是一种面向AR/VR应用的混合卷积-Transformer架构,基于NPU-CIM异构系统,通过神经架构搜索实现高效模型设计。该架构结合卷积神经网络(CNN)的局部特征提取与视觉Transformer(ViT)的全局信息处理能力,提升模型性能与效率。通过两阶段增量训练策略,缓解混合模型训练中的梯度冲突问题,并利用异构计算资源优化推理延迟与能耗。实验表明,H4H在相同准确率下显著降低延迟和功耗,为AR/VR设备上的边缘AI推理提供了高效解决方案。
1111 0
|
机器学习/深度学习 数据采集 算法
基于PSO粒子群优化的CNN-LSTM-SAM网络时间序列回归预测算法matlab仿真
本项目展示了基于PSO优化的CNN-LSTM-SAM网络时间序列预测算法。使用Matlab2022a开发,完整代码含中文注释及操作视频。算法结合卷积层提取局部特征、LSTM处理长期依赖、自注意力机制捕捉全局特征,通过粒子群优化提升预测精度。适用于金融市场、气象预报等领域,提供高效准确的预测结果。
|
机器学习/深度学习 数据采集 算法
基于WOA鲸鱼优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
本项目基于MATLAB 2022a实现时间序列预测,采用CNN-GRU-SAM网络结构,结合鲸鱼优化算法(WOA)优化网络参数。核心代码含操作视频,运行效果无水印。算法通过卷积层提取局部特征,GRU层处理长期依赖,自注意力机制捕捉全局特征,全连接层整合输出。数据预处理后,使用WOA迭代优化,最终输出最优预测结果。
|
机器学习/深度学习 数据采集 算法
基于GA遗传优化的CNN-LSTM-SAM网络时间序列回归预测算法matlab仿真
本项目使用MATLAB 2022a实现时间序列预测算法,完整程序无水印。核心代码包含详细中文注释和操作视频。算法基于CNN-LSTM-SAM网络,融合卷积层、LSTM层与自注意力机制,适用于金融市场、气象预报等领域。通过数据归一化、种群初始化、适应度计算及参数优化等步骤,有效处理非线性时间序列,输出精准预测结果。

热门文章

最新文章