DL之SPP-Net:SPP-Net算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略(一)

简介: DL之SPP-Net:SPP-Net算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

SPP-Net算法的相关论文


     SPP-Net的第一作者也是何凯明,原论文《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》。用于分类和检测任务,在ImageNet数据集ILSVRC2014竞赛上,检测任务获得第二名、分类任务第三名。


Abstract

      Existing deep convolutional neural networks (CNNs) require a fixed-size (e.g., 224×224) input image. This requirement  is “artificial” and may reduce the recognition accuracy for the images or sub-images of an arbitrary size/scale. In this  work, we equip the networks with another pooling strategy, “spatial pyramid pooling”, to eliminate the above requirement. The  new network structure, called SPP-net, can generate a fixed-length representation regardless of image size/scale. Pyramid  pooling is also robust to object deformations. With these advantages, SPP-net should in general improve all CNN-based image  classification methods. On the ImageNet 2012 dataset, we demonstrate that SPP-net boosts the accuracy of a variety of CNN  architectures despite their different designs. On the Pascal VOC 2007 and Caltech101 datasets, SPP-net achieves state-of-theart  classification results using a single full-image representation and no fine-tuning.  

      现有的深度卷积神经网络(CNNs)需要一个固定大小的输入图像(如224×224)。这一要求是“人为的”,可能会降低对任意大小/尺度的图像或子图像的识别精度。在这项工作中,我们为网络配备了另一种pooling 策略,“空间金字塔池”,以消除上述的要求。这种新的网络结构称为SPP-net,可以生成固定长度的表示,而不受图像大小/比例的影响。金字塔池对物体变形也有很强的鲁棒性。基于这些优点,SPP-net一般应改进所有基于CNN的图像分类方法。在ImageNet 2012数据集中,尽管它们的设计不同,我们证明了SPP-net提高了各种CNN架构的准确性。在Pascal VOC 2007和Caltech101数据集上,SPP-net使用单一的全图像表示,无需微调,就可以实现最先进的分类结果。

      The power of SPP-net is also significant in object detection. Using SPP-net, we compute the feature maps from the entire  image only once, and then pool features in arbitrary regions (sub-images) to generate fixed-length representations for training  the detectors. This method avoids repeatedly computing the convolutional features. In processing test images, our method is  24-102× faster than the R-CNN method, while achieving better or comparable accuracy on Pascal VOC 2007.  

      在目标检测中,SPP-net的能力也很重要。利用SPP-net算法,只对整个图像进行一次特征映射计算,然后将特征集合到任意区域(子图像),生成固定长度的表示形式,用于训练检测器。该方法避免了卷积特征的重复计算。在处理测试图像时,我们的方法比R-CNN方法快24-102倍,而在Pascal VOC 2007上达到了更好或相近的精度。

      In ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2014, our methods rank #2 in object detection and #3 in  image classification among all 38 teams. This manuscript also introduces the improvement made for this competition.

      在2014年的ImageNet Large Scale Visual Recognition Challenge (ILSVRC)中,我们的方法在所有38个团队中对象检测排名第二,图像分类排名第三。本文还介绍了本次比赛的改进情况。

CONCLUSION  

      SPP is a flexible solution for handling different scales,  sizes, and aspect ratios. These issues are important in  visual recognition, but received little consideration in  the context of deep networks. We have suggested a solution  to train a deep network with a spatial pyramid  pooling layer. The resulting SPP-net shows outstanding  accuracy in classification/detection tasks and  greatly accelerates DNN-based detection. Our studies  also show that many time-proven techniques/insights  in computer vision can still play important roles in  deep-networks-based recognition.

结论

      SPP是一个灵活的解决方案,可以处理不同的规模、大小和纵横比。这些问题在视觉识别中很重要,但在深度网络环境中却很少被考虑。论文提出了一种利用空间金字塔池层,训练深度网络的方法。由此产生的SPP-net在分类/检测任务中显示出优异的精度,大大加快了基于DNN的检测速度。我们的研究还表明,在基于深度网络的识别中,许多经过时间检验的计算机视觉技术/见解仍然可以发挥重要作用。


相关论文

Kaiming He, XiangyuZhang, ShaoqingRen, and Jian Sun.

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition . ECCV 2014

https://arxiv.org/abs/1406.4729


0、实验结果


1、VOC2007


image.png


2、ILSVRC 2014 Classification


image.png



3、ILSVRC 2014 Detection


image.png




1、SPP-Net中的亮点


    在此之前,所有的神经网络都是需要输入固定尺寸的图片,比如224*224(ImageNet)、32*32(LenNet)、96*96等。这样对于我们希望检测各种大小的图片的时候,需要经过crop,或者warp等一系列操作,这都在一定程度上导致图片信息的丢失和变形,限制了识别精确度。而且,从生理学角度出发,人眼看到一个图片时,大脑会首先认为这是一个整体,而不会进行crop和warp,所以更有可能的是,我们的大脑通过搜集一些浅层的信息,在更深层才识别出这些任意形状的目标。


分类: improves all CNN architectures

检测: 24~64x faster than R-CNN

ILSVRC 2014: #2 in detection, #3 in classification.

 


相关文章
|
2月前
|
存储 算法 Java
解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用
在Java中,Set接口以其独特的“无重复”特性脱颖而出。本文通过解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用。
54 3
|
21天前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用
|
20天前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
39 1
|
20天前
|
并行计算 算法 测试技术
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面,旨在通过综合策略提升程序性能,满足实际需求。
49 1
|
29天前
|
缓存 算法 网络协议
OSPF的路由计算算法:原理与应用
OSPF的路由计算算法:原理与应用
41 4
|
27天前
|
机器学习/深度学习 监控 算法
基于反光衣和检测算法的应用探索
本文探讨了利用机器学习和计算机视觉技术进行反光衣检测的方法,涵盖图像预处理、目标检测与分类、特征提取等关键技术。通过YOLOv5等模型的训练与优化,展示了实现高效反光衣识别的完整流程,旨在提升智能检测系统的性能,应用于交通安全、工地监控等领域。
|
29天前
|
存储 算法 网络协议
OSPF的SPF算法介绍:原理、实现与应用
OSPF的SPF算法介绍:原理、实现与应用
74 3
|
1月前
|
机器学习/深度学习 JSON 算法
二叉树遍历算法的应用场景有哪些?
【10月更文挑战第29天】二叉树遍历算法作为一种基础而重要的算法,在许多领域都有着不可或缺的应用,它为解决各种复杂的问题提供了有效的手段和思路。随着计算机科学的不断发展,二叉树遍历算法也在不断地被优化和扩展,以适应新的应用场景和需求。
40 0
|
21天前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法及应用
探索人工智能中的强化学习:原理、算法及应用
|
2月前
|
存储 算法 搜索推荐
这些算法在实际应用中有哪些具体案例呢
【10月更文挑战第19天】这些算法在实际应用中有哪些具体案例呢
53 1