深度学习经典网络解析图像分类篇(五):VGG

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介:  VGGNet是在ImageNet Challenge 2014在定位和分类过程中分别获得了第一名和第二名的神经网络架构。VGGNet是牛津大学计算机视觉组和DeepMind公司的研究员一起研发的深度卷积神经网络。VGG主要探究了卷积神经网络的深度和其性能之间的关系,通过反复堆叠3×3的小卷积核和2×2的最大池化层,VGGNet成功的搭建了16-19层的深度卷积神经网络。

VGG论文翻译详情见我的博客:

https://blog.csdn.net/muye_IT/article/details/123808935


1.背景介绍


 VGGNet是在ImageNet Challenge 2014在定位和分类过程中分别获得了第一名和第二名的神经网络架构。VGGNet是牛津大学计算机视觉组和DeepMind公司的研究员一起研发的深度卷积神经网络。VGG主要探究了卷积神经网络的深度和其性能之间的关系,通过反复堆叠3×3的小卷积核和2×2的最大池化层,VGGNet成功的搭建了16-19层的深度卷积神经网络。与之前的网络结构相比,错误率大幅度下降;同时,VGG的泛化能力非常好,在不同的图片数据集上都有良好的表现。到目前为止,VGG依然经常被用来提取特征图像。自从2012年AlexNet在ImageNet Challenge大获成功之后,深度学习在人工智能领域再次火热起来,很多模型在此基础上做了大量尝试和改进。主要有两个方向:


  • 卷积核大小的变化:上一篇的ZFNet相对前面的AlexNet在模型上没有大的变化,但是把卷积核的尺寸从11×11变成了7×7


  • 多尺度:训练和测试使用整张图的不同尺度,也就是VGG网络的改进。


506cf44bbbfd4d3e8527e8496d6165c4.png


1.VGG网络与AlexNet网络


aec77f1efc50421787860565bfb70f34.png


VGG网络与AlexNet网络相比:

1.使用尺寸更小的3x3卷积核串联来获得更大的感受野,放弃使用11x11和5x5这样的大尺寸卷积核:


 在VGG中,使用了3个3x3卷积核来代替7x7卷积核,使用了2个3x3卷积核来代替5*5卷积核,这样做的主要目的是在保证具有相同感知野的条件下,提升了网络的深度,在一定程度上提升了神经网络的效果。因为在3个3×3卷积核串联后的的感受野与7×7卷积的感受野是一样的,但是3×3卷积可以得到更多的细节,7×7卷积会忽略一些细节。7×7卷积只是用一次变换就得到某个区域的特征,而3×3卷积是用了三次变换得到某个区域的感受野,这个三次3×3卷积非线性能力更强,那么他的描述能力就更强,他就能学习到更复杂的特征。


 在卷积神经网络中,决定某一层输出结果中一个元素所对应的输入层的区域大小,被称作感受野(receptive field)。通俗的解释是,输出feature map上的一个单元对应输入层上的区域大小。


d9e71a60ef1546b3864d90fe9daf897d.png


感受野计算公式:


F ( i ) = ( F ( i + 1 ) − 1 ) ×  Stride  +  Ksize


F ( i )为第 i 层感受野,

Stride为第 i 层的步距,

Ksize为卷积核或采样核尺寸

Feature map: F = 1

Conv3×3(3): F = ( 1 − 1 ) × 1 + 3 = 3

Conv3x3(2): F = ( 3 − 1 ) × 1 + 3 = 5

Conv3x3(1): F = ( 5 − 1 ) × 1 + 3 = 7


f41f46618e4b46a3a90573ec14ca8499.png


2.深度更深、非线性更强,网络的参数也更少 :


 使用小卷积核串联构建的网络深度更深、非线性更强、参数也更少。

 使用3个3 × 3的卷积:3 × 3 × 𝐶× 𝐶 × 3 = 27𝐶²

 使用1个7 × 7的卷积:7 × 7 ×𝐶 × 𝐶 = 49𝐶²

 3个3 × 3的卷积相比1个7 × 7的卷积参数量少了一半!


aac5ffef89534ba7b74f5742a6c17ced.png


为什么VGG网络前四段里,每经过一次池化操作,卷积核个数就增加一倍?

1.池化操作可以减小特征图尺寸,降低显存占用


2.增加卷积核个数有助于学习更多的结构特征,但会增加网络参数数量以及内存消耗


3.一减一增的设计平衡了识别精度与存储、计算开销


143e1687210549e0b8f1bed86d061fac.png


为什么卷积核个数增加到512后就不再增加了?


1.第一个全连接层含102M参数,占总参数个数的74%;


2.这一层的参数个数是特征图的尺寸与个数的乘积


3.参数过多容易过拟合,且不易被训练


89d4293f00af4f74bb9c04a4e5e759d6.png


3. 去掉了AlexNet中的局部响应归一化层(LRN)层。

27f9b161d094424798e977f19b0755e6.png


2.VGG网络架构


VGG16


  • ➢ 13个卷积层与3个全连接,一共16层;


  • ➢ 分为5段conv1,…,conv5,每一段中卷积层的卷积核个数均相同 ;


  • ➢所有卷积层均采用3x3的卷积核及ReLU激活函数;


  • ➢ 所有的池化层都采用最大池化,其窗口大小为2x2、步长为2;


  • ➢经过一次池化操作,其后卷积层的卷积核个数就增加一倍,直至到达512;


c00989e2a3df48f789231aa0ae078e97.png


2.1 INPUT层


VGGNet的图片预处理


VGG的输入224*224的RGB图像,预处理就是每一个像素减去了所有像素的均值。


data Data
include
  phase: train
transform param
  mirror: true
  crop size: 224
  mean value: 103.939, 116.779, 123.68
data param
  source:
  data/ilsvrc12 shrt 256/ilsvrc12 ftrain_ leveldb
  batch size: 64 
  backend: leveldb
  blob shapes 
  data: [1, 3, 224, 224 ]
  labe:[ 1 ]


2.2 CONV1层(2层卷积)


 输入图像经过两个卷积层,也就是VGG16网络结构十六层当中的第一层(CONV1-1)和第二层(CONV1-2),合称为CONV1。将224x224x3的输入矩阵变成一个224x224x64的矩阵。


CONV1: 64 个3x3 卷积核,步长为 1,padding设置为1


  • 输入:224x224x3 大小的图像


  • 尺寸:(224-3+2×1)/1+1 = 224


  • 卷积核个数:64


  • 输出尺寸:224×224×64 (padding设置为SAME)


第一个卷积层提取了64种结构的响应信息,得到了64个特征相应图; 特征图每个元素经过ReLU函数操作后输出。


conv1 Convolution
param
  Ir mult: 1
  decay mult: 1
  Ir mult: 2
  decay mult: 0
convolution param
  num output: 64
  pad: 1
  kernel size: 3
  weight fller
    type: gaussian
    std: 0.01
  bias fller
    type: constant
    value: 0
blob shapes
  conv1 1:[1, 64, 224, 224]
relu1_ 1 ReLU  InPlace
blob shapes
  conv1 1:[1, 64, 224, 224]


POOL1层


 第二层 (POOL1):池化大小为 2x2,步长为 2,那么得到的矩阵维数刚好为原来的一半


  • 输入:224x224x64 大小的图像


  • 尺寸:(224-2)/2+1 = 112


  • 池化层个数:64


  • 输出尺寸:112×112×64


8e44429d259248908dc2c9a55e362f95.png


2.3 CONV2层 (2层卷积)


 我们从上面的过程中知道了,input为300x300x3的图片,经过第一层之后变成150x150x64,那么第二层里面有128个卷积核,可以推出经过第二层后得到是75x75x128。


CONV2层 (2层卷积): 2个128 通道3x3 卷积核,步长为 1,padding设置为1


  • 输入:112×112×64 大小的图像


  • 尺寸:(112-3+2×1)/1+1 = 112


  • 池化层个数:128


  • 输出尺寸:112×112×128


f782474688344f919f1a9b1fc5dbf99b.png


POOL2层


POOL2层 :池化大小为 2x2,步长为 2


  • 输入:112×112×128 大小的图像


  • 尺寸:(112-2)/2+1 =56


  • 池化层个数:128


  • 输出尺寸:56×56x128


3f8b364c037c49e6888f58136e57b9ac.png


2.4 CONV3层 (3层卷积)


CONV3层 (3层卷积): 3个256 通道的3x3 卷积核,步长为 1,padding设置为1


  • 输入:56x56x128 大小的图像


  • 尺寸:(56-3+2×1)/1+1 = 56


  • 卷积层通道数:256


  • 输出尺寸:56×56×256


50f3d659a8b64acba85ade4a95e2af30.png


POOL3层


POOL3层 :池化大小为 2x2,步长为 2


  • 输入:56×5×6256 大小的图像


  • 尺寸:(56-2)/2+1 = 28


  • 池化层个数:256


  • 输出尺寸:28x28x256


35400ce3f4d64ec9bf38364bad417c55.png


2.5 CONV4层 (3层卷积)


CONV4层 (3层卷积): 3个512 通道的3x3 卷积核,步长为 1,padding设置为1


  • 输入:28x28x256 大小的图像


  • 尺寸:(28-3+2×1)/1+1 = 28


  • 卷积层通道数:512


  • 输出尺寸:28×28×512


1cd87b59f35443ea983962d39a42a4ab.png


POOL4层


POOL4层 :池化大小为 2x2,步长为 2


1.输入:28×28×512 大小的图像


2.尺寸:(28-2)/2+1 =14


3.池化层个数:512


4.输出尺寸:14x14x256


c169b0f7d6cf41e19b264674a35f4d70.png


2.6 CONV5层 (3层卷积)


CONV5层 (3层卷积): 3个512 通道的3x3 卷积核,步长为 1,padding设置为1

5. 输入:14x14x512 大小的图像

6. 尺寸:(14-3+2×1)/1+1 = 14

7. 卷积层通道数:512

8. 输出尺寸:14×14×512


e8586c67a61f4a2b962777febf0b9047.png


POOL5层


POOL4层 :池化大小为 2x2,步长为 2

9. 输入:14×14×512 大小的图像

10. 尺寸:(14-2)/2+1 =7

11. 池化层个数:512

12. 输出尺寸:7x7x512


65ddd8411645452db82c4a7e95c34c83.png


2.7全连接层(3层)


 进入全连接层之前是7x7x512的张量,通过flatten展平后编程25088维的向量,通过fc6全连接层输出后编程4096维的向量,通过去fc7全连接层输出后变成4096维的向量,之后通过 fc8全连接层输出后变成1000维的向量(ImageNet中的类别数量)


8ff9fd2f7512458086d9cd0fdd6f184c.png1b027d6b26db4e1fbe5cb0a2f3a4bc83.png


3. VGG总结


3.1 VGG的多尺度训练


 VGGNet使用了Multi-Scale的方法做数据增强,将原始图像缩放到不同尺寸S,然后再随机裁切224′224的图片,这样能增加很多数据量,对于防止模型过拟合有很不错的效果。实践中,作者令S在[256,512]这个区间内取值,使用Multi-Scale获得多个版本的数据,并将多个版本的数据合在一起进行训练。VGG作者在尝试使用LRN之后认为LRN的作用不大,还导致了内存消耗和计算时间增加。


虽然网络层数加深,但VGG在训练的过程中比AlexNet收敛的要快一些,主要因为:


1.使用小卷积核和更深的网络进行的正则化


2.在特定的层使用了预训练得到的数据进行参数的初始。对于较浅的网络,如网络A,可以直接使用随机数进行随机初始化,而对于比较深的网络,则使用前面已经训练好的较浅的网络中的参数值对其前几层的卷积层和最后的全连接层进行初始化。


3.2 VGGNet创新点


1.使用了更小的3×3卷积核,和更深的网络。两个3×3卷积核的堆叠相对于5×5卷积核的视野,三个3×3卷积核的堆叠相当于77卷积核的视野。这样一方面可以有更少的参数(3个堆叠的3×3结构只有77结构参数数量的(3×3×3)/(7×7)=55%);另一方面拥有更多的非线性变换,增加了CNN对特征的学习能力。


2.在VGGNet的卷积结构中,引入1×1的卷积核,在不影响输入输出维度的情况下,引入非线性变换,增加网络的表达能力,降低计算量。


3.训练时,先训练级别简单(层数较浅)的VGGNet的A级网络,然后使用A网络的权重来初始化后面的复杂模型,加快训练的收敛速度。


4.采用了Multi-Scale的方法来训练和预测。可以增加训练的数据量,防止模型过拟合,提升预测准确率。

3.3 实验结论


1.LRN层无用(A和A-LRN)。作者通过网络A和A-LRN发现AlexNet曾经用到的LRN层(local response normalization,LRN是一种跨通道去normalize像素值的方法)没有性能提升,因此在后面的4组网络中均没再出现LRN层。当然我也感觉没啥用,想到max-pooling比average-pooling效果好,我就感觉这个LRN没啥用,不过如果把LRN改成跨通道的max-normal,我感觉说不定会有性能提升。特征得到retain更明显。


2.深度增加,分类性能提高(A、B、C、D、E)。从11层的A到19层的E,网络深度增加对top1和top5的error下降很明显,所以作者得出这个结论,但其实除了深度外,其他几个网络宽度等因素也在变化,depth matters的结论不够convincing。


3.conv1x1的非线性变化有作用(C和D)。C和D网络层数相同,但D将C的3个conv3x3换成了conv1x1,性能提升。这点我理解是,跨通道的信息交换/融合,可以产生丰富的特征易于分类器学习。conv1x1相比conv3x3不会去学习local的局部像素信息,专注于跨通道的信息交换/融合,同时为后面全连接层(全连接层相当于global卷积)做准备,使之学习过程更自然。


4.多小卷积核比单大卷积核性能好(B)。作者做了实验用B和自己一个不在实验组里的较浅网络比较,较浅网络用conv5x5来代替B的两个conv3x3。多个小卷积核比单大卷积核效果好,换句话说当考虑卷积核大小时:depths matters。


f9080a3e12ec4dc1b9271a2f6f3402fb.png

目录
相关文章
|
4天前
|
机器学习/深度学习 并行计算 PyTorch
图像检测【YOLOv5】——深度学习
Anaconda的安装配置:(Anaconda是一个开源的Python发行版本,包括Conda、Python以及很多安装好的工具包,比如:numpy,pandas等,其中conda是一个开源包和环境管理器,可以用于在同一个电脑上安装不同版本的软件包,并且可以在不同环境之间切换,是深度学习的必备平台。) 一.Anaconda安装配置. 1.首先进入官网:https://repo.anaconda.com,选择View All Installers. 2.打开看到的界面是Anaconda的所以安装包版本,Anaconda3就代表是Python3版本,后面跟的是发行日期,我选择了最近的2022
41 28
|
2天前
|
机器学习/深度学习 人工智能 TensorFlow
深度学习入门:理解卷积神经网络(CNN)
【9月更文挑战第14天】本文旨在为初学者提供一个关于卷积神经网络(CNN)的直观理解,通过简单的语言和比喻来揭示这一深度学习模型如何识别图像。我们将一起探索CNN的基本组成,包括卷积层、激活函数、池化层和全连接层,并了解它们如何协同工作以实现图像分类任务。文章末尾将给出一个简单的代码示例,帮助读者更好地理解CNN的工作原理。
15 7
|
3天前
|
机器学习/深度学习 自然语言处理 计算机视觉
深度学习之文本引导的图像编辑
基于深度学习的文本引导的图像编辑(Text-Guided Image Editing)是一种通过自然语言文本指令对图像进行编辑或修改的技术。
21 8
|
5天前
|
机器学习/深度学习 自然语言处理 并行计算
深度学习之图像描述生成
基于深度学习的图像描述生成(Image Captioning)是一种将计算机视觉与自然语言处理结合的任务,其目标是通过自动生成自然语言来描述输入的图像。该技术能够理解图像中的视觉内容,并生成相应的文本描述,广泛应用于视觉问答、辅助盲人、自动视频字幕生成等领域。
20 7
|
1天前
|
机器学习/深度学习 自动驾驶 搜索推荐
深度学习之探索神经网络、感知器与损失函数
在当今的数字化时代,深度学习作为一种强大的机器学习技术,正在迅速改变着我们的生活方式。无论是智能推荐系统、自动驾驶车辆还是语音识别应用,深度学习都在背后默默地发挥作用。
8 1
|
4天前
|
存储 安全 算法
网络安全与信息安全的全方位解析
在现代社会,随着信息技术的飞速发展,网络安全和信息安全问题日益凸显。本文将通过浅显易懂的语言和具体的实例,全面解析网络安全漏洞、加密技术以及安全意识等方面的知识,帮助读者提升对网络安全与信息安全的认知和应对能力。
|
5天前
|
机器学习/深度学习 监控 并行计算
深度学习之生物网络推理
基于深度学习的生物网络推理利用深度学习技术来解析和理解生物网络(如基因调控网络、代谢网络、蛋白质-蛋白质相互作用网络等)的复杂关系和动态行为。
18 5
|
4天前
|
机器学习/深度学习 编解码 自然语言处理
深度学习中的对抗生成网络
本文深入探讨了深度学习中的一种重要模型——对抗生成网络(GAN)。通过详细介绍其基本原理、结构组成以及训练过程,揭示了GAN在数据生成方面的独特优势。同时,文章还讨论了GAN在图像处理、自然语言处理等领域的广泛应用,并指出了其面临的挑战及未来发展方向。
11 2
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的奥秘:深度学习与神经网络
【9月更文挑战第11天】本文将深入探讨人工智能的核心领域——深度学习,以及其背后的神经网络技术。我们将从基础理论出发,逐步深入到实践应用,揭示这一领域的神秘面纱。无论你是AI领域的初学者,还是有一定基础的开发者,都能在这篇文章中获得新的启示和理解。让我们一起踏上这场探索之旅,揭开AI的神秘面纱,体验深度学习的魅力。
|
6天前
|
机器学习/深度学习 人工智能 TensorFlow
深入骨髓的解析:Python中神经网络如何学会‘思考’,解锁AI新纪元
【9月更文挑战第11天】随着科技的发展,人工智能(AI)成为推动社会进步的关键力量,而神经网络作为AI的核心,正以其强大的学习和模式识别能力开启AI新纪元。本文将探讨Python中神经网络的工作原理,并通过示例代码展示其“思考”过程。神经网络模仿生物神经系统,通过加权连接传递信息并优化输出。Python凭借其丰富的科学计算库如TensorFlow和PyTorch,成为神经网络研究的首选语言。
11 1

热门文章

最新文章