深度学习经典网络解析图像分类篇(五):VGG

简介:  VGGNet是在ImageNet Challenge 2014在定位和分类过程中分别获得了第一名和第二名的神经网络架构。VGGNet是牛津大学计算机视觉组和DeepMind公司的研究员一起研发的深度卷积神经网络。VGG主要探究了卷积神经网络的深度和其性能之间的关系,通过反复堆叠3×3的小卷积核和2×2的最大池化层,VGGNet成功的搭建了16-19层的深度卷积神经网络。

VGG论文翻译详情见我的博客:

https://blog.csdn.net/muye_IT/article/details/123808935


1.背景介绍


 VGGNet是在ImageNet Challenge 2014在定位和分类过程中分别获得了第一名和第二名的神经网络架构。VGGNet是牛津大学计算机视觉组和DeepMind公司的研究员一起研发的深度卷积神经网络。VGG主要探究了卷积神经网络的深度和其性能之间的关系,通过反复堆叠3×3的小卷积核和2×2的最大池化层,VGGNet成功的搭建了16-19层的深度卷积神经网络。与之前的网络结构相比,错误率大幅度下降;同时,VGG的泛化能力非常好,在不同的图片数据集上都有良好的表现。到目前为止,VGG依然经常被用来提取特征图像。自从2012年AlexNet在ImageNet Challenge大获成功之后,深度学习在人工智能领域再次火热起来,很多模型在此基础上做了大量尝试和改进。主要有两个方向:


  • 卷积核大小的变化:上一篇的ZFNet相对前面的AlexNet在模型上没有大的变化,但是把卷积核的尺寸从11×11变成了7×7


  • 多尺度:训练和测试使用整张图的不同尺度,也就是VGG网络的改进。


506cf44bbbfd4d3e8527e8496d6165c4.png


1.VGG网络与AlexNet网络


aec77f1efc50421787860565bfb70f34.png


VGG网络与AlexNet网络相比:

1.使用尺寸更小的3x3卷积核串联来获得更大的感受野,放弃使用11x11和5x5这样的大尺寸卷积核:


 在VGG中,使用了3个3x3卷积核来代替7x7卷积核,使用了2个3x3卷积核来代替5*5卷积核,这样做的主要目的是在保证具有相同感知野的条件下,提升了网络的深度,在一定程度上提升了神经网络的效果。因为在3个3×3卷积核串联后的的感受野与7×7卷积的感受野是一样的,但是3×3卷积可以得到更多的细节,7×7卷积会忽略一些细节。7×7卷积只是用一次变换就得到某个区域的特征,而3×3卷积是用了三次变换得到某个区域的感受野,这个三次3×3卷积非线性能力更强,那么他的描述能力就更强,他就能学习到更复杂的特征。


 在卷积神经网络中,决定某一层输出结果中一个元素所对应的输入层的区域大小,被称作感受野(receptive field)。通俗的解释是,输出feature map上的一个单元对应输入层上的区域大小。


d9e71a60ef1546b3864d90fe9daf897d.png


感受野计算公式:


F ( i ) = ( F ( i + 1 ) − 1 ) ×  Stride  +  Ksize


F ( i )为第 i 层感受野,

Stride为第 i 层的步距,

Ksize为卷积核或采样核尺寸

Feature map: F = 1

Conv3×3(3): F = ( 1 − 1 ) × 1 + 3 = 3

Conv3x3(2): F = ( 3 − 1 ) × 1 + 3 = 5

Conv3x3(1): F = ( 5 − 1 ) × 1 + 3 = 7


f41f46618e4b46a3a90573ec14ca8499.png


2.深度更深、非线性更强,网络的参数也更少 :


 使用小卷积核串联构建的网络深度更深、非线性更强、参数也更少。

 使用3个3 × 3的卷积:3 × 3 × 𝐶× 𝐶 × 3 = 27𝐶²

 使用1个7 × 7的卷积:7 × 7 ×𝐶 × 𝐶 = 49𝐶²

 3个3 × 3的卷积相比1个7 × 7的卷积参数量少了一半!


aac5ffef89534ba7b74f5742a6c17ced.png


为什么VGG网络前四段里,每经过一次池化操作,卷积核个数就增加一倍?

1.池化操作可以减小特征图尺寸,降低显存占用


2.增加卷积核个数有助于学习更多的结构特征,但会增加网络参数数量以及内存消耗


3.一减一增的设计平衡了识别精度与存储、计算开销


143e1687210549e0b8f1bed86d061fac.png


为什么卷积核个数增加到512后就不再增加了?


1.第一个全连接层含102M参数,占总参数个数的74%;


2.这一层的参数个数是特征图的尺寸与个数的乘积


3.参数过多容易过拟合,且不易被训练


89d4293f00af4f74bb9c04a4e5e759d6.png


3. 去掉了AlexNet中的局部响应归一化层(LRN)层。

27f9b161d094424798e977f19b0755e6.png


2.VGG网络架构


VGG16


  • ➢ 13个卷积层与3个全连接,一共16层;


  • ➢ 分为5段conv1,…,conv5,每一段中卷积层的卷积核个数均相同 ;


  • ➢所有卷积层均采用3x3的卷积核及ReLU激活函数;


  • ➢ 所有的池化层都采用最大池化,其窗口大小为2x2、步长为2;


  • ➢经过一次池化操作,其后卷积层的卷积核个数就增加一倍,直至到达512;


c00989e2a3df48f789231aa0ae078e97.png


2.1 INPUT层


VGGNet的图片预处理


VGG的输入224*224的RGB图像,预处理就是每一个像素减去了所有像素的均值。


data Data
include
  phase: train
transform param
  mirror: true
  crop size: 224
  mean value: 103.939, 116.779, 123.68
data param
  source:
  data/ilsvrc12 shrt 256/ilsvrc12 ftrain_ leveldb
  batch size: 64 
  backend: leveldb
  blob shapes 
  data: [1, 3, 224, 224 ]
  labe:[ 1 ]


2.2 CONV1层(2层卷积)


 输入图像经过两个卷积层,也就是VGG16网络结构十六层当中的第一层(CONV1-1)和第二层(CONV1-2),合称为CONV1。将224x224x3的输入矩阵变成一个224x224x64的矩阵。


CONV1: 64 个3x3 卷积核,步长为 1,padding设置为1


  • 输入:224x224x3 大小的图像


  • 尺寸:(224-3+2×1)/1+1 = 224


  • 卷积核个数:64


  • 输出尺寸:224×224×64 (padding设置为SAME)


第一个卷积层提取了64种结构的响应信息,得到了64个特征相应图; 特征图每个元素经过ReLU函数操作后输出。


conv1 Convolution
param
  Ir mult: 1
  decay mult: 1
  Ir mult: 2
  decay mult: 0
convolution param
  num output: 64
  pad: 1
  kernel size: 3
  weight fller
    type: gaussian
    std: 0.01
  bias fller
    type: constant
    value: 0
blob shapes
  conv1 1:[1, 64, 224, 224]
relu1_ 1 ReLU  InPlace
blob shapes
  conv1 1:[1, 64, 224, 224]


POOL1层


 第二层 (POOL1):池化大小为 2x2,步长为 2,那么得到的矩阵维数刚好为原来的一半


  • 输入:224x224x64 大小的图像


  • 尺寸:(224-2)/2+1 = 112


  • 池化层个数:64


  • 输出尺寸:112×112×64


8e44429d259248908dc2c9a55e362f95.png


2.3 CONV2层 (2层卷积)


 我们从上面的过程中知道了,input为300x300x3的图片,经过第一层之后变成150x150x64,那么第二层里面有128个卷积核,可以推出经过第二层后得到是75x75x128。


CONV2层 (2层卷积): 2个128 通道3x3 卷积核,步长为 1,padding设置为1


  • 输入:112×112×64 大小的图像


  • 尺寸:(112-3+2×1)/1+1 = 112


  • 池化层个数:128


  • 输出尺寸:112×112×128


f782474688344f919f1a9b1fc5dbf99b.png


POOL2层


POOL2层 :池化大小为 2x2,步长为 2


  • 输入:112×112×128 大小的图像


  • 尺寸:(112-2)/2+1 =56


  • 池化层个数:128


  • 输出尺寸:56×56x128


3f8b364c037c49e6888f58136e57b9ac.png


2.4 CONV3层 (3层卷积)


CONV3层 (3层卷积): 3个256 通道的3x3 卷积核,步长为 1,padding设置为1


  • 输入:56x56x128 大小的图像


  • 尺寸:(56-3+2×1)/1+1 = 56


  • 卷积层通道数:256


  • 输出尺寸:56×56×256


50f3d659a8b64acba85ade4a95e2af30.png


POOL3层


POOL3层 :池化大小为 2x2,步长为 2


  • 输入:56×5×6256 大小的图像


  • 尺寸:(56-2)/2+1 = 28


  • 池化层个数:256


  • 输出尺寸:28x28x256


35400ce3f4d64ec9bf38364bad417c55.png


2.5 CONV4层 (3层卷积)


CONV4层 (3层卷积): 3个512 通道的3x3 卷积核,步长为 1,padding设置为1


  • 输入:28x28x256 大小的图像


  • 尺寸:(28-3+2×1)/1+1 = 28


  • 卷积层通道数:512


  • 输出尺寸:28×28×512


1cd87b59f35443ea983962d39a42a4ab.png


POOL4层


POOL4层 :池化大小为 2x2,步长为 2


1.输入:28×28×512 大小的图像


2.尺寸:(28-2)/2+1 =14


3.池化层个数:512


4.输出尺寸:14x14x256


c169b0f7d6cf41e19b264674a35f4d70.png


2.6 CONV5层 (3层卷积)


CONV5层 (3层卷积): 3个512 通道的3x3 卷积核,步长为 1,padding设置为1

5. 输入:14x14x512 大小的图像

6. 尺寸:(14-3+2×1)/1+1 = 14

7. 卷积层通道数:512

8. 输出尺寸:14×14×512


e8586c67a61f4a2b962777febf0b9047.png


POOL5层


POOL4层 :池化大小为 2x2,步长为 2

9. 输入:14×14×512 大小的图像

10. 尺寸:(14-2)/2+1 =7

11. 池化层个数:512

12. 输出尺寸:7x7x512


65ddd8411645452db82c4a7e95c34c83.png


2.7全连接层(3层)


 进入全连接层之前是7x7x512的张量,通过flatten展平后编程25088维的向量,通过fc6全连接层输出后编程4096维的向量,通过去fc7全连接层输出后变成4096维的向量,之后通过 fc8全连接层输出后变成1000维的向量(ImageNet中的类别数量)


8ff9fd2f7512458086d9cd0fdd6f184c.png1b027d6b26db4e1fbe5cb0a2f3a4bc83.png


3. VGG总结


3.1 VGG的多尺度训练


 VGGNet使用了Multi-Scale的方法做数据增强,将原始图像缩放到不同尺寸S,然后再随机裁切224′224的图片,这样能增加很多数据量,对于防止模型过拟合有很不错的效果。实践中,作者令S在[256,512]这个区间内取值,使用Multi-Scale获得多个版本的数据,并将多个版本的数据合在一起进行训练。VGG作者在尝试使用LRN之后认为LRN的作用不大,还导致了内存消耗和计算时间增加。


虽然网络层数加深,但VGG在训练的过程中比AlexNet收敛的要快一些,主要因为:


1.使用小卷积核和更深的网络进行的正则化


2.在特定的层使用了预训练得到的数据进行参数的初始。对于较浅的网络,如网络A,可以直接使用随机数进行随机初始化,而对于比较深的网络,则使用前面已经训练好的较浅的网络中的参数值对其前几层的卷积层和最后的全连接层进行初始化。


3.2 VGGNet创新点


1.使用了更小的3×3卷积核,和更深的网络。两个3×3卷积核的堆叠相对于5×5卷积核的视野,三个3×3卷积核的堆叠相当于77卷积核的视野。这样一方面可以有更少的参数(3个堆叠的3×3结构只有77结构参数数量的(3×3×3)/(7×7)=55%);另一方面拥有更多的非线性变换,增加了CNN对特征的学习能力。


2.在VGGNet的卷积结构中,引入1×1的卷积核,在不影响输入输出维度的情况下,引入非线性变换,增加网络的表达能力,降低计算量。


3.训练时,先训练级别简单(层数较浅)的VGGNet的A级网络,然后使用A网络的权重来初始化后面的复杂模型,加快训练的收敛速度。


4.采用了Multi-Scale的方法来训练和预测。可以增加训练的数据量,防止模型过拟合,提升预测准确率。

3.3 实验结论


1.LRN层无用(A和A-LRN)。作者通过网络A和A-LRN发现AlexNet曾经用到的LRN层(local response normalization,LRN是一种跨通道去normalize像素值的方法)没有性能提升,因此在后面的4组网络中均没再出现LRN层。当然我也感觉没啥用,想到max-pooling比average-pooling效果好,我就感觉这个LRN没啥用,不过如果把LRN改成跨通道的max-normal,我感觉说不定会有性能提升。特征得到retain更明显。


2.深度增加,分类性能提高(A、B、C、D、E)。从11层的A到19层的E,网络深度增加对top1和top5的error下降很明显,所以作者得出这个结论,但其实除了深度外,其他几个网络宽度等因素也在变化,depth matters的结论不够convincing。


3.conv1x1的非线性变化有作用(C和D)。C和D网络层数相同,但D将C的3个conv3x3换成了conv1x1,性能提升。这点我理解是,跨通道的信息交换/融合,可以产生丰富的特征易于分类器学习。conv1x1相比conv3x3不会去学习local的局部像素信息,专注于跨通道的信息交换/融合,同时为后面全连接层(全连接层相当于global卷积)做准备,使之学习过程更自然。


4.多小卷积核比单大卷积核性能好(B)。作者做了实验用B和自己一个不在实验组里的较浅网络比较,较浅网络用conv5x5来代替B的两个conv3x3。多个小卷积核比单大卷积核效果好,换句话说当考虑卷积核大小时:depths matters。


f9080a3e12ec4dc1b9271a2f6f3402fb.png

目录
打赏
0
0
0
0
12
分享
相关文章
网管不再抓头发:深度学习教你提前发现网络事故
网管不再抓头发:深度学习教你提前发现网络事故
54 2
NTP网络子钟的技术架构与行业应用解析
在数字化与智能化时代,时间同步精度至关重要。西安同步电子科技有限公司专注时间频率领域,以“同步天下”品牌提供可靠解决方案。其明星产品SYN6109型NTP网络子钟基于网络时间协议,实现高精度时间同步,广泛应用于考场、医院、智慧场景等领域。公司坚持技术创新,产品通过权威认证,未来将结合5G、物联网等技术推动行业进步,引领精准时间管理新时代。
中药材图像识别数据集(100类,9200张)|适用于YOLO系列深度学习分类检测任务
本数据集包含9200张中药材图像,覆盖100类常见中药材,适用于YOLO系列及主流深度学习模型的图像分类与目标检测任务。数据已划分为训练集(8000张)与验证集(1200张),采用标准文件夹结构和简体中文命名,适配PyTorch、TensorFlow等框架,可用于中药识别系统开发、医学辅助诊断、移动端图像识别App研发及AI科研训练,具备较强的实用性与拓展性。
94 1
深度解析:基于卷积神经网络的宠物识别
宠物识别技术随着饲养规模扩大而兴起,传统手段存在局限性,基于卷积神经网络的宠物识别技术应运而生。快瞳AI通过优化MobileNet-SSD架构、多尺度特征融合及动态网络剪枝等技术,实现高效精准识别。其在智能家居、宠物医疗和防走失领域展现广泛应用前景,为宠物管理带来智能化解决方案,推动行业迈向新高度。
用深度学习提升DOM解析——自动提取页面关键区块
本文介绍了一次二手车数据爬虫事故的解决过程,从传统XPath方案失效到结合深度学习语义提取的成功实践。面对懂车帝平台的前端异步渲染和复杂DOM结构,通过Playwright动态渲染、代理IP隐藏身份,以及BERT模型对HTML块级语义识别,实现了稳定高效的字段提取。此方法抗结构变化能力强,适用于复杂网页数据采集,如二手车、新闻等领域。架构演进从静态爬虫到动态爬虫再到语义解析,显著提升效率与稳定性。
79 13
用深度学习提升DOM解析——自动提取页面关键区块
|
2月前
|
广播域与冲突域:解析网络技术中的复杂性。
总的来说,理解广播域和冲突域的概念可以使我们在设计或维护网络的过程中,更有效地管理通信流程,避免出现网络瓶颈,提成整体网络性能。就像是如何有效地运作一个市场,把每个人的需求和在合适的时间和地点配对,确保每个人的声音都被听到,每个人的需求都被满足。
58 11
图神经网络在信息检索重排序中的应用:原理、架构与Python代码解析
本文探讨了基于图的重排序方法在信息检索领域的应用与前景。传统两阶段检索架构中,初始检索速度快但结果可能含噪声,重排序阶段通过强大语言模型提升精度,但仍面临复杂需求挑战
90 0
图神经网络在信息检索重排序中的应用:原理、架构与Python代码解析
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
83 8
5G网络安全全解析——新机遇与潜在风险
5G网络安全全解析——新机遇与潜在风险
121 4
|
3月前
|
网络问题解析:如何解决CondaHTTPError HTTP 000 CONNECTION FAILED错误。
以上就是斯诺普为你准备的解决Conda出现HTTP连接错误的手术室。希望这辆小车可以顺利驶出棘手的泥潭,再次在自由的大路上疾驰。一切的尝试和努力,只为更好的探索与开发。
145 17

热门文章

最新文章

推荐镜像

更多
  • DNS
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等

    登录插画

    登录以查看您的控制台资源

    管理云资源
    状态一览
    快捷访问