深度学习经典网络解析图像分类篇(五):VGG

本文涉及的产品
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
简介:  VGGNet是在ImageNet Challenge 2014在定位和分类过程中分别获得了第一名和第二名的神经网络架构。VGGNet是牛津大学计算机视觉组和DeepMind公司的研究员一起研发的深度卷积神经网络。VGG主要探究了卷积神经网络的深度和其性能之间的关系,通过反复堆叠3×3的小卷积核和2×2的最大池化层,VGGNet成功的搭建了16-19层的深度卷积神经网络。

VGG论文翻译详情见我的博客:

https://blog.csdn.net/muye_IT/article/details/123808935


1.背景介绍


 VGGNet是在ImageNet Challenge 2014在定位和分类过程中分别获得了第一名和第二名的神经网络架构。VGGNet是牛津大学计算机视觉组和DeepMind公司的研究员一起研发的深度卷积神经网络。VGG主要探究了卷积神经网络的深度和其性能之间的关系,通过反复堆叠3×3的小卷积核和2×2的最大池化层,VGGNet成功的搭建了16-19层的深度卷积神经网络。与之前的网络结构相比,错误率大幅度下降;同时,VGG的泛化能力非常好,在不同的图片数据集上都有良好的表现。到目前为止,VGG依然经常被用来提取特征图像。自从2012年AlexNet在ImageNet Challenge大获成功之后,深度学习在人工智能领域再次火热起来,很多模型在此基础上做了大量尝试和改进。主要有两个方向:


  • 卷积核大小的变化:上一篇的ZFNet相对前面的AlexNet在模型上没有大的变化,但是把卷积核的尺寸从11×11变成了7×7


  • 多尺度:训练和测试使用整张图的不同尺度,也就是VGG网络的改进。


506cf44bbbfd4d3e8527e8496d6165c4.png


1.VGG网络与AlexNet网络


aec77f1efc50421787860565bfb70f34.png


VGG网络与AlexNet网络相比:

1.使用尺寸更小的3x3卷积核串联来获得更大的感受野,放弃使用11x11和5x5这样的大尺寸卷积核:


 在VGG中,使用了3个3x3卷积核来代替7x7卷积核,使用了2个3x3卷积核来代替5*5卷积核,这样做的主要目的是在保证具有相同感知野的条件下,提升了网络的深度,在一定程度上提升了神经网络的效果。因为在3个3×3卷积核串联后的的感受野与7×7卷积的感受野是一样的,但是3×3卷积可以得到更多的细节,7×7卷积会忽略一些细节。7×7卷积只是用一次变换就得到某个区域的特征,而3×3卷积是用了三次变换得到某个区域的感受野,这个三次3×3卷积非线性能力更强,那么他的描述能力就更强,他就能学习到更复杂的特征。


 在卷积神经网络中,决定某一层输出结果中一个元素所对应的输入层的区域大小,被称作感受野(receptive field)。通俗的解释是,输出feature map上的一个单元对应输入层上的区域大小。


d9e71a60ef1546b3864d90fe9daf897d.png


感受野计算公式:


F ( i ) = ( F ( i + 1 ) − 1 ) ×  Stride  +  Ksize


F ( i )为第 i 层感受野,

Stride为第 i 层的步距,

Ksize为卷积核或采样核尺寸

Feature map: F = 1

Conv3×3(3): F = ( 1 − 1 ) × 1 + 3 = 3

Conv3x3(2): F = ( 3 − 1 ) × 1 + 3 = 5

Conv3x3(1): F = ( 5 − 1 ) × 1 + 3 = 7


f41f46618e4b46a3a90573ec14ca8499.png


2.深度更深、非线性更强,网络的参数也更少 :


 使用小卷积核串联构建的网络深度更深、非线性更强、参数也更少。

 使用3个3 × 3的卷积:3 × 3 × 𝐶× 𝐶 × 3 = 27𝐶²

 使用1个7 × 7的卷积:7 × 7 ×𝐶 × 𝐶 = 49𝐶²

 3个3 × 3的卷积相比1个7 × 7的卷积参数量少了一半!


aac5ffef89534ba7b74f5742a6c17ced.png


为什么VGG网络前四段里,每经过一次池化操作,卷积核个数就增加一倍?

1.池化操作可以减小特征图尺寸,降低显存占用


2.增加卷积核个数有助于学习更多的结构特征,但会增加网络参数数量以及内存消耗


3.一减一增的设计平衡了识别精度与存储、计算开销


143e1687210549e0b8f1bed86d061fac.png


为什么卷积核个数增加到512后就不再增加了?


1.第一个全连接层含102M参数,占总参数个数的74%;


2.这一层的参数个数是特征图的尺寸与个数的乘积


3.参数过多容易过拟合,且不易被训练


89d4293f00af4f74bb9c04a4e5e759d6.png


3. 去掉了AlexNet中的局部响应归一化层(LRN)层。

27f9b161d094424798e977f19b0755e6.png


2.VGG网络架构


VGG16


  • ➢ 13个卷积层与3个全连接,一共16层;


  • ➢ 分为5段conv1,…,conv5,每一段中卷积层的卷积核个数均相同 ;


  • ➢所有卷积层均采用3x3的卷积核及ReLU激活函数;


  • ➢ 所有的池化层都采用最大池化,其窗口大小为2x2、步长为2;


  • ➢经过一次池化操作,其后卷积层的卷积核个数就增加一倍,直至到达512;


c00989e2a3df48f789231aa0ae078e97.png


2.1 INPUT层


VGGNet的图片预处理


VGG的输入224*224的RGB图像,预处理就是每一个像素减去了所有像素的均值。


data Data
include
  phase: train
transform param
  mirror: true
  crop size: 224
  mean value: 103.939, 116.779, 123.68
data param
  source:
  data/ilsvrc12 shrt 256/ilsvrc12 ftrain_ leveldb
  batch size: 64 
  backend: leveldb
  blob shapes 
  data: [1, 3, 224, 224 ]
  labe:[ 1 ]


2.2 CONV1层(2层卷积)


 输入图像经过两个卷积层,也就是VGG16网络结构十六层当中的第一层(CONV1-1)和第二层(CONV1-2),合称为CONV1。将224x224x3的输入矩阵变成一个224x224x64的矩阵。


CONV1: 64 个3x3 卷积核,步长为 1,padding设置为1


  • 输入:224x224x3 大小的图像


  • 尺寸:(224-3+2×1)/1+1 = 224


  • 卷积核个数:64


  • 输出尺寸:224×224×64 (padding设置为SAME)


第一个卷积层提取了64种结构的响应信息,得到了64个特征相应图; 特征图每个元素经过ReLU函数操作后输出。


conv1 Convolution
param
  Ir mult: 1
  decay mult: 1
  Ir mult: 2
  decay mult: 0
convolution param
  num output: 64
  pad: 1
  kernel size: 3
  weight fller
    type: gaussian
    std: 0.01
  bias fller
    type: constant
    value: 0
blob shapes
  conv1 1:[1, 64, 224, 224]
relu1_ 1 ReLU  InPlace
blob shapes
  conv1 1:[1, 64, 224, 224]


POOL1层


 第二层 (POOL1):池化大小为 2x2,步长为 2,那么得到的矩阵维数刚好为原来的一半


  • 输入:224x224x64 大小的图像


  • 尺寸:(224-2)/2+1 = 112


  • 池化层个数:64


  • 输出尺寸:112×112×64


8e44429d259248908dc2c9a55e362f95.png


2.3 CONV2层 (2层卷积)


 我们从上面的过程中知道了,input为300x300x3的图片,经过第一层之后变成150x150x64,那么第二层里面有128个卷积核,可以推出经过第二层后得到是75x75x128。


CONV2层 (2层卷积): 2个128 通道3x3 卷积核,步长为 1,padding设置为1


  • 输入:112×112×64 大小的图像


  • 尺寸:(112-3+2×1)/1+1 = 112


  • 池化层个数:128


  • 输出尺寸:112×112×128


f782474688344f919f1a9b1fc5dbf99b.png


POOL2层


POOL2层 :池化大小为 2x2,步长为 2


  • 输入:112×112×128 大小的图像


  • 尺寸:(112-2)/2+1 =56


  • 池化层个数:128


  • 输出尺寸:56×56x128


3f8b364c037c49e6888f58136e57b9ac.png


2.4 CONV3层 (3层卷积)


CONV3层 (3层卷积): 3个256 通道的3x3 卷积核,步长为 1,padding设置为1


  • 输入:56x56x128 大小的图像


  • 尺寸:(56-3+2×1)/1+1 = 56


  • 卷积层通道数:256


  • 输出尺寸:56×56×256


50f3d659a8b64acba85ade4a95e2af30.png


POOL3层


POOL3层 :池化大小为 2x2,步长为 2


  • 输入:56×5×6256 大小的图像


  • 尺寸:(56-2)/2+1 = 28


  • 池化层个数:256


  • 输出尺寸:28x28x256


35400ce3f4d64ec9bf38364bad417c55.png


2.5 CONV4层 (3层卷积)


CONV4层 (3层卷积): 3个512 通道的3x3 卷积核,步长为 1,padding设置为1


  • 输入:28x28x256 大小的图像


  • 尺寸:(28-3+2×1)/1+1 = 28


  • 卷积层通道数:512


  • 输出尺寸:28×28×512


1cd87b59f35443ea983962d39a42a4ab.png


POOL4层


POOL4层 :池化大小为 2x2,步长为 2


1.输入:28×28×512 大小的图像


2.尺寸:(28-2)/2+1 =14


3.池化层个数:512


4.输出尺寸:14x14x256


c169b0f7d6cf41e19b264674a35f4d70.png


2.6 CONV5层 (3层卷积)


CONV5层 (3层卷积): 3个512 通道的3x3 卷积核,步长为 1,padding设置为1

5. 输入:14x14x512 大小的图像

6. 尺寸:(14-3+2×1)/1+1 = 14

7. 卷积层通道数:512

8. 输出尺寸:14×14×512


e8586c67a61f4a2b962777febf0b9047.png


POOL5层


POOL4层 :池化大小为 2x2,步长为 2

9. 输入:14×14×512 大小的图像

10. 尺寸:(14-2)/2+1 =7

11. 池化层个数:512

12. 输出尺寸:7x7x512


65ddd8411645452db82c4a7e95c34c83.png


2.7全连接层(3层)


 进入全连接层之前是7x7x512的张量,通过flatten展平后编程25088维的向量,通过fc6全连接层输出后编程4096维的向量,通过去fc7全连接层输出后变成4096维的向量,之后通过 fc8全连接层输出后变成1000维的向量(ImageNet中的类别数量)


8ff9fd2f7512458086d9cd0fdd6f184c.png1b027d6b26db4e1fbe5cb0a2f3a4bc83.png


3. VGG总结


3.1 VGG的多尺度训练


 VGGNet使用了Multi-Scale的方法做数据增强,将原始图像缩放到不同尺寸S,然后再随机裁切224′224的图片,这样能增加很多数据量,对于防止模型过拟合有很不错的效果。实践中,作者令S在[256,512]这个区间内取值,使用Multi-Scale获得多个版本的数据,并将多个版本的数据合在一起进行训练。VGG作者在尝试使用LRN之后认为LRN的作用不大,还导致了内存消耗和计算时间增加。


虽然网络层数加深,但VGG在训练的过程中比AlexNet收敛的要快一些,主要因为:


1.使用小卷积核和更深的网络进行的正则化


2.在特定的层使用了预训练得到的数据进行参数的初始。对于较浅的网络,如网络A,可以直接使用随机数进行随机初始化,而对于比较深的网络,则使用前面已经训练好的较浅的网络中的参数值对其前几层的卷积层和最后的全连接层进行初始化。


3.2 VGGNet创新点


1.使用了更小的3×3卷积核,和更深的网络。两个3×3卷积核的堆叠相对于5×5卷积核的视野,三个3×3卷积核的堆叠相当于77卷积核的视野。这样一方面可以有更少的参数(3个堆叠的3×3结构只有77结构参数数量的(3×3×3)/(7×7)=55%);另一方面拥有更多的非线性变换,增加了CNN对特征的学习能力。


2.在VGGNet的卷积结构中,引入1×1的卷积核,在不影响输入输出维度的情况下,引入非线性变换,增加网络的表达能力,降低计算量。


3.训练时,先训练级别简单(层数较浅)的VGGNet的A级网络,然后使用A网络的权重来初始化后面的复杂模型,加快训练的收敛速度。


4.采用了Multi-Scale的方法来训练和预测。可以增加训练的数据量,防止模型过拟合,提升预测准确率。

3.3 实验结论


1.LRN层无用(A和A-LRN)。作者通过网络A和A-LRN发现AlexNet曾经用到的LRN层(local response normalization,LRN是一种跨通道去normalize像素值的方法)没有性能提升,因此在后面的4组网络中均没再出现LRN层。当然我也感觉没啥用,想到max-pooling比average-pooling效果好,我就感觉这个LRN没啥用,不过如果把LRN改成跨通道的max-normal,我感觉说不定会有性能提升。特征得到retain更明显。


2.深度增加,分类性能提高(A、B、C、D、E)。从11层的A到19层的E,网络深度增加对top1和top5的error下降很明显,所以作者得出这个结论,但其实除了深度外,其他几个网络宽度等因素也在变化,depth matters的结论不够convincing。


3.conv1x1的非线性变化有作用(C和D)。C和D网络层数相同,但D将C的3个conv3x3换成了conv1x1,性能提升。这点我理解是,跨通道的信息交换/融合,可以产生丰富的特征易于分类器学习。conv1x1相比conv3x3不会去学习local的局部像素信息,专注于跨通道的信息交换/融合,同时为后面全连接层(全连接层相当于global卷积)做准备,使之学习过程更自然。


4.多小卷积核比单大卷积核性能好(B)。作者做了实验用B和自己一个不在实验组里的较浅网络比较,较浅网络用conv5x5来代替B的两个conv3x3。多个小卷积核比单大卷积核效果好,换句话说当考虑卷积核大小时:depths matters。


f9080a3e12ec4dc1b9271a2f6f3402fb.png

目录
相关文章
|
8天前
|
监控 安全 网络安全
深入解析PDCERF:网络安全应急响应的六阶段方法
PDCERF是网络安全应急响应的六阶段方法,涵盖准备、检测、抑制、根除、恢复和跟进。本文详细解析各阶段目标与操作步骤,并附图例,助读者理解与应用,提升组织应对安全事件的能力。
158 89
|
8天前
|
机器学习/深度学习 传感器 人工智能
穹彻智能-上交大最新Nature子刊速递:解析深度学习驱动的视触觉动态重建方案
上海交大研究团队在Nature子刊发表论文,提出基于深度学习的视触觉动态重建方案,结合高密度可拉伸触觉手套与视觉-触觉联合学习框架,实现手部与物体间力量型交互的实时捕捉和重建。该方案包含1152个触觉感知单元,通过应变干扰抑制方法提高测量准确性,平均重建误差仅1.8厘米。实验结果显示,其在物体重建的准确性和鲁棒性方面优于现有方法,为虚拟现实、远程医疗等领域带来新突破。
44 32
|
1月前
|
机器学习/深度学习 人工智能 算法
深入解析图神经网络:Graph Transformer的算法基础与工程实践
Graph Transformer是一种结合了Transformer自注意力机制与图神经网络(GNNs)特点的神经网络模型,专为处理图结构数据而设计。它通过改进的数据表示方法、自注意力机制、拉普拉斯位置编码、消息传递与聚合机制等核心技术,实现了对图中节点间关系信息的高效处理及长程依赖关系的捕捉,显著提升了图相关任务的性能。本文详细解析了Graph Transformer的技术原理、实现细节及应用场景,并通过图书推荐系统的实例,展示了其在实际问题解决中的强大能力。
232 30
|
1月前
|
网络协议
TCP报文格式全解析:网络小白变高手的必读指南
本文深入解析TCP报文格式,涵盖源端口、目的端口、序号、确认序号、首部长度、标志字段、窗口大小、检验和、紧急指针及选项字段。每个字段的作用和意义详尽说明,帮助理解TCP协议如何确保可靠的数据传输,是互联网通信的基石。通过学习这些内容,读者可以更好地掌握TCP的工作原理及其在网络中的应用。
|
1月前
|
网络协议 安全 网络安全
探索网络模型与协议:从OSI到HTTPs的原理解析
OSI七层网络模型和TCP/IP四层模型是理解和设计计算机网络的框架。OSI模型包括物理层、数据链路层、网络层、传输层、会话层、表示层和应用层,而TCP/IP模型则简化为链路层、网络层、传输层和 HTTPS协议基于HTTP并通过TLS/SSL加密数据,确保安全传输。其连接过程涉及TCP三次握手、SSL证书验证、对称密钥交换等步骤,以保障通信的安全性和完整性。数字信封技术使用非对称加密和数字证书确保数据的机密性和身份认证。 浏览器通过Https访问网站的过程包括输入网址、DNS解析、建立TCP连接、发送HTTPS请求、接收响应、验证证书和解析网页内容等步骤,确保用户与服务器之间的安全通信。
112 3
|
1月前
|
存储 监控 网络协议
一次读懂网络分层:应用层到物理层全解析
网络模型分为五层结构,从应用层到物理层逐层解析。应用层提供HTTP、SMTP、DNS等常见协议;传输层通过TCP和UDP确保数据可靠或高效传输;网络层利用IP和路由器实现跨网数据包路由;数据链路层通过MAC地址管理局域网设备;物理层负责比特流的物理传输。各层协同工作,使网络通信得以实现。
|
1月前
|
SQL 安全 算法
网络安全之盾:漏洞防御与加密技术解析
在数字时代的浪潮中,网络安全和信息安全成为维护个人隐私和企业资产的重要防线。本文将深入探讨网络安全的薄弱环节—漏洞,并分析如何通过加密技术来加固这道防线。文章还将分享提升安全意识的重要性,以预防潜在的网络威胁,确保数据的安全与隐私。
81 2
|
2月前
|
安全 算法 网络安全
网络安全的盾牌与剑:漏洞防御与加密技术深度解析
在数字信息的海洋中,网络安全是航行者不可或缺的指南针。本文将深入探讨网络安全的两大支柱——漏洞防御和加密技术,揭示它们如何共同构筑起信息时代的安全屏障。从最新的网络攻击手段到防御策略,再到加密技术的奥秘,我们将一起揭开网络安全的神秘面纱,理解其背后的科学原理,并掌握保护个人和企业数据的关键技能。
100 3
|
2月前
|
网络协议
网络通信的基石:TCP/IP协议栈的层次结构解析
在现代网络通信中,TCP/IP协议栈是构建互联网的基础。它定义了数据如何在网络中传输,以及如何确保数据的完整性和可靠性。本文将深入探讨TCP/IP协议栈的层次结构,揭示每一层的功能和重要性。
92 5
|
2月前
|
监控 网络协议 网络性能优化
网络通信的核心选择:TCP与UDP协议深度解析
在网络通信领域,TCP(传输控制协议)和UDP(用户数据报协议)是两种基础且截然不同的传输层协议。它们各自的特点和适用场景对于网络工程师和开发者来说至关重要。本文将深入探讨TCP和UDP的核心区别,并分析它们在实际应用中的选择依据。
82 3

热门文章

最新文章