深度学习经典网络解析图像分类篇(一):LeNet-5

简介: LeNet-5,这篇是由LeCun和Bengio在1998年撰写的论文(LeCun和Bengio和Hitton成被称为深度学习三巨头,在2018年一起获得图灵奖)。

1.背景介绍


 LeNet-5,这篇是由LeCun和Bengio在1998年撰写的论文(LeCun和Bengio和Hitton成被称为深度学习三巨头,在2018年一起获得图灵奖)。LeNet-5创造了卷积神经网络(Convolutional Neural Networks, CNN),基本上为CNN在2012年以后的爆发奠定了基调。当初LeNet-5的设计主要是为了帮美国邮政局解决手写识别支票的问题。那时传统的识别方案很多特征都是hand-crafted,识别的准确率很大程度上受制于所设计的特征,而且最大的问题在于手动设计特征对领域性先验知识的要求很高还耗时耗力,更别谈什么泛化能力,基本上只能针对特定领域。现在在美国,给别人付钱,大部分是写一个check,就下面这个东西


c905d475b72b48dba42de22d89638cfb.png


 在在美国邮政局是一个非常非常大的一个机构,他现在的地位越来越低了,这个邮政局反正这个是算政府部门,然后是一个特别重要的一个部门,所以当年他确实是有很大的话语权呢,你像美国选举这个需要通过邮政局投票。然后这个模型确实在80年代末期在银行行业,在邮递行业确实是被一直被应用,所以这也是为什么LeNet-5有名。


2.LeNet-5网络架构


d8285052e0c54e23a06bf36d6602bd0c.png


 LeNet每一层执行的效果如下:


5061e0ae0079471190e8ed82a39cc2f5.png


2.1输入层


 首先通过尺寸归一化,把输入图像全部转化成32×32大小。


2.2第一层-卷积层C1


f24159f86bcb4964be5e2bc18c001a51.png


 在介绍LeNet网络时,我们首先要了解图像是如何在网络中表示的。在LeNet网络中,输入图像是手写字符,图像的表示形式为二维数据矩阵,如下图所示:


a07d2d2643b09a03dd4a44644357a6c9.gif


LeNet网络总共有六层网络(不包含输入输出层)。第一层是卷积层(图中C1层):


  • 输入图像的大小为32×32


  • 卷积核kernel size的大小为5×5


  • 卷积核数量为6个


  • 输出featuremap大小:28×28 (28通过32-5+1计算得到,公式详情百度原理)


  • 神经元数量:28×28×6


  • 训练参数:(5×5+1)×6=156 由于参数(权值)共享的原因,对于同个卷积核每个神经元均使用相同的参数,因此,参数个数为(5×5+1)×6= 156,其中5×5为卷积核参数,1为偏置参数.


  • 连接数:训练参数×输出featuremap大小=(5×5+1)×6×28×28=122304


 卷积的作用主要是:通过卷积运算,可以使原信号特征增强,降低噪音。在图像上卷积之后主要是减少图像噪声,提取图像的特征。


 卷积网络能很好地适应图像的平移不变性:例如稍稍移动一幅猫的图像,它仍然是一幅猫的图像。卷积操作保留了图像块之间的空间信息,进行卷积操作的图像块之间的相对位置关系没有改变


图像在不同卷积核上进行卷积之后的效果图如下:


29ab32b3543c40b18b701d13ce0a7d43.png


卷积操作如下面两幅图所示:


c9eb22f616033d7c01c06ffdac37e7c8.gif


2.3第二层-池化层S2(下采样)


777d4be85b76495cbcf1dfdae92fd10f.png


  • 池化层的输入大小:28×28


  • 池化大小:2×2


  • 池化层数:6


  • 输出featureMap大小:14×14


  • 神经元数量:14×14×6


  • 训练参数:2×6


  • 连接数:(2×2+1)×6×14×14


 池化层的作用是征映射(特征降维)。如果池化单元为2×2,6个特征图的大小经池化后从28×28变为14×14。为什么池化后大小减半?因为在本文的池化单元之间没有重叠(有的时候池化单元会重叠),在池化区域内进行聚合统计后得到新的特征值,因此经2×2池化后,每两行两列重新算出一个特征值出来,相当于图像大小减半,因此卷积后的28×28图像经2×2池化后就变为14×14。


 池化层的计算过程:2×2 单元里的值相加,然后再乘以训练参数w,再加上一个偏置参数b(每一个特征图共享相同的w和b),然后取sigmoid值(S函数:0-1区间),作为对应的该单元的值。


d271e091c6c443868b72ac6e52434881.png


池化示意图如下:


6fdbdf3335424d30b3ed08d3f3ac8b07.png


2.3第三层-卷积层C3


48c78a0564034b96badd2821e8feb342.png


  • 卷积层C3输入:S2中6个特征图组合


  • 卷积核大小:5×5


  • 卷积核个数:16


  • 输出featureMap大小:10×10 (14-5+1)=10


  • 训练参数:6×(3×5×5+1)+6×(4×5×5+1)+3×(4×5×5+1)+1×(6×5×5+1)=1516(计算原理见额外处理)


  • 连接数:10×10×1516=151600


 第三层的输入为14×14的6个feature map,卷积核大小为5×5,因此卷积之后输出的feature map大小为10×10。但是由于卷积核有16个,所以希望输出的feature map也为16个,但由于输入只有6个feature map,因此需要进行额外的处理。输入的6个feature map与输出的16个feature map的关系图如下:


db2e7e8f3e5440cf911522861b76732d.png


额外处理:


 C3的前6个feature map(上图红框1的6列)与S2层相连的3个feature map相连接(上图红框1的某相邻的3行),后面6个feature map(上图红框2的6列)与S2层相连的4个feature map相连接(上图红框2的某相邻的4行),后面3个feature map(上图红框3的3列)与S2层部分不相连的4个feature map(上图红框3的某不相邻的4行)相连接,最后一个(上图红框4)与S2层的所有feature map(上图红框4的所有行)相连。


第四层-池化层S4


699d663f91fb43f184f37141723e39b3.png


操作S2的类似


  • 输入:上一次C3的输出10×10特征图


  • 池化大小:2×2


  • 池化个数:16


  • 输出featureMap大小:**5×5 **


  • 神经元数量:5×5×16=400


  • 可训练参数:2×16=32


  • 连接数:16×(2×2+1)×5×5=2000


第五层-卷积层C5


d335b896a0a54da8b51d61e187bbba85.png


  • 输入:S4层的全部16个5×5特征图


  • 卷积核大小:5×5


  • 卷积核种类:120


  • 输出featureMap大小:1×1(通过5-5+1=1得到)


  • 可训练参数/连接:120×(16×5×5+1)=48120


 卷积核数目为120个,大小为5×5,由于第四层输出的特征图大小为5×5,因此第五层也可以看成全连接层,输出为120个大小为1×1的特征图。


第六层-全连接层F6


2a8ddf70fa4d48c384fea2730ac08837.png


  • 输入:上一层C5输出的120维1×1的向量


  • 输出大小:84


  • 训练参数数目:(120+1)×84=10164


  • 连接数:(120+1)×84=10164


 第六层是全连接层。F6层有84个节点,对应于一个7x12的比特图,-1表示白色,1表示黑色,这样每个符号的比特图的黑白色就对应于一个编码。该层的训练参数和连接数是(120 + 1)x84=10164。


输出层-Output层


875d9dc7980f4689929ca908478694df.png


 Output层也是全连接层,共有10个节点,分别代表数字0到9。如果第i个节点的值为0,则表示网络识别的结果是数字i。采用的是径向基函数(RBF)的网络连接方式。假设x是上一层的输入,y是RBF的输出,则RBF输出的计算方式是:


2f397789e1424781aa5b02f9cca828bb.png


这公式是什么意思呢?


 首先我们应该明白径向基神经网络:它基于距离进行衡量两个数据的相近程度的,RBF网最显著的特点是隐节点采用输人模式与中心向量的距离(如欧氏距离)作为函数的自变量,并使用径向基函数(如函数)作为激活函数。径向基函数关于N维空间的一个中心点具有径向对称性,而且神经元的输人离该中心点越远,神经元的激活程度就越低。上式是基于欧几里得距离,怎么理解那个式子呢?就是说F6层为84个输入用表示X_i,输出有10个用表示y_i,而权值W_ji使用,上式说明所有输入和权值的距离平方和为依据判断,如果越相近距离越小,输出越小则去哪个,如果我们存储的到W_ji的值为标准的输出.


46baed5da81b44a48e219495333ad214.png


 如标准的手写体0,1,2,3等,那么最后一层就说明。F6层和标准的作比较,和标准的那个图形越相似就说明就越是那个字符的可能性更大。我们看看标准的是什么样的:


ee1653fd5fb54371b9610524a07e706a.png


 上图标准的每个字符都是像素都是12x7=84。这就是解释了为什么F6层的神经元为84个,因为他要把所有像素点和标准的比较在进行判断,因此从这里也可以看出,这里不仅仅可以训练手写体数字,也可以识别其他字符。


3.LeNet-5识别数字3的过程


7522ccab28ae44859b292a2ec6ea86ba.png


03f187cae39245309d9367a76473621f.png

目录
相关文章
|
9月前
|
机器学习/深度学习 存储 人工智能
深度解析大模型压缩技术:搞懂深度学习中的减枝、量化、知识蒸馏
本文系统解析深度学习模型压缩三大核心技术:剪枝、量化与知识蒸馏,详解如何实现模型缩小16倍、推理加速4倍。涵盖技术原理、工程实践与组合策略,助力AI模型高效部署至边缘设备。
1704 2
|
12月前
|
机器学习/深度学习 数据采集 JavaScript
用深度学习提升DOM解析——自动提取页面关键区块
本文介绍了一次二手车数据爬虫事故的解决过程,从传统XPath方案失效到结合深度学习语义提取的成功实践。面对懂车帝平台的前端异步渲染和复杂DOM结构,通过Playwright动态渲染、代理IP隐藏身份,以及BERT模型对HTML块级语义识别,实现了稳定高效的字段提取。此方法抗结构变化能力强,适用于复杂网页数据采集,如二手车、新闻等领域。架构演进从静态爬虫到动态爬虫再到语义解析,显著提升效率与稳定性。
415 13
用深度学习提升DOM解析——自动提取页面关键区块
|
监控 安全 网络安全
深入解析PDCERF:网络安全应急响应的六阶段方法
PDCERF是网络安全应急响应的六阶段方法,涵盖准备、检测、抑制、根除、恢复和跟进。本文详细解析各阶段目标与操作步骤,并附图例,助读者理解与应用,提升组织应对安全事件的能力。
2385 89
|
12月前
|
网络协议 安全 Devops
Infoblox DDI (NIOS) 9.0 - DNS、DHCP 和 IPAM (DDI) 核心网络服务管理
Infoblox DDI (NIOS) 9.0 - DNS、DHCP 和 IPAM (DDI) 核心网络服务管理
519 4
|
12月前
|
算法 PyTorch 算法框架/工具
PyTorch 实现FCN网络用于图像语义分割
本文详细讲解了在昇腾平台上使用PyTorch实现FCN(Fully Convolutional Networks)网络在VOC2012数据集上的训练过程。内容涵盖FCN的创新点分析、网络架构解析、代码实现以及端到端训练流程。重点包括全卷积结构替换全连接层、多尺度特征融合、跳跃连接和反卷积操作等技术细节。通过定义VOCSegDataset类处理数据集,构建FCN8s模型并完成训练与测试。实验结果展示了模型在图像分割任务中的应用效果,同时提供了内存使用优化的参考。
|
机器学习/深度学习 数据可视化 PyTorch
深入解析图神经网络注意力机制:数学原理与可视化实现
本文深入解析了图神经网络(GNNs)中自注意力机制的内部运作原理,通过可视化和数学推导揭示其工作机制。文章采用“位置-转移图”概念框架,并使用NumPy实现代码示例,逐步拆解自注意力层的计算过程。文中详细展示了从节点特征矩阵、邻接矩阵到生成注意力权重的具体步骤,并通过四个类(GAL1至GAL4)模拟了整个计算流程。最终,结合实际PyTorch Geometric库中的代码,对比分析了核心逻辑,为理解GNN自注意力机制提供了清晰的学习路径。
872 7
深入解析图神经网络注意力机制:数学原理与可视化实现
|
XML JavaScript Android开发
【Android】网络技术知识总结之WebView,HttpURLConnection,OKHttp,XML的pull解析方式
本文总结了Android中几种常用的网络技术,包括WebView、HttpURLConnection、OKHttp和XML的Pull解析方式。每种技术都有其独特的特点和适用场景。理解并熟练运用这些技术,可以帮助开发者构建高效、可靠的网络应用程序。通过示例代码和详细解释,本文为开发者提供了实用的参考和指导。
538 15
|
机器学习/深度学习 数据采集 编解码
基于DeepSeek的生成对抗网络(GAN)在图像生成中的应用
生成对抗网络(GAN)通过生成器和判别器的对抗训练,生成高质量的合成数据,在图像生成等领域展现巨大潜力。DeepSeek作为高效深度学习框架,提供便捷API支持GAN快速实现和优化。本文详细介绍基于DeepSeek的GAN技术,涵盖基本原理、实现步骤及代码示例,展示其在图像生成中的应用,并探讨优化与改进方法,如WGAN、CGAN等,解决模式崩溃、训练不稳定等问题。最后,总结GAN在艺术创作、数据增强、图像修复等场景的应用前景。
1318 16
|
机器学习/深度学习 传感器 人工智能
穹彻智能-上交大最新Nature子刊速递:解析深度学习驱动的视触觉动态重建方案
上海交大研究团队在Nature子刊发表论文,提出基于深度学习的视触觉动态重建方案,结合高密度可拉伸触觉手套与视觉-触觉联合学习框架,实现手部与物体间力量型交互的实时捕捉和重建。该方案包含1152个触觉感知单元,通过应变干扰抑制方法提高测量准确性,平均重建误差仅1.8厘米。实验结果显示,其在物体重建的准确性和鲁棒性方面优于现有方法,为虚拟现实、远程医疗等领域带来新突破。
401 32
|
缓存 边缘计算 安全
阿里云CDN:全球加速网络的实践创新与价值解析
在数字化浪潮下,用户体验成为企业竞争力的核心。阿里云CDN凭借技术创新与全球化布局,提供高效稳定的加速解决方案。其三层优化体系(智能调度、缓存策略、安全防护)确保低延迟和高命中率,覆盖2800+全球节点,支持电商、教育、游戏等行业,帮助企业节省带宽成本,提升加载速度和安全性。未来,阿里云CDN将继续引领内容分发的行业标准。
730 7

热门文章

最新文章

推荐镜像

更多
  • DNS