《深度学习导论及案例分析》一第3章 受限玻耳兹曼机3.1 受限玻耳兹曼机的标准模型

简介:

本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第3章,第3.1节,作者李玉鑑 张婷,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第3章

受限玻耳兹曼机

受限玻耳兹曼机(Restricted Boltzmann Machines,RBM)是一种能够解释为随机神经网络的概率图模型,随着计算能力的增加和快速算法的发展已经广泛应用于解决相关的机器学习问题。由于受限玻耳兹曼机只具有两层结构,所以从严格意义上说并不是一种真正的深度学习模型。这种模型之所以受到关注,是因为它可以用作基本模块来构造自编码器、深层信念网络、深层玻耳兹曼机等许多其他深层学习模型。本章将从概率图模型的角度,分别讨论受限玻耳兹曼机的标准模型、学习算法、案例分析及其有关变种。

3.1受限玻耳兹曼机的标准模型

受限玻耳兹曼机是一种特殊类型的玻耳兹曼机(Boltzmann machine)[23][63]。玻耳兹曼机在理论上是一种由可视层和隐含层组成的概率无向图模型(probabilistic undirected graph model)[23],具有两层结构、对称连接和无自反馈的特点,如图3.1所示。需要强调的是,在一个玻耳兹曼机中,可视层的任意两个内部节点之间可以相互连接,隐含层的任意两个内部节点之间可以相互连接,任意可视层节点和任意隐含层节点之间也可以相互连接。

从概率图模型的角度看,通过在玻耳兹曼机中完全禁止可视层和隐含层的内部节点连接,只允许在可视层和隐含层之间的节点连接,得到的简化模型就是受限玻耳兹曼机,如图3.2所示。不妨设可视层有m个节点,其中第j节点的输入用vj表示;隐含层有n个节点,其中第i节点的输出用hi表示。令可视向量v=(v1,v2,…,vm)T,隐含向量h=(h1,h2,…,hn)T。标准的RBM是二值的,也就是说,所有的可视节点和隐含节点均为二值变量,即`javascript
1≤j≤m,1≤i≤n,vj∈{0,1},hi∈{0,1}。



根据受限玻耳兹曼机的极大团构造(仅包括单点团和两点团)[63],结合HammersleyClifford定理,可以把标准受限玻耳兹曼机的能量函数定义如下:

ε(v,hθ)=-∑ni=1∑mj=1wijhivj-∑mj=1ajvj-∑ni=1bihi(3.1)



<div style="text-align: center">
 <img src="https://yqfile.alicdn.com/e184d1c20eabe0ebc4f6f15f66f89bbe574f6382.png" >
</div>


<div style="text-align: center">
 <img src="https://yqfile.alicdn.com/cdfb3023fb6b5d662804e5bd8513548fdd3526db.png" >
</div>


其中θ={wij,aj,bi:1≤i≤n,1≤j≤m},wij表示可视节点j与隐含节点i之间的权值,aj表示可视节点j的偏置,bi表示隐含节点i的偏置。

当参数确定时,利用能量函数不难得到受限玻耳兹曼机的联合分布:

p(v,hθ)=1Z(θ)e-ε(v,hθ)=1Z(θ)exp(-ε(v,hθ))(3.2)

其中Z(θ)=∑v,he-ε(v,hθ)=∑v,hexp(-ε(v,hθ))是配分函数,起归一化因子的作用。

因此,对联合概率分布取边缘分布,就能得到受限玻耳兹曼机的可视向量分布:

p(vθ)=∑hp(v,hθ)=1Z(θ)∑hexp(-ε(v,hθ))

=1Z(θ)∑h1∑h2…∑hnexp∑ni=1∑mj=1wijhivj+∑mj=1ajvj+∑ni=1bihi

=1Z(θ)exp∑mj=1ajvj∑h1∑h2…∑hn∏ni=1exphi∑mj=1wijvj+bi

=1Z(θ)exp∑mj=1ajvj∏ni=1∑hiexphi∑mj=1wijvj+bi

=1Z(θ)exp∑mj=1ajvj∏ni=11+exp∑mj=1wijvj+bi(3.3)
及其隐含向量分布:
p(hθ)=∑vp(v,hθ)=1Z(θ)∑vexp(-ε(v,hθ))

=1Z(θ)exp∑ni=1bihi∏mj=11+exp∑ni=1wijhi+aj(3.4)
如果令σ(x)=sigm(x)=1/(1+e-x),那么还可以推导出下面的条件概率计算公式[145]:
p(hiv,θ)=∑h1∑h2…∑hi-1∑hi+1…∑hnp(v,hθ)p(vθ)

=∑h1∑h2…∑hi-1∑hi+1…∑hnexp∑ni=1∑mj=1wijhivj+∑mj=1ajvj+∑ni=1bihi∑h1∑h2…∑hnexp∑ni=1∑mj=1wijhivj+∑mj=1ajvj+∑ni=1bihi

=exp∑mj=1ajvjexphi∑mj=1wijvj+bi∏nk=1,k≠i1+exp∑mj=1wijvj+biexp∑mj=1ajvj∏ni=11+exp∑mj=1wijvj+bi

=exphi∑mj=1wijvj+bi1+exp∑mj=1wijvj+bi(3.5)

p(hi=1v,θ)=σ∑mj=1wijvj+bi=sigm∑mj=1wijvj+bi(3.6)

p(vjh,θ)=exp vj∑ni=1wijhi+aj1+exp∑ni=1wijhi+aj(3.7)

p(vj=1h,θ)=σ∑ni=1wijhi+aj=sigm∑ni=1wijhi+aj(3.8)

p(hv,θ)=p(v,hθ)p(vθ)=exp∑ni=1∑mj=1wijhivj+∑mj=1ajvj+∑ni=1bihiexp∑mj=1ajvj∏ni=11+exp∑mj=1wijvj+bi

=∏ni=1exphi∑mj=1wijvj+bi∏ni=11+exp∑mj=1wijvj+bi=∏ni=1p(hiv,θ)(3.9)

p(vh,θ)=∏mj=1p(vjh,θ)(3.10)

根据上述条件概率计算公式,就可以在理论上把受限玻耳兹曼机解释为一个激活函数为σ(x)=sigm(x)的随机神经网络。
相关文章
|
2月前
|
机器学习/深度学习 算法 定位技术
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现裂缝的检测识别(C#代码UI界面版)
本项目基于YOLOv8模型与C#界面,结合Baumer工业相机,实现裂缝的高效检测识别。支持图像、视频及摄像头输入,具备高精度与实时性,适用于桥梁、路面、隧道等多种工业场景。
240 0
|
2月前
|
机器学习/深度学习 人工智能 PyTorch
AI 基础知识从 0.2 到 0.3——构建你的第一个深度学习模型
本文以 MNIST 手写数字识别为切入点,介绍了深度学习的基本原理与实现流程,帮助读者建立起对神经网络建模过程的系统性理解。
218 15
AI 基础知识从 0.2 到 0.3——构建你的第一个深度学习模型
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI 基础知识从 0.3 到 0.4——如何选对深度学习模型?
本系列文章从机器学习基础出发,逐步深入至深度学习与Transformer模型,探讨AI关键技术原理及应用。内容涵盖模型架构解析、典型模型对比、预训练与微调策略,并结合Hugging Face平台进行实战演示,适合初学者与开发者系统学习AI核心知识。
232 15
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习模型、算法与应用的全方位解析
深度学习,作为人工智能(AI)的一个重要分支,已经在多个领域产生了革命性的影响。从图像识别到自然语言处理,从语音识别到自动驾驶,深度学习无处不在。本篇博客将深入探讨深度学习的模型、算法及其在各个领域的应用。
356 3
|
3月前
|
机器学习/深度学习 存储 PyTorch
PyTorch + MLFlow 实战:从零构建可追踪的深度学习模型训练系统
本文通过使用 Kaggle 数据集训练情感分析模型的实例,详细演示了如何将 PyTorch 与 MLFlow 进行深度集成,实现完整的实验跟踪、模型记录和结果可复现性管理。文章将系统性地介绍训练代码的核心组件,展示指标和工件的记录方法,并提供 MLFlow UI 的详细界面截图。
109 2
PyTorch + MLFlow 实战:从零构建可追踪的深度学习模型训练系统
|
7月前
|
机器学习/深度学习 数据采集 自然语言处理
深度学习实践技巧:提升模型性能的详尽指南
深度学习模型在图像分类、自然语言处理、时间序列分析等多个领域都表现出了卓越的性能,但在实际应用中,为了使模型达到最佳效果,常规的标准流程往往不足。本文提供了多种深度学习实践技巧,包括数据预处理、模型设计优化、训练策略和评价与调参等方面的详细操作和代码示例,希望能够为应用实战提供有效的指导和支持。
|
6月前
|
机器学习/深度学习 运维 自然语言处理
当深度学习遇上故障根因分析:运维人的绝佳拍档
当深度学习遇上故障根因分析:运维人的绝佳拍档
279 17
|
7月前
|
机器学习/深度学习 文字识别 自然语言处理
分析对比大模型OCR、传统OCR和深度学习OCR
OCR技术近年来迅速普及,广泛应用于文件扫描、快递单号识别、车牌识别及日常翻译等场景,极大提升了便利性。其发展历程从传统方法(基于模板匹配和手工特征设计)到深度学习(采用CNN、LSTM等自动学习高级语义特征),再到大模型OCR(基于Transformer架构,支持跨场景泛化和少样本学习)。每种技术在特定场景下各有优劣:传统OCR适合实时场景,深度学习OCR精度高但依赖大量数据,大模型OCR泛化能力强但训练成本高。未来,大模型OCR将结合多模态预训练,向通用文字理解方向发展,与深度学习OCR形成互补生态,最大化平衡成本与性能。
|
8月前
|
机器学习/深度学习 运维 安全
深度学习在安全事件检测中的应用:守护数字世界的利器
深度学习在安全事件检测中的应用:守护数字世界的利器
312 22
|
5月前
|
机器学习/深度学习 编解码 人工智能
计算机视觉五大技术——深度学习在图像处理中的应用
深度学习利用多层神经网络实现人工智能,计算机视觉是其重要应用之一。图像分类通过卷积神经网络(CNN)判断图片类别,如“猫”或“狗”。目标检测不仅识别物体,还确定其位置,R-CNN系列模型逐步优化检测速度与精度。语义分割对图像每个像素分类,FCN开创像素级分类范式,DeepLab等进一步提升细节表现。实例分割结合目标检测与语义分割,Mask R-CNN实现精准实例区分。关键点检测用于人体姿态估计、人脸特征识别等,OpenPose和HRNet等技术推动该领域发展。这些方法在效率与准确性上不断进步,广泛应用于实际场景。
603 64
计算机视觉五大技术——深度学习在图像处理中的应用

热门文章

最新文章