《深度学习导论及案例分析》一2.9马尔可夫链

简介:

####本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第2章,第2.9节,作者李玉鑑 张婷,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.9马尔可夫链

从理论上说,前面提到的概率图模型都可以看作是对马尔可夫链(Markov Chain,MC)的推广和发展。因此,马尔可夫链实际上是一种非常经典又相对简单的概率图模型,但它侧重于刻画一个在时间上离散的随机过程。其特点在于,随机变量在下一时刻的取值状态只依赖于当前状态,与之前的状态无关。

一个随机变量序列X1,…,XN称为马尔可夫链,如果它们满足马尔可夫性质:

P(XiX1,…,Xi-1)=P(XiXi-1),i(2.89)

在马尔可夫链中,在随机变量Xi之前的随机变量条件独立于Xi之后的所有随机变量,即

{X1,…,Xi-1}⊥{Xi+1,…,XN}Xi(2.90)

而且,其概率分布P(X1,…,XN)可分解为

P(X1,…,XN)=P(X1)∏Ni=2P(XiXi-1,…,X1)=P(X1)∏Ni=2P(XiXi-1)(2.91)

马尔可夫链可以用如图2.13所示的贝叶斯网络来建模,该网络表达的概率分布为

PB(X1,…,XN)=∏Ni=1P(XiPa=(Xi))=P(X1)∏Ni=2P(XiXi-1)(2.92)

其中Xi的唯一父节点是Xi-1。


41ee3b2d58bd441881b9361304660b421abadd09

马尔可夫链也可以用如图2.14所示的马尔可夫网络来建模,该网络表达的概率分布为:

PM(X1,…,XN)=∏N-1i=1ψCi(Ci)=∏N-1i=1ψCi=P(X1)∏Ni=2P(XiXi-1)(2.93)


db7803adb44a42d747d6c4dd19f9fd9ad47b6e29

其中极大团是Ci={Xi,Xi+1}(i=1,…,N-1),因子ψCi=P(Xi+1Xi)(i=2,…,N-1)且ψC1=P(X1)P(X2X1)。

马尔可夫链还可以用如图2.15所示的因子图(factor graph)来建模,该因子图表达的概率分布为
PM(X1,…,XN)=∏Ni=1fi(Nb(Fi))=P(X1)∏Ni=2P(XiXi-1)(2.94)
其中,因子f1(Nb(F1))=P(X1),且fi(Nb(Fi))=P(XiXi-1)(i=2,…,N)。因子图是由变量节点和因子节点这两类不交节点构成的无向二分概率图(undirected bipartite graph),更多的内容详见参考文献[109]。


d32431bfabaa69da25d78e80ef69a8b4dc3c9a77

马尔可夫链最重要的特点是具有“无记忆性(memorylessness)”,或者称为时间邻域马尔可夫性(temporal neighborhood Markov property),简称马尔可夫性。设Ω是状态空间。如果用pkij(i,j∈Ω)表示一个马尔可夫链在第k个时刻从第i个状态转变到第j个状态的转移概率,那么pkij可以定义如下:

pkij=Pr(Xk+1=jXk=i,Xk-1,…,X1)=Pr(Xk+1=jXk=i)(2.95)

其中,Pr表示概率函数。

如果对所有时刻k≥0,pkij具有相同的值pij(即转移概率并不随着时间而改变),那么马尔可夫链称为齐次的(homogeneous),且矩阵P=(pij)i,j∈Ω称为齐次马尔可夫链的转移矩阵(transition matrix)。

设初始分布μ0是X0的概率分布。如果令μ0=(μ0i)i∈Ω且μ0i=Pr(X0=i),那么Xk的分布μk是μk=μ0Pk。当一个分布π=(πi)i∈Ω满足π=πP时称为稳态分布(stationary distribution)。如果马尔可夫链在时刻k达到稳态分布,那么所有后续状态都将进入稳态分布,即n∈N,μk+n=π。一个分布π关于马尔可夫链稳态的充分条件是满足细致平衡(detailed balance)条件,即:

i,j∈Ω,πipij=πjpji(2.96)

可以证明,如果状态空间是有限的,那么一个不可约(irreducible)且非周期(aperiodic)的马尔可夫链具有唯一稳态分布。不可约是指从任意状态出发经过有限次转移都能够到达任意其他状态,其形式化定义如下:

i,j∈Ω,k>0,Pr(Xk=j|X0=i)>0(2.97)

非周期是指任意状态都不存在重复周期,也就是说不能周期性地转移到它自己,其形式化定义如下:

i∈Ω,gcd{n>0:Pr(Xk=iX0=i)>0}=1(2.98)

其中gcd表示最大公约数。

假设α=(αi)i∈Ω和β=(βi)i∈Ω是有限状态空间Ω上的两个分布。如果把它们的距离定义为:

dV(α,β)=12α-β=12∑i∈Ωαi-βi(2.99)

那么对一个有限状态空间上的不可约、非周期马尔可夫链来说,从任意初始分布μ0出发反复经过其转移矩阵P的作用都可以收敛到唯一的稳态分布π,即:

limk→∞dV(μPk,π)=0(2.100)
相关文章
|
9月前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能食品消费模式分析的深度学习模型
使用Python实现智能食品消费模式分析的深度学习模型
258 70
|
6月前
|
机器学习/深度学习 运维 自然语言处理
当深度学习遇上故障根因分析:运维人的绝佳拍档
当深度学习遇上故障根因分析:运维人的绝佳拍档
278 17
|
9月前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能食品消费习惯分析的深度学习模型
使用Python实现智能食品消费习惯分析的深度学习模型
268 68
|
7月前
|
机器学习/深度学习 文字识别 自然语言处理
分析对比大模型OCR、传统OCR和深度学习OCR
OCR技术近年来迅速普及,广泛应用于文件扫描、快递单号识别、车牌识别及日常翻译等场景,极大提升了便利性。其发展历程从传统方法(基于模板匹配和手工特征设计)到深度学习(采用CNN、LSTM等自动学习高级语义特征),再到大模型OCR(基于Transformer架构,支持跨场景泛化和少样本学习)。每种技术在特定场景下各有优劣:传统OCR适合实时场景,深度学习OCR精度高但依赖大量数据,大模型OCR泛化能力强但训练成本高。未来,大模型OCR将结合多模态预训练,向通用文字理解方向发展,与深度学习OCR形成互补生态,最大化平衡成本与性能。
|
9月前
|
机器学习/深度学习 数据采集 数据挖掘
使用Python实现智能食品消费市场分析的深度学习模型
使用Python实现智能食品消费市场分析的深度学习模型
266 36
|
9月前
|
机器学习/深度学习 数据采集 数据挖掘
使用Python实现智能食品消费趋势分析的深度学习模型
使用Python实现智能食品消费趋势分析的深度学习模型
265 18
|
11月前
|
机器学习/深度学习 算法 PyTorch
深度学习笔记(十三):IOU、GIOU、DIOU、CIOU、EIOU、Focal EIOU、alpha IOU、SIOU、WIOU损失函数分析及Pytorch实现
这篇文章详细介绍了多种用于目标检测任务中的边界框回归损失函数,包括IOU、GIOU、DIOU、CIOU、EIOU、Focal EIOU、alpha IOU、SIOU和WIOU,并提供了它们的Pytorch实现代码。
2120 1
深度学习笔记(十三):IOU、GIOU、DIOU、CIOU、EIOU、Focal EIOU、alpha IOU、SIOU、WIOU损失函数分析及Pytorch实现
|
10月前
|
机器学习/深度学习 监控 PyTorch
深度学习工程实践:PyTorch Lightning与Ignite框架的技术特性对比分析
在深度学习框架的选择上,PyTorch Lightning和Ignite代表了两种不同的技术路线。本文将从技术实现的角度,深入分析这两个框架在实际应用中的差异,为开发者提供客观的技术参考。
248 7
|
9月前
|
机器学习/深度学习 人工智能 计算机视觉
深度学习在医疗影像分析中的应用与挑战
本文探讨了深度学习技术在医疗影像分析领域的应用现状和面临的主要挑战。随着人工智能技术的飞速发展,深度学习已经成为推动医疗影像诊断自动化和智能化的重要力量。文章首先概述了深度学习的基本原理及其在图像识别任务中的优势,随后详细讨论了其在CT、MRI等医疗影像处理中的成功案例,并分析了当前技术面临的数据隐私、模型解释性以及临床验证等方面的挑战。最后,提出了未来研究的方向和可能的解决方案,旨在促进深度学习技术在医疗领域的更广泛应用。
245 0
|
10月前
|
机器学习/深度学习 数据采集 供应链
使用Python实现深度学习模型:智能食品市场分析
使用Python实现深度学习模型:智能食品市场分析
143 0

热门文章

最新文章