受限玻尔兹曼机|机器学习推导系列(二十五)

简介: 受限玻尔兹曼机|机器学习推导系列(二十五)

一、概述


对于无向图模型,我们可以回忆一下它的基于最大团的因子分解(Hammersley–Clifford theorem)。给定概率无向图模型,A7H2@3NWWAT4]14GQW{`1[M.png为无向图模型上的最大团,则GA4VI16DWBRNKT$@7XX)HLE.png的联合概率分布E~GMG)CBFOOAOKVR48AN42N.png可以写为:

WO_}3OWLGVJ9}]4A_G@SA3T.png

对于势函数(Potential Function),通常使用21I1MKY6J[{03R[}G9_TOGK.png叫做能量函数(Energy Function),当使用这个势函数时,就有:


C9JLT37}OW(}R_2WIJL_VA5.png


这个分布就叫做吉布斯分布(Gibbs Distribution),或者玻尔兹曼分布(Boltzmann Distribution)。


对于KFYUNU)2B(7RXOHFXYL7U_T.png的形式,可以看出这是一个指数族分布。

对于玻尔兹曼分布`1FP7M}{JDUI{B0DH6X68WE.png,这个概念最初来自统计物理学,一个物理系统中存在各种各样的粒子,而D(%DYTA@GBR206[~SA{$HSI.png代表系统的能量,一个物理系统有多种不同的状态,状态的概率为:


V7E3NRME9R~_P@7A8C{44D2.png

其中TD3Y[2%JT8OLU~UAM8W2Q61.png是玻尔兹曼常数(总之就是个常数),V@~SMC]GQ5I{%PP6AUWHG%R.png是系统温度,可以看出)MZX8E01PR@8Z552J4OE7MH.png和能量函数成反比,也就是说系统的能量越大,对应的状态的概率越小,系统越不容易停留在这个状态而倾向于向低能量的稳定状态转移。


参考链接:概率图模型-表示|机器学习推导系列(十)


二、表示


玻尔兹曼机(Boltzmann Machine,BM)是一种存在隐节点的无向图模型,它的每个节点对应一个随机变量,分为观测变量和隐变量两种。下图中的概率图就表示了一个玻尔兹曼机,其中阴影部分对应观测变量:

1XSB3ERR0W{X%I@$%(4)I(8.png


                                                        玻尔兹曼机


一个玻尔兹曼机的随机变量我们用向量GA4VI16DWBRNKT$@7XX)HLE.png来表示,GA4VI16DWBRNKT$@7XX)HLE.png中包含隐变量和观测变量,隐变量用IOTSPST}FOTOS}WW5~(MKJI.png表示,观测变量用E[C%D%E}ZH5TX$LCDAVLLD5.png表示,具体的:

F5_GD`{EU{UHLW8KB}5K$GY.png

玻尔兹曼机的问题在于它的推断问题很难解决,其中精确推断的方法是untrackable的,而近似推断的方法计算量太大,因此我们势必需要对模型进行一些简化,也就有了受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)。


在受限玻尔兹曼机中,连接只存在于隐变量与观测变量之间,而隐变量与观测变量内部是无连接的,因此也就得到了一个两层的结构:


VU%%@_B9$BB{5Q[TU$F9Y9P.png

                          受限玻尔兹曼机


受限玻尔兹曼机的概率公式为:


OL}L2PMP(59~GV`%{_$NE}H.png

上面这个式子也和受限玻尔兹曼机的因子图一一对应:


6W$VN7@R{GFM@`QJKLGPZRQ.png

                                     因子图


有关因子图的参考链接:概率图模型-推断|机器学习推导系列(十一)


受限玻尔兹曼机的参数估计这一篇就不具体介绍了,会在后面配分函数那一篇介绍,下面只推导一下受限玻尔兹曼机的推断问题。


三、推断


  1. 后验概率

NV%4A8H[_](_H4T9{B4B7IS.png

ZWNOHK(KFHQ$L0SMWQLRZNA.png

LK~N{(%6T8{EU719}]7XAN4.png

GLZ4K$48[)Y}NW~9@L8)UDG.png

IVO50AL{KWE(7{~9}~$_DK5.png

                            softplus


四、概率图模型总结


回顾之前的文章中介绍过的各种概率图模型,我们可以总结一些它们的规律和特点以便于能够整体地理解和把握概率图模型这一大类。


  1. 朴素贝叶斯


朴素贝叶斯(Naive Bayes,NB)是最简单的概率图模型,满足条件独立性假设,也就是在给定($1YRW_47%QT~2$0@A[D1CL.png的条件下,GA4VI16DWBRNKT$@7XX)HLE.png之间是相互独立的。朴素贝叶斯的概率图如下:


C%LJF)QH{05)P[)3UXEJ07O.png

                       Naive Bayes  


参考链接:线性分类|机器学习推导系列(四)


  1. 高斯混合模型


高斯混合模型(Gaussian Mixture Model,GMM)中引入了隐变量,这里的隐变量是离散的,并且在隐变量($1YRW_47%QT~2$0@A[D1CL.png的条件下观测变量GA4VI16DWBRNKT$@7XX)HLE.png服从高斯分布。高斯混合模型的概率图如下:


USKAZ7_3$)%KR)$F~9OWJXC.png

              高斯混合模型


参考链接:高斯混合模型|机器学习推导系列(十三)


  1. 状态空间模型


状态空间模型(State Space Model,SSM)可以看做高斯混合模型的拓展,它的隐变量现在是一个序列,并且状态空间模型满足齐次马尔可夫假设和观测独立假设。状态空间模型的概率图如下:


WLN)0{%N8T]M9RRJT`2JXKF.png

                                 状态空间模型


状态空间模型根据它的随机变量是否连续以及是否是高斯分布分为三种类型:隐马尔可夫模型(Hidden Markov Model,HMM)、卡尔曼滤波(Kalman Filter)和粒子滤波(Particle Filter)。


隐马尔可夫模型参考链接:隐马尔可夫模型|机器学习推导系列(十七)


卡尔曼滤波参考链接:卡尔曼滤波|机器学习推导系列(十八)


粒子滤波参考链接:粒子滤波|机器学习推导系列(十九)


  1. 最大熵马尔可夫模型

最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)打破了状态空间模型的观测独立假设吗,从而引入了观测变量之间的关联,不过它受限于标注偏置问题(Label Bias Problem)而没有被广泛使用。另外MEMM可以看做HMM与最大熵模型(Maximum Entropy Model,MEM,逻辑回归就是一个典型的最大熵模型)的结合。


MEMM的概率图如下:


_9S}Q7BNRAY_N`J)S23ND{Y.png

                                       最大熵马尔可夫模型


  1. 条件随机场


  • 条件随机场


MEMM中存在标准偏置问题,而条件随机场(Conditional Random Fields,CRF)通过将MEMM改造成无向图模型从而解决了这个问题,条件随机场也就是带条件的马尔可夫随机场,作为一个无向图模型,CRF破坏了齐次马尔可夫假设。


  • 线性链条件随机场


经常用到的CRF是线性链条件随机场(Linear Chain-Conditional Random Fields,LC-CRF),LC-CRF中的隐变量是一个线性链,它的概率图如下:


3`4JKL6A3EDAFQU3$2KU@WX.png

                                                 条件随机场


参考链接:条件随机场|机器学习推导系列(二十一)


  1. 玻尔兹曼机


  • 玻尔兹曼机


在无向图的基础上如果引入隐变量也就得到了玻尔兹曼机(Boltzmann Machine,BM),并且玻尔兹曼机的概率分布满足指数族分布


  • 受限玻尔兹曼机


由于玻尔兹曼机的推断问题难以解决,也就有了受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)。受限玻尔兹曼机相当于满足了条件独立性,也就是在给定隐变量的条件下,观测变量之间是相互独立的,反之亦然。


  1. 总结


通过回顾上面的多种概率图模型,我们发现不同的概率图模型仅仅在以下几个方面存在不同的设定:


①方向(有向图还是无向图)——的性质;


②离散/连续/混合——的性质;


③条件独立性——的性质;


④隐变量——的性质;


⑤指数族分布——结构特点。


概率图模型作为机器学习传统的统计方法,虽然有时候会受到一些限制,效果不及当前的深度学习技术,但是作为机器学习的基础内容仍然值得学习和掌握。

相关文章
|
机器学习/深度学习 人工智能 移动开发
【机器学习】线性分类——高斯判别分析GDA(理论+图解+公式推导)
【机器学习】线性分类——高斯判别分析GDA(理论+图解+公式推导)
252 0
【机器学习】线性分类——高斯判别分析GDA(理论+图解+公式推导)
|
机器学习/深度学习 人工智能 算法
【机器学习】线性分类——线性判别分析LDA(理论+图解+公式推导)
【机器学习】线性分类——线性判别分析LDA(理论+图解+公式推导)
165 0
【机器学习】线性分类——线性判别分析LDA(理论+图解+公式推导)
|
机器学习/深度学习 算法 数据挖掘
100天搞定机器学习|day44 k均值聚类数学推导与python实现
100天搞定机器学习|day44 k均值聚类数学推导与python实现
100天搞定机器学习|day44 k均值聚类数学推导与python实现
|
机器学习/深度学习 算法
100天搞定机器学习|day38 反向传播算法推导
100天搞定机器学习|day38 反向传播算法推导
100天搞定机器学习|day38 反向传播算法推导
|
机器学习/深度学习 算法
Sigmoid信念网络|机器学习推导系列(二十八)
Sigmoid信念网络|机器学习推导系列(二十八)
210 0
Sigmoid信念网络|机器学习推导系列(二十八)
|
机器学习/深度学习 算法
近似推断|机器学习推导系列(二十七)
近似推断|机器学习推导系列(二十七)
117 0
近似推断|机器学习推导系列(二十七)
|
机器学习/深度学习 算法
配分函数|机器学习推导系列(二十六)
配分函数|机器学习推导系列(二十六)
224 0
配分函数|机器学习推导系列(二十六)
|
机器学习/深度学习
高斯过程回归|机器学习推导系列(二十四)
高斯过程回归|机器学习推导系列(二十四)
448 0
高斯过程回归|机器学习推导系列(二十四)
|
机器学习/深度学习
贝叶斯线性回归|机器学习推导系列(二十三)
贝叶斯线性回归|机器学习推导系列(二十三)
272 0
贝叶斯线性回归|机器学习推导系列(二十三)
|
机器学习/深度学习
高斯网络|机器学习推导系列(二十二)
高斯网络|机器学习推导系列(二十二)
481 0
高斯网络|机器学习推导系列(二十二)

热门文章

最新文章