受限玻尔兹曼机|机器学习推导系列（二十五）

2022-06-07 671

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 受限玻尔兹曼机|机器学习推导系列（二十五）

一、概述

对于无向图模型，我们可以回忆一下它的基于最大团的因子分解（Hammersley–Clifford theorem）。给定概率无向图模型， A7H2@3NWWAT4]14GQW{`1[M.png 为无向图模型上的最大团，则 GA4VI16DWBRNKT$@7XX)HLE.png 的联合概率分布 E~GMG)CBFOOAOKVR48AN42N.png 可以写为：

WO_}3OWLGVJ9}]4A_G@SA3T.png

对于势函数（Potential Function），通常使用 $21I1MKY6J[{03R[}G9_TOGK.png$ 叫做能量函数（Energy Function），当使用这个势函数时，就有：

C9JLT37}OW(}R_2WIJL_VA5.png

这个分布就叫做吉布斯分布（Gibbs Distribution），或者玻尔兹曼分布（Boltzmann Distribution）。

对于 KFYUNU)2B(7RXOHFXYL7U_T.png 的形式，可以看出这是一个指数族分布。

对于玻尔兹曼分布 `1FP7M}{JDUI{B0DH6X68WE.png ，这个概念最初来自统计物理学，一个物理系统中存在各种各样的粒子，而 D(%DYTA@GBR206[~SA{$HSI.png 代表系统的能量，一个物理系统有多种不同的状态，状态的概率为：

$V7E3NRME9R~_P@7A8C{44D2.png$

其中 TD3Y[2%JT8OLU~UAM8W2Q61.png 是玻尔兹曼常数（总之就是个常数）， V@~SMC]GQ5I{%PP6AUWHG%R.png 是系统温度，可以看出 )MZX8E01PR@8Z552J4OE7MH.png 和能量函数成反比，也就是说系统的能量越大，对应的状态的概率越小，系统越不容易停留在这个状态而倾向于向低能量的稳定状态转移。

参考链接：概率图模型-表示|机器学习推导系列（十）

二、表示

玻尔兹曼机（Boltzmann Machine，BM）是一种存在隐节点的无向图模型，它的每个节点对应一个随机变量，分为观测变量和隐变量两种。下图中的概率图就表示了一个玻尔兹曼机，其中阴影部分对应观测变量：

1XSB3ERR0W{X%I@$%(4)I(8.png

玻尔兹曼机

一个玻尔兹曼机的随机变量我们用向量 GA4VI16DWBRNKT$@7XX)HLE.png 来表示，中包含隐变量和观测变量，隐变量用 IOTSPST}FOTOS}WW5~(MKJI.png 表示，观测变量用 E[C%D%E}ZH5TX$LCDAVLLD5.png 表示，具体的：

$F5_GD`{EU{UHLW8KB}5K$GY.png$

玻尔兹曼机的问题在于它的推断问题很难解决，其中精确推断的方法是untrackable的，而近似推断的方法计算量太大，因此我们势必需要对模型进行一些简化，也就有了受限玻尔兹曼机（Restricted Boltzmann Machine，RBM）。

在受限玻尔兹曼机中，连接只存在于隐变量与观测变量之间，而隐变量与观测变量内部是无连接的，因此也就得到了一个两层的结构：

$VU%%@_B9$BB{5Q[TU$F9Y9P.png$

受限玻尔兹曼机

受限玻尔兹曼机的概率公式为：

$OL}L2PMP(59~GV`%{_$NE}H.png$

上面这个式子也和受限玻尔兹曼机的因子图一一对应：

6W$VN7@R{GFM@`QJKLGPZRQ.png

因子图

有关因子图的参考链接：概率图模型-推断|机器学习推导系列（十一）

受限玻尔兹曼机的参数估计这一篇就不具体介绍了，会在后面配分函数那一篇介绍，下面只推导一下受限玻尔兹曼机的推断问题。

三、推断

后验概率

$NV%4A8H[_](_H4T9{B4B7IS.png$

ZWNOHK(KFHQ$L0SMWQLRZNA.png

LK~N{(%6T8{EU719}]7XAN4.png

GLZ4K$48[)Y}NW~9@L8)UDG.png

$IVO50AL{KWE(7{~9}~$_DK5.png$

softplus

四、概率图模型总结

回顾之前的文章中介绍过的各种概率图模型，我们可以总结一些它们的规律和特点以便于能够整体地理解和把握概率图模型这一大类。

朴素贝叶斯

朴素贝叶斯（Naive Bayes，NB）是最简单的概率图模型，满足条件独立性假设，也就是在给定 ($1YRW_47%QT~2$0@A[D1CL.png 的条件下， GA4VI16DWBRNKT$@7XX)HLE.png 之间是相互独立的。朴素贝叶斯的概率图如下：

C%LJF)QH{05)P[)3UXEJ07O.png

Naive Bayes

参考链接：线性分类|机器学习推导系列（四）

高斯混合模型

高斯混合模型（Gaussian Mixture Model，GMM）中引入了隐变量，这里的隐变量是离散的，并且在隐变量 ($1YRW_47%QT~2$0@A[D1CL.png 的条件下观测变量 GA4VI16DWBRNKT$@7XX)HLE.png 服从高斯分布。高斯混合模型的概率图如下：

USKAZ7_3$)%KR)$F~9OWJXC.png

高斯混合模型

参考链接：高斯混合模型|机器学习推导系列（十三）

状态空间模型

状态空间模型（State Space Model，SSM）可以看做高斯混合模型的拓展，它的隐变量现在是一个序列，并且状态空间模型满足齐次马尔可夫假设和观测独立假设。状态空间模型的概率图如下：

WLN)0{%N8T]M9RRJT`2JXKF.png

状态空间模型

状态空间模型根据它的随机变量是否连续以及是否是高斯分布分为三种类型：隐马尔可夫模型（Hidden Markov Model，HMM）、卡尔曼滤波（Kalman Filter）和粒子滤波（Particle Filter）。

隐马尔可夫模型参考链接：隐马尔可夫模型|机器学习推导系列（十七）

卡尔曼滤波参考链接：卡尔曼滤波|机器学习推导系列（十八）

粒子滤波参考链接：粒子滤波|机器学习推导系列（十九）

最大熵马尔可夫模型

最大熵马尔可夫模型（Maximum Entropy Markov Model，MEMM）打破了状态空间模型的观测独立假设吗，从而引入了观测变量之间的关联，不过它受限于标注偏置问题（Label Bias Problem）而没有被广泛使用。另外MEMM可以看做HMM与最大熵模型（Maximum Entropy Model，MEM，逻辑回归就是一个典型的最大熵模型）的结合。

MEMM的概率图如下：

$_9S}Q7BNRAY_N`J)S23ND{Y.png$