概率图模型-推断|机器学习推导系列（十一）

2022-06-06 215

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 概率图模型-推断|机器学习推导系列（十一）

一、概述

总的来说，推断的任务就是求概率。假如我们知道联合概率 MV0(Y0W}GE9O28Z8A$W$5K3.png

，我们需要使用推断的方法来求：

ZH%9AM90Z%MQ2(K`@WW0HC8.png

以下是一些推断的方法：

①精确推断：

Variable Elimination(VE,变量消除法)(针对树结构)；

Belief Propagation(BP,信念传播,Sum-Product Algo)(针对树结构)；

Junction Tree Algorithm(针对图结构)

②近似推断：

Loop Belief Propagation(针对有环图)；

Mente Carlo Inference(例如Importance Sampling,MCMC)；

Variational Inference

二、Variable Elimination（变量消除法）

变量消除法

_QE[ZHWHLU$R5$B%S%X)TWY.png

图结构

对于上述图结构，假如我们希望求边缘概率 $@_8YQFKY]%X9I6YFKR79)K.png ，我们就可以应用变量消除法：

$[0NVL%W){RLP@_LR~9WB2UY.png$

解释

2(T8CT6QCDRP4L}@DPQA4$B.png

如果直接计算上式中的每一项再加起来就会需要相当大的计算量，而且上式只是每个变量都是二值变量的情况下，如果每个变量能取更多的值就会有更大的计算量。变量消除法就是根据某些节点只与图中自己的邻接节点有关这一特性来简化计算，相当于应用了乘法分配律 W(Y]NIU~F2TME_VCPZ@Q634.png 来避免计算每一项在加起来。变量消除法在上式中的计算过程为：

M1R@}UH~84B)_H%HJX(3Z9N.png

缺点

变量消除的缺点很明显：

①计算步骤⽆法存储：每次计算一个边缘概率就要重新计算一遍整个图；

②消除的最优次序是⼀个NP-hard问题：对于复杂的图来说，想要找到一个最优的消除次序是困难的。

三、Belief Propagation（信念传播算法）

Variable Elimination算法的计算重复问题

对于以下图结构：

)OF@X~A)E[6BHGI57BAFOUT.png

马尔可夫链

已知联合概率：

4CD0(`]8_S94JO0FZ8S}HL2.png

我们发现在计算 Y~}YL(JVG{9X2@D1H7~0J@N.png 的边缘概率时的前一部分与在计算 K89UQ7YOAK0`]X%JS]D5$]2.png 的边缘概率时的一部分重复了，可以想象在求其他边缘概率的分布时也会有大量的重复，而Belief Propagation算法就是来解决这个问题。

Belief Propagation的引出

上面我们一直计算的是有向图的马尔可夫链，现在我们将问题从链结构引申到树结构，从有向图引申到无向图（Belief Propagation只针对树状结构）。举例来说，有如下无向树：

$0]]WJ9{)Y@5G2`Z7%YSX4_6.png$

无向树

现在我们知道该联合概率的因子分解可以写为：

HDC$3XP7Y6ZB)1FC`A{1[LL.png

SSM07}L{DTRQ8W5]H5(JG{M.png

2BIR6WS8G6_0LJZXF$TOD`Y.png

信息传递

可以想象，在求其他边缘概率时势必会有很多重复的消去过程，但是由于我们已经有了计算 %6]45WTZD)%H}([2$KU7[V4.png 的通项，我们就可以利用这个公式来消除计算上的重复，而Belief Propagation算法正是利用了这个通项解决了这个问题。

Belief Propagation

Belief Propagation算法的思想是：

$@4Z_D~H{0V$JU6YNDVM@@WL.png$

Belief Propagation算法首先求所有的信息传递（收集或分发）的过程得到所有的 7(WPHU41(MZD`~RQFW%9Q~6.png （图的遍历），然后套用公式计算边缘概率，总的来说也就是 $RU%`S@@{_BUJ%NWW0O1)4)5.png$

U_]W9Y`_HS8C)@7}UY_~AUS.png

Belief Propagation算法的信息传递

Belief Propagation算法遍历图的一种方法（Sequential Implementation）如下：

①Get root，assume a is root;

②Collect Message:

3X`3)M)U3XOUXT71ZN{`U`P.png

③Distribute Message:

MX0}G42RDZ1}90G`II7YZWJ.png

还有另外一种遍历的方法（Parellel Implementation），这是一种应用在分布式计算中的方法，可以并行计算，这里不做过多介绍。

Max-product

事实上，信念传播算法分为Max-product和 Sum-product，上面讲的属于Sum-product，与Sum-product不同的是Max-product只需要将把求和符号换成求最大值 MBD)T@XH68QUF5W[0S{B250.png 的符号即可。Max-product是 Sum-Product算法的改进，也是在HMM中应用到的 Viterbi算法的推⼴。