概率图推断之信念传播

简介: 变量消除算法有个致命的缺陷:每次查询都要要从头开始重新启动算法。这样会非常浪费资源,并且在计算上很麻烦。这个问题也很容易避免。通过在第一次运行变量消除算法后缓存这些因子,我们可以轻松地计算新的边缘概率查询,基本上不需要额外的成本。实现上面的功能有2中算法:信念传播(BP)和全联结树算法,本文先介绍信念传播算法。

概率图推断之信念传播

causal_ai.jpeg

《概率图推断之变量消除算法》中,我们讲了变量消除算法如何对有向图和无向图求$P(Y \mid E = e)$的边缘概率。

然而变量消除算法有个致命的缺陷:如果我们问模型另一个请求,比如$P(Y_2 \mid E_2 = e_2)$,我们需要从头开始重新启动算法。这样会非常浪费资源,并且在计算上很麻烦。

幸运的是,事实证明,这个问题也很容易避免。当计算边缘概率时,变量消除算法会产生许多中间因子$\tau$;事实证明,这些因子与计算其他边缘概率所需的因子相同。通过在第一次运行变量消除算法后缓存这些因子,我们可以轻松地计算新的边缘概率查询,基本上不需要额外的成本。

从本文开始,我会用两篇文章来介绍该算法的两种变体:信念传播(BP)和全联结树算法。信念传播适用于树结构图,而联结树算法适用于一般网络。

让我们先从信念传播算法开始。

将变量消除视为信息传递

首先,思考一下在树上执行变量消除算法计算边缘概率$p(x_i)$都发生了什么?不难发现将$x_i$作为根节点然后遍历后续节点是解决此问题的最优排序。

我们说这个排序最优是因为变量消除过程中形成的最大团的大小为2。每一步,我们消除$x_j$。这会引发计算因子$\tau_k(xk) = \sum{x_j} \phi(x_k, x_j) \tau_j(x_j)$ ,其中 $x_k$ 是 $x_j$ 的父节点。紧跟着下一步,$x_k$ 会被消除,$\tau_k(x_k)$会被传递给$x_k$ 的父节点 $x_l$ 用以在边缘化之前与因子$\phi(x_l, x_k)$相乘。因子$\tau_j(x_j)$可以认为是$x_j$传给$x_k$的消息,其汇总了以$x_j$为根节点的子树下的所有信息。

在变量消除的最后,$x_i$收到其所有直接子节点的信息,然后对这些信息边缘化,我们就得到最终的边缘概率。

现在假设计算完$p(x_i)$,我们还想计算$p(x_k)$,我们需要将$x_k$作为跟节点重新执行变量消除算法,直到$x_k$收到所有子节点的信息。这里的核心洞察是:无论$x_k$为跟节点还是$x_i$为根节点,$x_k$从$x_j$收到的信息是一样的。

信息传递算法

这里的关键问题是:如何精确计算出所有需要的信息?

答案很简单:每当$x_i$收到除邻居$x_j$外所有节点的信息时,$x_i$传递消息给邻居$x_j$。有趣的是在树上总有节点要传递信息,直到所有信息都传递出去。这个过程需要$2|E|$步,因为每条边只会接收信息2次:一次$x_i \rarr x_j$,一次反方向$x_i \larr x_j$。

最后,这个算法之所以正确是因为这些信息在变量消除算法中被定义为中间因子。

下面我们给信念传播算法下个正式的定义,该算法2个变种,分别适用于不同的任务:

  • 加总乘积信息传递:用于边缘推断,例如计算$p(x_i)$
  • 最大乘积信息传递:用于最大后验推断,例如计算$\max_{x_1, \dotsc, x_n} p(x_1, \dotsc, x_n)$

加总乘积信息传递

加总乘积信息传递算法定义如下:若节点$x_i$可以传递到$xj$,传递信息
$$
m
{i\to j}(xj) = \sum{x_i} \phi(x_i) \phi(x_i,xj) \prod{\ell \in N(i) \setminus j} m_{\ell \to i}(x_i)
$$
这里$N(i) \setminus j$表示除$j$以外$i$的所有邻居的集合。观察上面公式可以发现,为了计算$p(x_j)$所做的一轮变量消除中$x_i$传递给$x_j$的信息就是因子$\tau$ 。

基于此观察,计算出所有信息后,我们可以通过下面公式在常数时间内给出$x_i$上所有边缘查询
$$
p(x_i) \propto \phi(xi) \prod{\ell \in N(i)} m_{\ell \to i}(x_i).
$$

因子树上的加总乘积信息传递

加总乘积信息传递稍作修改也可以适用于因子树。因子图是一个二分图,由边连接变量和因子,表示某因子依赖某变量。

在因子图上有两类信息:变量到因子信息$\nu$和因子到变量信息$\mu$。二者都需要计算乘积,但只有因子到变量信息$\mu$需要加总。
$$
\nu_{var(i)\to fac(s)}(xi) = \prod{t\in N(i)\setminus s}\mu_{fac(t)\to var(i)}(xi)
\
\mu
{fac(s)\to var(i)}(xi) = \sum{x_{N(s)\setminus i}}fs(x{N(s)})\prod{j\in N(s)\setminus i}\nu{var(j)\to fac(s)}(x_j)
$$
该算法过程与无向图上的算法过程相同:只要有因子(或变量)可以传递信息给变量(或因子),那就以上面公式的形式传递相应因子到变量(或者变量到因子)信息。

最大乘积信息传递

信念传播算法的第二个变种是最大乘积信息传递,用于最大后验推断$\max_{x_1, \dotsc, x_n} p(x_1, \dotsc, x_n)$。

上面介绍的边缘推断框架也可以让我们轻松进行最大后验推断。关键点在于求和和求最大值运算都作用于乘积上,因此将边缘推断中的求和替换为求最大值,即可解决最大后验推断问题。

例如,我们可以通过下面公式计算马尔科夫随机场链的配分函数:
$$
\begin{align}
Z
&= \sum_{x1} \cdots \sum{x_n} \phi(x1) \prod{i=2}^n \phi(xi, x{i-1}) \
&= \sum_{xn} \sum{x_{n-1}} \phi(xn, x{n-1}) \sum{x{n-2}} \phi(x{n-1}, x{n-2}) \cdots \sum_{x_1} \phi(x_2 , x_1) \phi(x_1).
\end{align
}
$$
要计算$p(x_1, \dotsc, xn)$上的最大值$p^$,只需要将求和替换为求最大值即可:
$$
\begin{align
}
p^*
&= \max
{x1} \cdots \max{x_n} \phi(x1) \prod{i=2}^n \phi(xi, x{i-1}) \
&= \max_{xn} \max{x_{n-1}} \phi(xn, x{n-1}) \max{x{n-2}} \phi(x{n-1}, x{n-2}) \cdots \max_{x_1} \phi(x_2 , x_1) \phi(x_1).
\end{align*}
$$
因为二者采用相同方式分解,我们可以直接复用边缘推断的机制到最大后验推断。注意,这个思路同样适用于因子树。

这里有一小点需要注意,我们通常需要的不只最大分布,例如$\max_x p(x)$,还需要其最可能赋值,例如$\arg\max_x p(x)$。这个问题可以通过在优化过程中保存反向指针来轻松解决。例如,上面例子中,对每一个$x_2$的赋值,我们可以保存$x_1$最优赋值的反向指针,同理对每一个$x_3$赋值,我们可以保存$x_2$最优赋值的反向指针,以此类推。

总结

以上就是信念传播算法的介绍。信念传播算法适用于树形结构,而我们的问题往往是更一般的图。在图上做推断会更加困难,但我们可以尝试将图分解为近似树型结构,然后执行信息传递算法。根据此思想发展出了联结树算法。下一章我会重点介绍联结树算法,敬请期待。

目录
相关文章
|
6月前
|
计算机视觉
偏最小二乘回归(PLSR)和主成分回归(PCR)分析光谱数据
偏最小二乘回归(PLSR)和主成分回归(PCR)分析光谱数据
|
6月前
|
Windows
R语言有状态依赖强度的非线性、多变量跳跃扩散过程模型似然推断分析股票价格波动
R语言有状态依赖强度的非线性、多变量跳跃扩散过程模型似然推断分析股票价格波动
|
6月前
|
算法 Windows
R语言广义二次跳跃、非线性跳跃扩散过程转移函数密度的估计及其应用
R语言广义二次跳跃、非线性跳跃扩散过程转移函数密度的估计及其应用
|
机器学习/深度学习 自然语言处理 算法
【网安AIGC专题11.1】11 Coreset-C 主动学习:特征选择+11种采样方法+CodeBERT、GraphCodeBERT+多分类(问题分类)二元分类(克隆检测)非分类任务(代码总结)
【网安AIGC专题11.1】11 Coreset-C 主动学习:特征选择+11种采样方法+CodeBERT、GraphCodeBERT+多分类(问题分类)二元分类(克隆检测)非分类任务(代码总结)
202 0
|
机器学习/深度学习 人工智能 分布式计算
因果推断:效应估计的常用方法及工具变量讨论
日常工作中很多的策略/产品的效果是无法设计完美的随机实验的,要求我们从观察性数据中去(拟合随机试验)发现因果关系、测算因果效应。
1864 0
因果推断:效应估计的常用方法及工具变量讨论
|
人工智能 算法 关系型数据库
概率图表示之贝叶斯网络
有向图模型(又称贝叶斯网络)是一类概率分布,它让有向图可以自然地描述紧凑参数化。形式地讲,贝叶斯网络是一个有向图G = (V,E)。
9437 0
概率图表示之贝叶斯网络
|
资源调度 算法 关系型数据库
概率图推断之变量消除算法
事实证明,推理是一项颇具挑战的任务。对于很多我们感兴趣的概率,要准确回答这些问题都是NP难题。至关重要的是,推理是否容易处理取决于描述概率的图的结构。尽管有些问题很难解决,我们仍然可以通过近似推理方法获得有用的答案。
262 0
概率图推断之变量消除算法
|
机器学习/深度学习 传感器 算法
基于聚类能量的模态保证准则 (CEMAC)附matlab代码
基于聚类能量的模态保证准则 (CEMAC)附matlab代码
|
数据挖掘 索引 Python
Python实现固定效应回归模型实现因果关系推断(二)
Python实现固定效应回归模型实现因果关系推断(二)
925 1
Python实现固定效应回归模型实现因果关系推断(二)
|
机器学习/深度学习 数据可视化 PyTorch
使用度量学习进行特征嵌入:交叉熵和监督对比损失的效果对比
使用度量学习进行特征嵌入:交叉熵和监督对比损失的效果对比
294 0
使用度量学习进行特征嵌入:交叉熵和监督对比损失的效果对比