【RLchina第五讲】Control as Inference（上）-阿里云开发者社区

【RLchina第五讲】Control as Inference（上）

2023-08-06 50

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【RLchina第五讲】Control as Inference（上）

概率图基础

概率图模型就是用图的结构来表示多个随机变量的联合概率分布(joint probability distribution)，

有了这样一个概率图模型之后，我们就能够很容易地去采样出一个样本出来。原始采样法(ancestral sampling)从模型所表示的联合分布中产生样本，又称祖先采样法。该方法所得出的结果即视为原始采样。对于上述概率图，其采样可以表示为：

这里还有一个概念比较重要：条件独立：如果p ( a ∣ b , c ) = p ( a ∣ c ) ，那么我们说在给定c cc的情况下，a 和b 是条件独立的，定义为a ⊥ b ∣ c 。

给定一个图模型之后，如何测试哪些变量是条件独立的呢？我们举三个例子来说明：

上图的有向图联合概率分布可以表示为：

变量c 不给定的情况下，a 和b 的联合概率表示为：

可以知道，他们是不条件独立的，而一旦给定变量c 之后，概率图模型变为(给定变量用阴影填满)：

此时a 和b 的联合概率可以表示为：

此时a 与b 条件独立。

再考虑链状的一个情况：

此时概率图的联合概率可以表示为：

变量a 和变量b 的联合概率可以表示为：

可以发现，变量a 和变量b 并不条件独立。当给定变量c 之后，概率图变为：

变量a 和变量b 的联合概率可以表示为：

此时变量a 和变量b 条件独立。

此时概率图的联合概率表示为：

a 和b 之间的联合概率可以表示为：

可以发现他们是条件独立的，当给定变量c 之后，此时概率图模型变为如下形式：

此时a 和b 的联合概率可以表示为：

此时a 和b 不是条件独立的。

对上述规律进行总结，变成D-separation：

考虑两个结点的集合A 和B ，A 到B 的路径上，如果有一个集合C 在，以下两种情况我们称这条路径被blocked：

(a) 路径上的箭头，满足head-to-tail或者tail-to-tail的节点在集合C 中；

(b) 路径上的箭头满足head-to-head的节点不在C 里面，或者它任何的后代都不在C 里面。

如果A 到B 的所有路径都是blocked的话，我们称A 和B 被C d-separated的。

我们在做极大似然估计的时候，似然函数可以写成如下形式：

Bayesian inference就是拿观测数据去更新我们的假设：

P ( hypothesis ∣ data ) 也被称作后验概率，说的是观测到某些数据之后所做的推断。P ( data ∣ hypothesis ) 被称作为似然，likelihood，P ( hypothesis ) 被称作为先验。

在做近似推断的时候，我们经常需要去评估后验概率p ( Z ∣ X ) ，或者是E p ( Z ∣ X ) 。但往往这个z zz变量是高维的，较难处理。近似推断(Approximate inference)常常会被用来解决这类问题。

确定行的技术：拉普拉斯近似(Laplace approximation)来用高斯分布找到p ( Z ∣ X ) ；另外一个技术就是变分推断(variational inference)。经典机器学习系列(十)【变分推断】。
随机性的技术：马尔科夫链蒙特卡洛(Markov Chain Monte Carlo，MCMC)，从p ( Z ∣ X ) 中采样大量的样本之后做估计。