【RLchina第五讲】Control as Inference(上)

简介: 【RLchina第五讲】Control as Inference(上)

概率图基础


  概率图模型就是用图的结构来表示多个随机变量的联合概率分布(joint probability distribution),



image.png

有了这样一个概率图模型之后,我们就能够很容易地去采样出一个样本出来。原始采样法(ancestral sampling)从模型所表示的联合分布中产生样本,又称祖先采样法。该方法所得出的结果即视为原始采样。对于上述概率图,其采样可以表示为:

image.png

D-separation


这里还有一个概念比较重要:条件独立:如果p ( a ∣ b , c ) = p ( a ∣ c ) ,那么我们说在给定c cc的情况下,a b 是条件独立的,定义为a ⊥ b ∣ c

  给定一个图模型之后,如何测试哪些变量是条件独立的呢?我们举三个例子来说明:

  • Example 1tail-to-tail

  上图的有向图联合概率分布可以表示为:

image.png


变量c 不给定的情况下,a 和b 的联合概率表示为:


image.png

可以知道,他们是不条件独立的,而一旦给定变量c 之后,概率图模型变为(给定变量用阴影填满):

  此时a b 的联合概率可以表示为:


image.png


 此时a b 条件独立。

  • Example 2head-to-tail

  再考虑链状的一个情况:

  此时概率图的联合概率可以表示为:

image.png

变量a 和变量b 的联合概率可以表示为:


image.png

可以发现,变量a 和变量b 并不条件独立。当给定变量c 之后,概率图变为:

  变量a 和变量b 的联合概率可以表示为:

image.png

此时变量a 和变量b 条件独立。


  • Example 3head-to-head

  此时概率图的联合概率表示为:

image.png

a b 之间的联合概率可以表示为:


image.png

 可以发现他们是条件独立的,当给定变量c 之后,此时概率图模型变为如下形式:

  此时a b 的联合概率可以表示为:

image.png

此时a b 不是条件独立的。

  对上述规律进行总结,变成D-separation

  考虑两个结点的集合A B A B 的路径上,如果有一个集合C 在,以下两种情况我们称这条路径被blocked

  (a) 路径上的箭头,满足head-to-tail或者tail-to-tail的节点在集合C 中;

  (b) 路径上的箭头满足head-to-head的节点不在C 里面,或者它任何的后代都不在C 里面。

  如果A B 的所有路径都是blocked的话,我们称A B C d-separated的。


D-separation的应用


  我们在做极大似然估计的时候,似然函数可以写成如下形式:

image.png


image.png


贝叶斯推论


  Bayesian inference就是拿观测数据去更新我们的假设:


image.png

P (  hypothesis  ∣  data  ) 也被称作后验概率,说的是观测到某些数据之后所做的推断。P (  data  ∣  hypothesis  ) 被称作为似然,likelihoodP (  hypothesis  ) 被称作为先验。

  在做近似推断的时候,我们经常需要去评估后验概率p ( Z ∣ X ) ,或者是E p ( Z ∣ X ) 。但往往这个z zz变量是高维的,较难处理。近似推断(Approximate inference)常常会被用来解决这类问题。

  • 确定行的技术拉普拉斯近似(Laplace approximation)来用高斯分布找到p ( Z ∣ X ) ;另外一个技术就是变分推断(variational inference)。经典机器学习系列(十)【变分推断】
  • 随机性的技术:马尔科夫链蒙特卡洛(Markov Chain Monte Carlo,MCMC),从p ( Z ∣ X ) 中采样大量的样本之后做估计。


变分推断


  变分推断(Variational inference)的思想主要就是用一个参数化的分布近似后验分布:

image.png

这样就把一个推理(inference)问题变成一个优化(optimization)问题。详细的变分推断的知识可以在这里找到:经典机器学习系列(十)【变分推断】。这里直接给出log下的边缘概率表示:

image.png


概率图角度解强化学习问题


图概率下的策略搜索


  最大熵的RL就等于某种inference,在最大熵的RL里面,所有的东西都有一个soft,都有一个概率,这样做的很自然的一个好处就在于能够增加探索(exploration),概率图模型理论框架已近比较成熟,如果能够用于强化学习中能够解决很多强化学习的问题。

  回顾一下强化学习,强化学习的优化目标可以表示为一个策略搜索问题,以最大化期望奖励对策略参数进行搜索:


image.png

其轨迹(trajectory)分布可以表示为:


image.png

  从这个trajectory的联合分布可以推出其概率图模型:

20210224070951190.png



image.png


 此时的概率图模型表示为:


image.png



通过上述这种定义方式,在确定性环境(deterministic dynamics)中很容易被理解,最高的奖励将有最大的出现概率。具体底奖励的轨迹出现的概率也会比较低。

image.png


我们可以从状态-动作(state-action)的消息中得到仅有状态(state)的消息:

image.pngdat

image.png


image.pngimage.png

image.png


我们把这个东西称作soft value function。此时策略:


image.pngimage.png


相关文章
|
5月前
|
传感器 人工智能 安全
运营商三要素API的实战指南:实现 “人 - 证 - 号” 三位一体核验
在数字身份欺诈频发的背景下,传统单点验证已无法满足高安全需求。探数API推出的“运营商三要素核验API”,通过姓名、身份证号、手机号的三重交叉验证,构建起“铁三角”防线,广泛适用于金融、政务、电商等领域。该API支持一致性验证及基础信息返回(可选),具备高准确性与防伪性,远超单一或双因素验证方式。其调用流程简单,提供Python示例代码及异常处理建议,助力打造更安全的数字身份体系,成为连接多领域的关键桥梁。未来,多因子融合的身份认证将成为趋势,而三要素核验API正是当前可信数字身份的重要基石。
645 2
|
10月前
|
存储 人工智能 自然语言处理
|
资源调度 监控 Linux
yarn资源管理之cgroup
yarn资源管理之cgroup
yarn资源管理之cgroup
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能股票交易策略
使用Python实现智能股票交易策略
417 0
|
存储 安全 关系型数据库
探索后端开发:从基础到进阶
【7月更文挑战第31天】本文将带领读者深入了解后端开发的各个方面,包括基本概念、关键技术和实践案例。通过详细的代码示例和实际应用分析,我们旨在帮助初学者构建坚实的后端知识体系,并指导有一定经验的开发者进一步提升技能。
116 1
|
存储 算法
精益求精——斐波那契数列的logn解法
精益求精——斐波那契数列的logn解法
417 0
|
消息中间件 Java Spring
五、消息确认机制(ACK)
五、消息确认机制(ACK)
897 1
|
Linux 网络安全 数据安全/隐私保护
Linux 使用ssh密钥认证方式登陆另一台linux服务器
Linux 使用ssh密钥认证方式登陆另一台linux服务器
|
Python
YAML+PyYAML笔记 9 | PyYAML源码之dump(),dump_all(),safe_dump(),yaml.YAMLObject
YAML+PyYAML笔记 9 | PyYAML源码之dump(),dump_all(),safe_dump(),yaml.YAMLObject
255 0