【RLchina第五讲】Control as Inference(上)

简介: 【RLchina第五讲】Control as Inference(上)

概率图基础


  概率图模型就是用图的结构来表示多个随机变量的联合概率分布(joint probability distribution),



image.png

有了这样一个概率图模型之后,我们就能够很容易地去采样出一个样本出来。原始采样法(ancestral sampling)从模型所表示的联合分布中产生样本,又称祖先采样法。该方法所得出的结果即视为原始采样。对于上述概率图,其采样可以表示为:

image.png

D-separation


这里还有一个概念比较重要:条件独立:如果p ( a ∣ b , c ) = p ( a ∣ c ) ,那么我们说在给定c cc的情况下,a b 是条件独立的,定义为a ⊥ b ∣ c

  给定一个图模型之后,如何测试哪些变量是条件独立的呢?我们举三个例子来说明:

  • Example 1tail-to-tail

  上图的有向图联合概率分布可以表示为:

image.png


变量c 不给定的情况下,a 和b 的联合概率表示为:


image.png

可以知道,他们是不条件独立的,而一旦给定变量c 之后,概率图模型变为(给定变量用阴影填满):

  此时a b 的联合概率可以表示为:


image.png


 此时a b 条件独立。

  • Example 2head-to-tail

  再考虑链状的一个情况:

  此时概率图的联合概率可以表示为:

image.png

变量a 和变量b 的联合概率可以表示为:


image.png

可以发现,变量a 和变量b 并不条件独立。当给定变量c 之后,概率图变为:

  变量a 和变量b 的联合概率可以表示为:

image.png

此时变量a 和变量b 条件独立。


  • Example 3head-to-head

  此时概率图的联合概率表示为:

image.png

a b 之间的联合概率可以表示为:


image.png

 可以发现他们是条件独立的,当给定变量c 之后,此时概率图模型变为如下形式:

  此时a b 的联合概率可以表示为:

image.png

此时a b 不是条件独立的。

  对上述规律进行总结,变成D-separation

  考虑两个结点的集合A B A B 的路径上,如果有一个集合C 在,以下两种情况我们称这条路径被blocked

  (a) 路径上的箭头,满足head-to-tail或者tail-to-tail的节点在集合C 中;

  (b) 路径上的箭头满足head-to-head的节点不在C 里面,或者它任何的后代都不在C 里面。

  如果A B 的所有路径都是blocked的话,我们称A B C d-separated的。


D-separation的应用


  我们在做极大似然估计的时候,似然函数可以写成如下形式:

image.png


image.png


贝叶斯推论


  Bayesian inference就是拿观测数据去更新我们的假设:


image.png

P (  hypothesis  ∣  data  ) 也被称作后验概率,说的是观测到某些数据之后所做的推断。P (  data  ∣  hypothesis  ) 被称作为似然,likelihoodP (  hypothesis  ) 被称作为先验。

  在做近似推断的时候,我们经常需要去评估后验概率p ( Z ∣ X ) ,或者是E p ( Z ∣ X ) 。但往往这个z zz变量是高维的,较难处理。近似推断(Approximate inference)常常会被用来解决这类问题。

  • 确定行的技术拉普拉斯近似(Laplace approximation)来用高斯分布找到p ( Z ∣ X ) ;另外一个技术就是变分推断(variational inference)。经典机器学习系列(十)【变分推断】
  • 随机性的技术:马尔科夫链蒙特卡洛(Markov Chain Monte Carlo,MCMC),从p ( Z ∣ X ) 中采样大量的样本之后做估计。


变分推断


  变分推断(Variational inference)的思想主要就是用一个参数化的分布近似后验分布:

image.png

这样就把一个推理(inference)问题变成一个优化(optimization)问题。详细的变分推断的知识可以在这里找到:经典机器学习系列(十)【变分推断】。这里直接给出log下的边缘概率表示:

image.png


概率图角度解强化学习问题


图概率下的策略搜索


  最大熵的RL就等于某种inference,在最大熵的RL里面,所有的东西都有一个soft,都有一个概率,这样做的很自然的一个好处就在于能够增加探索(exploration),概率图模型理论框架已近比较成熟,如果能够用于强化学习中能够解决很多强化学习的问题。

  回顾一下强化学习,强化学习的优化目标可以表示为一个策略搜索问题,以最大化期望奖励对策略参数进行搜索:


image.png

其轨迹(trajectory)分布可以表示为:


image.png

  从这个trajectory的联合分布可以推出其概率图模型:

20210224070951190.png



image.png


 此时的概率图模型表示为:


image.png



通过上述这种定义方式,在确定性环境(deterministic dynamics)中很容易被理解,最高的奖励将有最大的出现概率。具体底奖励的轨迹出现的概率也会比较低。

image.png


我们可以从状态-动作(state-action)的消息中得到仅有状态(state)的消息:

image.pngdat

image.png


image.pngimage.png

image.png


我们把这个东西称作soft value function。此时策略:


image.pngimage.png


相关文章
|
5月前
|
Java 容器 Spring
Inverse of Control
【6月更文挑战第3天】
33 5
|
数据挖掘
【提示学习】Automatic Multi-Label Prompting: Simple and Interpretable Few-Shot Classification
文章提出了一种简单确高效地构建verbalization的方法:
|
自然语言处理 算法 vr&ar
X-GEAR:Multilingual Generative Language Models for Zero-Shot Cross-Lingual Event Argument Extraction
我们提出了一项利用多语言预训练生成语言模型进行零样本跨语言事件论元抽取(EAE)的研究。通过将EAE定义为语言生成任务,我们的方法有效地编码事件结构并捕获论元之间的依赖关系。
121 0
|
机器学习/深度学习 算法
尝试理解论文SPOT1的代码1:Supported Policy Optimization for Offline Reinforcement Learning
尝试理解论文SPOT1的代码1:Supported Policy Optimization for Offline Reinforcement Learning
137 0
|
机器学习/深度学习 算法
【RLchina第五讲】Control as Inference(下)
【RLchina第五讲】Control as Inference(下)
|
算法 Go
【5分钟 Paper】Continuous Control With Deep Reinforcement Learning
【5分钟 Paper】Continuous Control With Deep Reinforcement Learning
|
人工智能 数据可视化 决策智能
【CAMEL】Communicative Agents for “Mind”Exploration of Large Scale Language Model Society
【CAMEL】Communicative Agents for “Mind”Exploration of Large Scale Language Model Society
344 0
|
自然语言处理 算法 知识图谱
DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读
事件抽取需要专家进行高质量的人工标注,这通常很昂贵。因此,学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。
155 0
|
自然语言处理 Java 计算机视觉
ACL2023 - AMPERE: AMR-Aware Prefix for Generation-Based Event Argument Extraction Model
事件论元抽取(EAE)识别给定事件的事件论元及其特定角色。最近在基于生成的EAE模型方面取得的进展显示出了与基于分类的模型相比的良好性能和可推广性
180 0
|
机器学习/深度学习 存储 传感器
Automated defect inspection system for metal surfaces based on deep learning and data augmentation
简述:卷积变分自动编码器(CVAE)生成特定的图像,再使用基于深度CNN的缺陷分类算法进行分类。在生成足够的数据来训练基于深度学习的分类模型之后,使用生成的数据来训练分类模型。
156 0