【RLchina第五讲】Control as Inference(上)

简介: 【RLchina第五讲】Control as Inference(上)

概率图基础


  概率图模型就是用图的结构来表示多个随机变量的联合概率分布(joint probability distribution),



image.png

有了这样一个概率图模型之后,我们就能够很容易地去采样出一个样本出来。原始采样法(ancestral sampling)从模型所表示的联合分布中产生样本,又称祖先采样法。该方法所得出的结果即视为原始采样。对于上述概率图,其采样可以表示为:

image.png

D-separation


这里还有一个概念比较重要:条件独立:如果p ( a ∣ b , c ) = p ( a ∣ c ) ,那么我们说在给定c cc的情况下,a b 是条件独立的,定义为a ⊥ b ∣ c

  给定一个图模型之后,如何测试哪些变量是条件独立的呢?我们举三个例子来说明:

  • Example 1tail-to-tail

  上图的有向图联合概率分布可以表示为:

image.png


变量c 不给定的情况下,a 和b 的联合概率表示为:


image.png

可以知道,他们是不条件独立的,而一旦给定变量c 之后,概率图模型变为(给定变量用阴影填满):

  此时a b 的联合概率可以表示为:


image.png


 此时a b 条件独立。

  • Example 2head-to-tail

  再考虑链状的一个情况:

  此时概率图的联合概率可以表示为:

image.png

变量a 和变量b 的联合概率可以表示为:


image.png

可以发现,变量a 和变量b 并不条件独立。当给定变量c 之后,概率图变为:

  变量a 和变量b 的联合概率可以表示为:

image.png

此时变量a 和变量b 条件独立。


  • Example 3head-to-head

  此时概率图的联合概率表示为:

image.png

a b 之间的联合概率可以表示为:


image.png

 可以发现他们是条件独立的,当给定变量c 之后,此时概率图模型变为如下形式:

  此时a b 的联合概率可以表示为:

image.png

此时a b 不是条件独立的。

  对上述规律进行总结,变成D-separation

  考虑两个结点的集合A B A B 的路径上,如果有一个集合C 在,以下两种情况我们称这条路径被blocked

  (a) 路径上的箭头,满足head-to-tail或者tail-to-tail的节点在集合C 中;

  (b) 路径上的箭头满足head-to-head的节点不在C 里面,或者它任何的后代都不在C 里面。

  如果A B 的所有路径都是blocked的话,我们称A B C d-separated的。


D-separation的应用


  我们在做极大似然估计的时候,似然函数可以写成如下形式:

image.png


image.png


贝叶斯推论


  Bayesian inference就是拿观测数据去更新我们的假设:


image.png

P (  hypothesis  ∣  data  ) 也被称作后验概率,说的是观测到某些数据之后所做的推断。P (  data  ∣  hypothesis  ) 被称作为似然,likelihoodP (  hypothesis  ) 被称作为先验。

  在做近似推断的时候,我们经常需要去评估后验概率p ( Z ∣ X ) ,或者是E p ( Z ∣ X ) 。但往往这个z zz变量是高维的,较难处理。近似推断(Approximate inference)常常会被用来解决这类问题。

  • 确定行的技术拉普拉斯近似(Laplace approximation)来用高斯分布找到p ( Z ∣ X ) ;另外一个技术就是变分推断(variational inference)。经典机器学习系列(十)【变分推断】
  • 随机性的技术:马尔科夫链蒙特卡洛(Markov Chain Monte Carlo,MCMC),从p ( Z ∣ X ) 中采样大量的样本之后做估计。


变分推断


  变分推断(Variational inference)的思想主要就是用一个参数化的分布近似后验分布:

image.png

这样就把一个推理(inference)问题变成一个优化(optimization)问题。详细的变分推断的知识可以在这里找到:经典机器学习系列(十)【变分推断】。这里直接给出log下的边缘概率表示:

image.png


概率图角度解强化学习问题


图概率下的策略搜索


  最大熵的RL就等于某种inference,在最大熵的RL里面,所有的东西都有一个soft,都有一个概率,这样做的很自然的一个好处就在于能够增加探索(exploration),概率图模型理论框架已近比较成熟,如果能够用于强化学习中能够解决很多强化学习的问题。

  回顾一下强化学习,强化学习的优化目标可以表示为一个策略搜索问题,以最大化期望奖励对策略参数进行搜索:


image.png

其轨迹(trajectory)分布可以表示为:


image.png

  从这个trajectory的联合分布可以推出其概率图模型:

20210224070951190.png



image.png


 此时的概率图模型表示为:


image.png



通过上述这种定义方式,在确定性环境(deterministic dynamics)中很容易被理解,最高的奖励将有最大的出现概率。具体底奖励的轨迹出现的概率也会比较低。

image.png


我们可以从状态-动作(state-action)的消息中得到仅有状态(state)的消息:

image.pngdat

image.png


image.pngimage.png

image.png


我们把这个东西称作soft value function。此时策略:


image.pngimage.png


相关文章
|
7月前
|
机器学习/深度学习 数据挖掘
【提示学习】HPT: Hierarchy-aware Prompt Tuning for Hierarchical Text Classification
本文是较早把Prompt应用到层级多标签文本分类领域的论文。思路是把层级标签分层编入到Pattern中,然后修改损失函数以适应多标签的分类任务。
|
1天前
|
算法 BI 计算机视觉
[Initial Image Segmentation Generator]论文实现:Efficient Graph-Based Image Segmentation
[Initial Image Segmentation Generator]论文实现:Efficient Graph-Based Image Segmentation
9 1
|
7月前
|
数据挖掘
【提示学习】Automatic Multi-Label Prompting: Simple and Interpretable Few-Shot Classification
文章提出了一种简单确高效地构建verbalization的方法:
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
OneIE:A Joint Neural Model for Information Extraction with Global Features论文解读
大多数现有的用于信息抽取(IE)的联合神经网络模型使用局部任务特定的分类器来预测单个实例(例如,触发词,关系)的标签,而不管它们之间的交互。
111 0
|
9月前
|
机器学习/深度学习 自然语言处理 算法
TASLP21-Reinforcement Learning-based Dialogue Guided Event Extraction to Exploit Argument Relations
事件抽取是自然语言处理的一项基本任务。找到事件论元(如事件参与者)的角色对于事件抽取至关重要。
62 0
|
9月前
|
自然语言处理 算法
SIFRank New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model
在社交媒体上,面临着大量的知识和信息,一个有效的关键词抽取算法可以广泛地被应用的信息检索和自然语言处理中。传统的关键词抽取算法很难使用外部的知识信息。
97 0
SIFRank New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model
|
9月前
|
机器学习/深度学习 算法
【RLchina第五讲】Control as Inference(下)
【RLchina第五讲】Control as Inference(下)
|
9月前
|
自然语言处理 Java 计算机视觉
ACL2023 - AMPERE: AMR-Aware Prefix for Generation-Based Event Argument Extraction Model
事件论元抽取(EAE)识别给定事件的事件论元及其特定角色。最近在基于生成的EAE模型方面取得的进展显示出了与基于分类的模型相比的良好性能和可推广性
119 0
|
9月前
|
自然语言处理 算法 知识图谱
DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读
事件抽取需要专家进行高质量的人工标注,这通常很昂贵。因此,学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。
75 0
|
9月前
|
机器学习/深度学习 存储 自然语言处理
PESE Event Structure Extraction using Pointer Network based Encoder-Decoder Architecture论文解读
事件抽取(EE)的任务旨在从文本中找到事件和事件相关的论元信息,并以结构化格式表示它们。大多数以前的工作都试图通过分别识别多个子结构并将它们聚合以获得完整的事件结构来解决这个问题。
50 0