【RLchina第五讲】Control as Inference(下)

简介: 【RLchina第五讲】Control as Inference(下)
  • QV 之间的关系


  到这我们已经得到了策略,更进一步我们考虑Q V 之间的关系。考虑对动作空间下的边缘概率分布积分有:

image.png

但是往往环境是随机的,所以我们有:

image.png

 上述的这个反向传播值函数是很特别的,与以往的Q 值函数更新公式不同的地方在于,对于未来状态的状态值函数做了一个softmax这样的东西,这就使得不会突出考虑最大的那个值函数,也能够增加更多的探索。对于随机环境来说会有比较好的效果。


隐目标函数下的最大熵强化学习

image.png


优化目标为这两者的KL散度:


image.png

两边取负号,并将其展开可得:

image.png

此时最小化KL散度变成了最大化期望奖励和策略的熵。对于最后一步T TT,把末尾项展开,把策略扔到计算期望的函数里面,可以得到如下形式:


image.png

image.pngimage.png


整理可得:

image.png

image.png

可以看出,基于图概率下的策略搜索和基于变分推断做KL散度得到的策略结果是一样的。这也充分说明之前做的police inference就是在解决这个潜在目标函数下的优化问题。


随机环境下的优化

image.png

此时的KL散度优化目标可以写为:

image.pngimage.png

由于存在image.png这一项,在无模型的设定里,这一项是比较难优化的。

最大熵强化学习与变分推断


  变分推断是用一个简单的变分分布去近似后验分布,在最大熵RL里面的轨迹概率为:


image.png

这里我们将需要去近似这个分布的概率设置为:


image.png


最后一个不等式是通过Jensen’s inequality推导得到的。再依据p ( τ ) q ( τ )的定义,带入上述方程中,我们可以得到如下不等式:

image.png

上述用图模型思考强化学习问题的时候,目标函数会带一个entropy


Soft Q-Learning

image.png

image.pngimage.png


为了与标准的Q-Learning算法对比,我们给出标准的Q-Learning算法的更新公式:

image.png

  • Liu Q , Wang D . Stein Variational Gradient Descent: A General Purpose Bayesian Inference Algorithm[C]// 2016.
  • Haarnoja, T., Tang, H., Abbeel, P., and Levine, S. (2017). Reinforcement learning with deep energy- based policies. In International Conference on Machine Learning (ICML).


最大熵策略梯度

image.png

目标函数可以定义为:


image.png

对其求梯度有:


image.pngimage.png

image.png

Soft Actor-Critic


  SAC就是将优势函数也进行参数化,变成一个off-policy的算法。优化目标为:

image.png

 对Q 值函数一样,有:

image.png

对其求导有:


image.png

策略优化目标为:

image.png

伪代码:

参考文献


  1. Pattern recognition and machine learning by Bishop 2006
  2. Levine, S., 2018. Reinforcement learning and control as probabilistic inference: Tutorial and review. arXiv preprint arXiv:1805.00909
  3. Haarnoja, T., Tang, H., Abbeel, P., and Levine, S. (2017). Reinforcement learning with deep energy- based policies. In International Conference on Machine Learning (ICML).
  4. Tuomas Haarnoja*, Aurick Zhou*, Kristian Hartikainen*, George Tucker, Sehoon Ha, Jie Tan, Vikash Kumar, Henry Zhu, Abhishek Gupta, Pieter Abbeel, Sergey Levine. Soft Actor-Critic Algorithms and Applications. arXiv preprint, 2018.
  5. Kappen. (2009). Optimal control as a graphical model inference problem: frames control as an inference problem in a graphical model
  6. Ziebart. (2010). Modeling interaction via the principle of maximal causal entropy: connection between soft optimality and maximum entropy modeling.
相关文章
|
7月前
|
机器学习/深度学习 数据挖掘
【提示学习】HPT: Hierarchy-aware Prompt Tuning for Hierarchical Text Classification
本文是较早把Prompt应用到层级多标签文本分类领域的论文。思路是把层级标签分层编入到Pattern中,然后修改损失函数以适应多标签的分类任务。
|
7月前
|
数据挖掘
【提示学习】Automatic Multi-Label Prompting: Simple and Interpretable Few-Shot Classification
文章提出了一种简单确高效地构建verbalization的方法:
|
9月前
|
自然语言处理 算法
SIFRank New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model
在社交媒体上,面临着大量的知识和信息,一个有效的关键词抽取算法可以广泛地被应用的信息检索和自然语言处理中。传统的关键词抽取算法很难使用外部的知识信息。
97 0
SIFRank New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model
|
9月前
|
机器学习/深度学习
【RLchina第五讲】Control as Inference(上)
【RLchina第五讲】Control as Inference(上)
|
9月前
|
自然语言处理 Java 计算机视觉
ACL2023 - AMPERE: AMR-Aware Prefix for Generation-Based Event Argument Extraction Model
事件论元抽取(EAE)识别给定事件的事件论元及其特定角色。最近在基于生成的EAE模型方面取得的进展显示出了与基于分类的模型相比的良好性能和可推广性
119 0
|
9月前
|
人工智能 数据可视化 决策智能
【CAMEL】Communicative Agents for “Mind”Exploration of Large Scale Language Model Society
【CAMEL】Communicative Agents for “Mind”Exploration of Large Scale Language Model Society
251 0
|
9月前
|
机器学习/深度学习 存储 自然语言处理
PESE Event Structure Extraction using Pointer Network based Encoder-Decoder Architecture论文解读
事件抽取(EE)的任务旨在从文本中找到事件和事件相关的论元信息,并以结构化格式表示它们。大多数以前的工作都试图通过分别识别多个子结构并将它们聚合以获得完整的事件结构来解决这个问题。
50 0
|
9月前
|
机器学习/深度学习 数据挖掘
ACL2023 - An AMR-based Link Prediction Approach for Document-level Event Argument Extraction
最近的工作引入了用于文档级事件论元提取(文档级EAE)的抽象语义表示(AMR),因为AMR提供了对复杂语义结构的有用解释,并有助于捕获长距离依赖关系
104 0
|
9月前
|
自然语言处理 算法 知识图谱
DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读
事件抽取需要专家进行高质量的人工标注,这通常很昂贵。因此,学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。
75 0
|
9月前
|
机器学习/深度学习 自然语言处理 索引
GTEE-DYNPREF: Dynamic Prefix-Tuning for Generative Template-based Event Extraction 论文解读
我们以基于模板的条件生成的生成方式考虑事件抽取。尽管将事件抽取任务转换为带有提示的序列生成问题的趋势正在上升,但这些基于生成的方法存在两个重大挑战
79 0