【RLchina第四讲】Model-Based Reinforcement Learning(下)

简介: 【RLchina第四讲】Model-Based Reinforcement Learning(下)

POPLIN


  POPLINpolicy planning的一个简称,PETS这个算法采样的方式是最简单的CEM方法,它没有关注当前的state是啥,就随机给actionPOLIN算法中就用一个policy去采样,也就是说在POPLIN中需要保留一个policy用来在给定当前仿真状态的时候采样一个动作。使得其在当前的状态下能够采样出来更好的action。给定一个状态,拿策略进行采样,得到的期望奖励可以表达为以下形式:image.png

理论边界分析:SLBO,MBPO & BMPO


  从理论层面去思考一下模型到底有多准,以至于它最终训练出来的policy和真实的policy能有多接近。这就会决定如何来使用这样一个模型。模型如果不准的话,原则上我们就少用它,少用它的话,我们的采样效率就不高。模型不准的情况下又多用它的话,最终的性能就会很低,因为引入了一些noise


值差异界限

image.png


  这个bound需要一些实际的要求与假设:

image.png

 其中L LL为普希茨常数,表示神经网络上梯度最大的那个常数。

  有了上述三个条件之后,就可以去做一个meta algorithm

  这里的meta algorithm说的是训练模型是一个algorithm,训练policy是一个algorithm,从meta层面上理解就是元算法。

  因为trpo算法的约束与上述优化目标的约束一样,所以在训练策略的时候,直接拿trpo训练即可。策略训练完了之后,就可以拿到数据去训练模型。通过这种方式,让策略和模型相互迭代更新。通过这种方式,能够拿到策略所需要的环境模型。

  这个时候就会有一个理论的收敛证明:

Theorem:基于Algorithm 1,产生得到的策略π 0 , ⋯   , π T ,πT对于如下值函数单调上升:

image.png

Proof


  因为D d 满足R1,所以有:

image.png

 有了上述的理论分析之后,就能够去导出SLBO(Stochastic Lower Bound Optimization):

  上述算法2模型的loss为:


image.png

模型和策略的优化目标为:


image.png

  SLBO提供了一种策略如何学习才能够获得性能单调递增的思路。但是这里有个很强的假设就是model能够拟合到最优真实模型。


基于模型的策略优化


  两个环境模型所带来的误差有两部分组成,一个是转移模型所带来的ϵm,一个是策略带来的ϵ π

image.png

这里的η看作SLBO中的value即可。后面的与SLBO很像,以差异的方式显示出来。


image.png

branch上采样k步得到的数据拿来训练policy,与真实policybound如上所示。后面的这一项中有三小项,前面两个与ϵ π 有关,前面两小项与γ 有关,k 越大整体值越小。第三项与k 成线性关系。想要max住后面这一项的话,对后面的求导,发现k 等于0的效果是最好的,也就是说不要去使用model是最好的,这是一个悲观的推导。但是有值得注意的地方

image.png


 最终的算法如下:


20210221223736951.png

通过路径反向传播:SVG and MAAC


  这里我们介绍白盒模型,我们把模型打开,看到里面梯度的传递方式,我们就可以直接对于当前policy的参数求导,期望能够maxmize我们未来value的值。

  与环境交互的过程中就像RNN一样,只要构建了能够反向求导的模型,我们就可以打穿整条trajectory把梯度求下来。


确定性策略梯度


  在DDPG里面,策略是可以用在连续动作空间中的。critic模块对状态-动作的估计可以表示为如下形式:


image.png

 这样在状态s ss下,想要出什么样的a aa能够使得Q QQ值最大。这就是链式法则去优化策略参数的一种方式。


随机性策略值函数梯度


  • Learning Continuous Control Policies by Stochastic Value Gradients

  若环境和策略都是随机的(stochastic)的话,我们就可以用重参数化的方法(reparameterization):

image.png


 相应的V 也可以对策略的参数θ 进行求导:

image.png

 通过这种方式就可以把随机采样出来的一个轨迹直接求导往前传,通过重参数化的方法来做到这一点。本来是一个条件分布:


image.png

但是我们因为加入了一些高斯白噪声,我们可以把一个高斯变成一个均值,加上方差乘上一个白噪声:


image.png

 这里的μ σ 都是完全确定性的函数,我们只是加入了一个白噪声,让其像一个高斯分布而已。同样的方式可以在状态转移函数和策略上都加入相应的噪声,这样所有的模块都是确定性的,就能将导数进行传递了。


image.png

对于随机环境下求梯度的方式可以表示为:

image.png

 这就是SVG,在状态s 下直接对θ进行求导使得值函数变大。S V G ( ∞ ) 对整个轨迹进行求导更新:

  • Model-Augmented Actor Critic: Backpropagation through paths

  这篇文章的整个思路是和SVG非常像的,

image.png


 策略参数为θ 而整个的优化目标也为J π ( θ )。往后看H 步,然后拿一个critic截住。这样就能对参数θ 做更新。

相关文章
|
机器学习/深度学习 资源调度 算法
【RLchina第四讲】Model-Based Reinforcement Learning(上)
【RLchina第四讲】Model-Based Reinforcement Learning(上)
845 0
|
机器学习/深度学习 人工智能 算法
【5分钟 Paper】Reinforcement Learning with Deep Energy-Based Policies
【5分钟 Paper】Reinforcement Learning with Deep Energy-Based Policies
144 0
|
机器学习/深度学习 编解码 算法
【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning
【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning
161 0
|
人工智能
(转)Nuts and Bolts of Applying Deep Learning
Kevin Zakka's Blog About Nuts and Bolts of Applying Deep Learning Sep 26, 2016 This weekend was very hectic (catching up on courses an...
|
机器学习/深度学习 编解码 数据可视化
Speech Emotion Recognition With Local-Global aware Deep Representation Learning论文解读
语音情感识别(SER)通过从语音信号中推断人的情绪和情感状态,在改善人与机器之间的交互方面发挥着至关重要的作用。尽管最近的工作主要集中于从手工制作的特征中挖掘时空信息,但我们探索如何从动态时间尺度中建模语音情绪的时间模式。
182 0
|
机器学习/深度学习 算法 计算机视觉
论文笔记之:Learning Cross-Modal Deep Representations for Robust Pedestrian Detection
Learning Cross-Modal Deep Representations for Robust Pedestrian Detection 2017-04-11  19:40:22    Motivation:   本文主要是考虑了在光照极端恶劣的情况下,如何充分的利用 thermal data 进行协助学习提升 可见光图像的 特征表达能力,而借鉴了 ICCV 2015 年的一个文章,称为:监督迁移的方法,以一种模态的特征为 label,以监督学习的方式实现无监督学习。
|
算法 机器学习/深度学习 数据挖掘
inference和learning
一开始对于机器学习,主要是有监督学习,我的看法是: 假定一个算法模型,然后它有一些超参数,通过喂多组数据,每次喂数据后计算一下这些超参数。最后,数据喂完了,参数取值也就得到了。这组参数取值+这个算法,就是模型文件,后续能够用来预测,也就是直接用这个算法+这个参数取值的组合,能投入实际使用,做分类/回归。
1054 0
|
算法 Go
【5分钟 Paper】Continuous Control With Deep Reinforcement Learning
【5分钟 Paper】Continuous Control With Deep Reinforcement Learning
154 0
论文阅读之: Hierarchical Object Detection with Deep Reinforcement Learning
Hierarchical Object Detection with Deep Reinforcement Learning NIPS 2016 WorkShop      Paper : https://arxiv.

热门文章

最新文章