【RLchina第四讲】Model-Based Reinforcement Learning(下)

简介: 【RLchina第四讲】Model-Based Reinforcement Learning(下)

POPLIN


  POPLINpolicy planning的一个简称,PETS这个算法采样的方式是最简单的CEM方法,它没有关注当前的state是啥,就随机给actionPOLIN算法中就用一个policy去采样,也就是说在POPLIN中需要保留一个policy用来在给定当前仿真状态的时候采样一个动作。使得其在当前的状态下能够采样出来更好的action。给定一个状态,拿策略进行采样,得到的期望奖励可以表达为以下形式:image.png

理论边界分析:SLBO,MBPO & BMPO


  从理论层面去思考一下模型到底有多准,以至于它最终训练出来的policy和真实的policy能有多接近。这就会决定如何来使用这样一个模型。模型如果不准的话,原则上我们就少用它,少用它的话,我们的采样效率就不高。模型不准的情况下又多用它的话,最终的性能就会很低,因为引入了一些noise


值差异界限

image.png


  这个bound需要一些实际的要求与假设:

image.png

 其中L LL为普希茨常数,表示神经网络上梯度最大的那个常数。

  有了上述三个条件之后,就可以去做一个meta algorithm

  这里的meta algorithm说的是训练模型是一个algorithm,训练policy是一个algorithm,从meta层面上理解就是元算法。

  因为trpo算法的约束与上述优化目标的约束一样,所以在训练策略的时候,直接拿trpo训练即可。策略训练完了之后,就可以拿到数据去训练模型。通过这种方式,让策略和模型相互迭代更新。通过这种方式,能够拿到策略所需要的环境模型。

  这个时候就会有一个理论的收敛证明:

Theorem:基于Algorithm 1,产生得到的策略π 0 , ⋯   , π T ,πT对于如下值函数单调上升:

image.png

Proof


  因为D d 满足R1,所以有:

image.png

 有了上述的理论分析之后,就能够去导出SLBO(Stochastic Lower Bound Optimization):

  上述算法2模型的loss为:


image.png

模型和策略的优化目标为:


image.png

  SLBO提供了一种策略如何学习才能够获得性能单调递增的思路。但是这里有个很强的假设就是model能够拟合到最优真实模型。


基于模型的策略优化


  两个环境模型所带来的误差有两部分组成,一个是转移模型所带来的ϵm,一个是策略带来的ϵ π

image.png

这里的η看作SLBO中的value即可。后面的与SLBO很像,以差异的方式显示出来。


image.png

branch上采样k步得到的数据拿来训练policy,与真实policybound如上所示。后面的这一项中有三小项,前面两个与ϵ π 有关,前面两小项与γ 有关,k 越大整体值越小。第三项与k 成线性关系。想要max住后面这一项的话,对后面的求导,发现k 等于0的效果是最好的,也就是说不要去使用model是最好的,这是一个悲观的推导。但是有值得注意的地方

image.png


 最终的算法如下:


20210221223736951.png

通过路径反向传播:SVG and MAAC


  这里我们介绍白盒模型,我们把模型打开,看到里面梯度的传递方式,我们就可以直接对于当前policy的参数求导,期望能够maxmize我们未来value的值。

  与环境交互的过程中就像RNN一样,只要构建了能够反向求导的模型,我们就可以打穿整条trajectory把梯度求下来。


确定性策略梯度


  在DDPG里面,策略是可以用在连续动作空间中的。critic模块对状态-动作的估计可以表示为如下形式:


image.png

 这样在状态s ss下,想要出什么样的a aa能够使得Q QQ值最大。这就是链式法则去优化策略参数的一种方式。


随机性策略值函数梯度


  • Learning Continuous Control Policies by Stochastic Value Gradients

  若环境和策略都是随机的(stochastic)的话,我们就可以用重参数化的方法(reparameterization):

image.png


 相应的V 也可以对策略的参数θ 进行求导:

image.png

 通过这种方式就可以把随机采样出来的一个轨迹直接求导往前传,通过重参数化的方法来做到这一点。本来是一个条件分布:


image.png

但是我们因为加入了一些高斯白噪声,我们可以把一个高斯变成一个均值,加上方差乘上一个白噪声:


image.png

 这里的μ σ 都是完全确定性的函数,我们只是加入了一个白噪声,让其像一个高斯分布而已。同样的方式可以在状态转移函数和策略上都加入相应的噪声,这样所有的模块都是确定性的,就能将导数进行传递了。


image.png

对于随机环境下求梯度的方式可以表示为:

image.png

 这就是SVG,在状态s 下直接对θ进行求导使得值函数变大。S V G ( ∞ ) 对整个轨迹进行求导更新:

  • Model-Augmented Actor Critic: Backpropagation through paths

  这篇文章的整个思路是和SVG非常像的,

image.png


 策略参数为θ 而整个的优化目标也为J π ( θ )。往后看H 步,然后拿一个critic截住。这样就能对参数θ 做更新。

相关文章
|
Java C++ Spring
解决NoUniqueBeanDefinitionException异常的方法
了解Spring框架中`NoUniqueBeanDefinitionException`异常的原因和解决方案。此异常发生在容器内有多个相同类型的bean时,Spring无法决定注入哪个bean。解决方法包括:使用`@Primary`注解标记首选bean,利用`@Qualifier`注解配合`@Autowired`、`@Resource`、`@Inject`或`@Value`指定bean名称。选择哪种方法取决于业务需求和具体场景,预防措施是避免创建多个同类型bean或使用`@Primary`注解。
562 0
|
机器学习/深度学习 人工智能 自然语言处理
华人学生团队获国际神经网络验证大赛佳绩:总分第一,五大单项第一
由来自卡内基梅隆大学、美国东北大学、哥伦比亚大学、加州大学洛杉矶分校的成员共同开发的工具α,β-CROWN 获得了第二届国际神经网络验证大赛总分第一,以及 5 个单项第一!其中该团队的学生作者均为华人。
568 0
华人学生团队获国际神经网络验证大赛佳绩:总分第一,五大单项第一
|
3月前
|
存储 缓存 固态存储
固态硬盘为什么会出现故障?
近年来,固态硬盘(SSD)因速度快广受用户青睐,但使用中也出现故障频发的问题,如开机异常、数据丢失、系统卡顿等。本文解析SSD故障原因,包括寿命限制、主控设计缺陷、电压波动、固件问题等,并提供数据抢救方法与延长SSD寿命的实用技巧,助你避免数据丢失风险。
VSCode:code helper进程导致Mac的CPU使用率很高
VSCode:code helper进程导致Mac的CPU使用率很高
1388 0
VSCode:code helper进程导致Mac的CPU使用率很高
|
PyTorch 算法框架/工具 异构计算
PyTorch 2.2 中文官方教程(十八)(1)
PyTorch 2.2 中文官方教程(十八)
595 2
PyTorch 2.2 中文官方教程(十八)(1)
|
缓存 负载均衡 监控
什么是反向代理?
反向代理是一种网络技术,位于Web服务器前,接收客户端请求并转发给适当的后端服务器,对客户端透明。它主要用于负载均衡、提高安全性和性能,例如通过缓存减少服务器负载和处理SSL加密。反向代理的益处包括保护内部服务器、分发流量,但也存在风险,如单点故障、配置复杂性和安全漏洞。为了确保安全和可靠性,需要谨慎配置和管理。
398 2
|
机器学习/深度学习 人工智能 编解码
无限生成视频,还能规划决策,扩散强制整合下一token预测与全序列扩散
【8月更文挑战第15天】在AI领域,新训练范式“扩散强制”(DF)为序列生成模型带来革新。DF通过独立噪声级去噪token,实现稳定且可变长度的序列生成,支持引导生成高价值序列。其核心机制使模型学习揭露不同噪声级别的token。在视频预测等领域,DF展现出生成长序列的一致性及通过蒙特卡洛树引导提高决策质量的能力。理论与实证均验证了DF的有效性,尽管现有实现受限于小型RNN,未来有望拓展至更大模型与数据集。[论文](https://arxiv.org/pdf/2407.01392)
215 1
|
机器学习/深度学习 人工智能 运维
智能化运维:AI在故障预测与自愈系统中的应用
【6月更文挑战第4天】本文探讨了人工智能(AI)技术在运维领域的革新作用,特别是其在故障预测和自愈系统中的应用。通过分析AI技术的基本原理及其在运维中的实际应用案例,文章揭示了AI如何提升系统的稳定性和效率,同时指出了实施过程中的挑战和未来的发展方向。
WK
|
算法 决策智能
PSO算法的缺点有哪些
粒子群优化(PSO)算法是一种基于群体协作的随机搜索方法,源自对鸟群觅食行为的模拟。尽管其在多领域展现了独特优势,但也存在显著缺点:易陷局部最优、搜索精度不足、高度依赖参数设置、理论基础薄弱、适用范围有限及早熟收敛问题。针对这些问题,可通过结合其他优化算法、调整参数及改进更新公式等方式提升其性能。
WK
762 0
|
机器学习/深度学习 算法 vr&ar
南大最新综述论文:基于模型的强化学习
南大最新综述论文:基于模型的强化学习
582 0
下一篇
oss云网关配置