【RLchina第四讲】Model-Based Reinforcement Learning(下)

简介: 【RLchina第四讲】Model-Based Reinforcement Learning(下)

POPLIN


  POPLINpolicy planning的一个简称,PETS这个算法采样的方式是最简单的CEM方法,它没有关注当前的state是啥,就随机给actionPOLIN算法中就用一个policy去采样,也就是说在POPLIN中需要保留一个policy用来在给定当前仿真状态的时候采样一个动作。使得其在当前的状态下能够采样出来更好的action。给定一个状态,拿策略进行采样,得到的期望奖励可以表达为以下形式:image.png

理论边界分析:SLBO,MBPO & BMPO


  从理论层面去思考一下模型到底有多准,以至于它最终训练出来的policy和真实的policy能有多接近。这就会决定如何来使用这样一个模型。模型如果不准的话,原则上我们就少用它,少用它的话,我们的采样效率就不高。模型不准的情况下又多用它的话,最终的性能就会很低,因为引入了一些noise


值差异界限

image.png


  这个bound需要一些实际的要求与假设:

image.png

 其中L LL为普希茨常数,表示神经网络上梯度最大的那个常数。

  有了上述三个条件之后,就可以去做一个meta algorithm

  这里的meta algorithm说的是训练模型是一个algorithm,训练policy是一个algorithm,从meta层面上理解就是元算法。

  因为trpo算法的约束与上述优化目标的约束一样,所以在训练策略的时候,直接拿trpo训练即可。策略训练完了之后,就可以拿到数据去训练模型。通过这种方式,让策略和模型相互迭代更新。通过这种方式,能够拿到策略所需要的环境模型。

  这个时候就会有一个理论的收敛证明:

Theorem:基于Algorithm 1,产生得到的策略π 0 , ⋯   , π T ,πT对于如下值函数单调上升:

image.png

Proof


  因为D d 满足R1,所以有:

image.png

 有了上述的理论分析之后,就能够去导出SLBO(Stochastic Lower Bound Optimization):

  上述算法2模型的loss为:


image.png

模型和策略的优化目标为:


image.png

  SLBO提供了一种策略如何学习才能够获得性能单调递增的思路。但是这里有个很强的假设就是model能够拟合到最优真实模型。


基于模型的策略优化


  两个环境模型所带来的误差有两部分组成,一个是转移模型所带来的ϵm,一个是策略带来的ϵ π

image.png

这里的η看作SLBO中的value即可。后面的与SLBO很像,以差异的方式显示出来。


image.png

branch上采样k步得到的数据拿来训练policy,与真实policybound如上所示。后面的这一项中有三小项,前面两个与ϵ π 有关,前面两小项与γ 有关,k 越大整体值越小。第三项与k 成线性关系。想要max住后面这一项的话,对后面的求导,发现k 等于0的效果是最好的,也就是说不要去使用model是最好的,这是一个悲观的推导。但是有值得注意的地方

image.png


 最终的算法如下:


20210221223736951.png

通过路径反向传播:SVG and MAAC


  这里我们介绍白盒模型,我们把模型打开,看到里面梯度的传递方式,我们就可以直接对于当前policy的参数求导,期望能够maxmize我们未来value的值。

  与环境交互的过程中就像RNN一样,只要构建了能够反向求导的模型,我们就可以打穿整条trajectory把梯度求下来。


确定性策略梯度


  在DDPG里面,策略是可以用在连续动作空间中的。critic模块对状态-动作的估计可以表示为如下形式:


image.png

 这样在状态s ss下,想要出什么样的a aa能够使得Q QQ值最大。这就是链式法则去优化策略参数的一种方式。


随机性策略值函数梯度


  • Learning Continuous Control Policies by Stochastic Value Gradients

  若环境和策略都是随机的(stochastic)的话,我们就可以用重参数化的方法(reparameterization):

image.png


 相应的V 也可以对策略的参数θ 进行求导:

image.png

 通过这种方式就可以把随机采样出来的一个轨迹直接求导往前传,通过重参数化的方法来做到这一点。本来是一个条件分布:


image.png

但是我们因为加入了一些高斯白噪声,我们可以把一个高斯变成一个均值,加上方差乘上一个白噪声:


image.png

 这里的μ σ 都是完全确定性的函数,我们只是加入了一个白噪声,让其像一个高斯分布而已。同样的方式可以在状态转移函数和策略上都加入相应的噪声,这样所有的模块都是确定性的,就能将导数进行传递了。


image.png

对于随机环境下求梯度的方式可以表示为:

image.png

 这就是SVG,在状态s 下直接对θ进行求导使得值函数变大。S V G ( ∞ ) 对整个轨迹进行求导更新:

  • Model-Augmented Actor Critic: Backpropagation through paths

  这篇文章的整个思路是和SVG非常像的,

image.png


 策略参数为θ 而整个的优化目标也为J π ( θ )。往后看H 步,然后拿一个critic截住。这样就能对参数θ 做更新。

相关文章
|
2月前
|
数据采集 人工智能 自然语言处理
2026春招:我是如何靠一个OpenClaw项目拿下大厂产品岗Offer的?
文科零基础女生,靠OpenClaw打造“AI晨报助手”,0代码实现信息自动采集、摘要与推送,真实解决春招信息过载痛点。项目展现产品思维、AI应用深度与落地能力,助力斩获二线大厂产品岗Offer,薪资超预期。
|
8月前
|
存储 Linux C语言
【零基础友好】Linux 初学者指令指南:常用指令 + 实操案例,一步一步教你用(收藏级)
本教程系统讲解Linux操作系统基础操作与常用指令,涵盖账号管理、路径操作、文件处理、目录管理、文本查看、时间设置、文件搜索、压缩解压等内容,适合初学者快速掌握Linux命令行核心技能。
【零基础友好】Linux 初学者指令指南:常用指令 + 实操案例,一步一步教你用(收藏级)
|
5月前
|
弹性计算 Linux 网络安全
阿里云服务器购买流程详解:自定义、快速、活动、云市场镜像四种常见购买方式及适用场景详解
对于部分第一次购买阿里云服务器的用户来说,可能还不是很清楚阿里云服务器购买流程是怎样的,特别是选购过程中的一些注意事项。常见的购买方式有自定义购买、快速购买、通过活动购买、通过云市场镜像页面购买这四种购买方式,每种方式都有各自的适用场景和注意事项。本文将详细介绍这四种阿里云服务器购买方式的详细流程和适用场景,以供大家参考和选择最适合自己的方式。
349 5
|
9月前
|
存储 缓存 固态存储
固态硬盘为什么会出现故障?
近年来,固态硬盘(SSD)因速度快广受用户青睐,但使用中也出现故障频发的问题,如开机异常、数据丢失、系统卡顿等。本文解析SSD故障原因,包括寿命限制、主控设计缺陷、电压波动、固件问题等,并提供数据抢救方法与延长SSD寿命的实用技巧,助你避免数据丢失风险。
|
10月前
|
分布式计算 算法 大数据
大数据时代的智能研发平台需求与阿里云DIDE的定位
阿里云DIDE是一站式智能大数据开发与治理平台,致力于解决传统大数据开发中的效率低、协同难等问题。通过全面整合资源、高度抽象化设计及流程自动化,DIDE显著提升数据处理效率,降低使用门槛,适用于多行业、多场景的数据开发需求,助力企业实现数字化转型与智能化升级。
498 1
|
存储 监控 文件存储
《告别磁盘空间焦虑!LVM的灵活分配与扩展秘籍》
逻辑卷管理(LVM)是磁盘空间管理的强大工具,突破了传统分区固定大小的限制。它通过物理卷(PV)、卷组(VG)和逻辑卷(LV)三层结构,实现存储空间的灵活分配与动态扩展。LVM适用于企业服务器、虚拟化环境及大数据集群等场景,能高效应对不断变化的存储需求。使用时需注意数据备份、合理规划与状态监控,确保系统稳定运行。掌握LVM原理与操作,可显著提升磁盘空间管理效率。
417 26
|
算法 安全 大数据
隐私计算实训营第5讲-------隐私求交和隐语PSI介绍以及开发实践
隐私求交(Private Set Intersection, PSI)是利用密码学技术在不暴露数据集以外信息的情况下找到两集合的交集。隐语SPU支持三种PSI算法:ECDH(适合小数据集)、KKRT(基于Cuckoo Hashing和OT Extension,适合大数据集)和BC22PCG(使用伪随机相关生成器)。ECDH基于椭圆曲线 Diffie-Hellman,KKRT利用OT Extension实现高效处理,而BC22PCG通过压缩满足特定相关性的随机数减少通信量。此外,还有基于Oblivious Pseudo-Random Function (OPRF)的PSI协议。
1885 0
|
缓存 负载均衡 监控
什么是反向代理?
反向代理是一种网络技术,位于Web服务器前,接收客户端请求并转发给适当的后端服务器,对客户端透明。它主要用于负载均衡、提高安全性和性能,例如通过缓存减少服务器负载和处理SSL加密。反向代理的益处包括保护内部服务器、分发流量,但也存在风险,如单点故障、配置复杂性和安全漏洞。为了确保安全和可靠性,需要谨慎配置和管理。
656 2
|
Prometheus 监控 Kubernetes
将service类型由"ClusterIP"改为"NodePort"无法使用nodeip+端口访问服务解决方法.
将service类型由"ClusterIP"改为"NodePort"无法使用nodeip+端口访问服务解决方法.
|
机器学习/深度学习 人工智能 编解码
无限生成视频,还能规划决策,扩散强制整合下一token预测与全序列扩散
【8月更文挑战第15天】在AI领域,新训练范式“扩散强制”(DF)为序列生成模型带来革新。DF通过独立噪声级去噪token,实现稳定且可变长度的序列生成,支持引导生成高价值序列。其核心机制使模型学习揭露不同噪声级别的token。在视频预测等领域,DF展现出生成长序列的一致性及通过蒙特卡洛树引导提高决策质量的能力。理论与实证均验证了DF的有效性,尽管现有实现受限于小型RNN,未来有望拓展至更大模型与数据集。[论文](https://arxiv.org/pdf/2407.01392)
370 1

热门文章

最新文章