解读【ICLR2020】多伦多大学:基于策略网络的探索模型规划

简介: 解读【ICLR2020】多伦多大学:基于策略网络的探索模型规划
  • 论文题目:Exploring Model-based Planning with Policy Networks


所解决的问题?


  结合模型预测控制方法的基于模型的强化学习算法已近取得不错的成绩,但是在模型预测控制那一环中如果采用的是随机动作的话,那效率就会比较低。作者就是在这个规划方面结合了一个策略。


背景


  基于模型的强化学习算法学一个model,然后拿这个model产生一些imaginary数据,或者直接优化策略。但是学一个模型就一定会产生误差,而这个误差在长期的规划过程中就会累计,导致这种方法也很难落地。

  结合random shooting(RS)算法和模型预测控制(MPC)方法能够获得较好的鲁棒性和稳定性。但是RS这种随机采样出动作的算法效率是比较低的,也较难用于高维、复杂动态的环境中去。

  作者将从另外一个视角分析,将之前的采样结合MPC的这种方法看作一个优化问题来求解。在正式介绍Model-Based Policy Planning之前,先需要了解一下Random Shooting算法和PETS算法。

image.png

所采用的方法?


  作者介绍了两种算法在动作空间中的规划,和在参数空间中的规划。定义:在时间步t tt期望的规划奖励可以表示为:

image.png

在动作空间中的策略规划

image.png

算法可描述为:

在参数空间中的策略规划

image.png

 在最终的策略选择上,作者还比较了模型预测控制(MPC)和策略直接控制两种方法。


策略提炼


  作者用模仿学习来获取规划的策略,数据来自与MPC采用的最好的动作与真实环境的交互。模仿学习有很多方法,最简单的就是behavior cloning算法:

image.png

我们也可以采用GAN网络来训练一个策略网络:

image.png

通过模型学习算法学习planning采样中比较好的算法,然后渐渐地使得整个算法变得更强。

代码实现

  1. tensorflow实现https://github.com/WilsonWangTHU/POPLIN

取得的效果?

  可以看到POPLIN算法采样会有聚焦点的改变。

所出版信息?作者信息?


相关文章
|
1天前
|
监控 安全 网络安全
云端防御战线:云计算环境下的网络安全策略与实践
【5月更文挑战第10天】 在数字化转型的浪潮中,云计算作为支撑企业运营的骨干技术之一,其安全性问题备受关注。随着云服务模式的多样化和复杂化,传统的网络安全防护机制已难以完全适用于云环境。本文深入探讨了云计算环境中特有的安全威胁,分析了云计算服务模型(IaaS、PaaS、SaaS)的安全挑战,并提出了相应的安全策略与最佳实践。通过采用多层次防御架构、强化身份认证与访问控制、实施数据加密与隐私保护措施以及建立持续监控与响应机制,旨在为组织在享受云计算带来的便捷性的同时,确保其数据和服务的安全性。
|
3天前
|
安全 算法 网络安全
网络安全与信息安全:防范网络威胁的关键策略
【5月更文挑战第9天】 在数字化时代,网络安全与信息安全已成为个人和企业不可忽视的议题。随着网络攻击手段的多样化和智能化,传统的防御措施已不再能够完全应对日益复杂的安全挑战。本文将深入探讨网络安全漏洞的概念、加密技术的最新进展以及提升安全意识的重要性,旨在为读者提供一套综合的网络威胁防范策略。通过对现有技术和策略的分析,我们强调了预防优于治疗的原则,并提出了多层次、多角度的安全建议。
6 0
|
3天前
|
存储 SQL 安全
网络安全与信息安全:防护之道与实战策略
【5月更文挑战第8天】在数字化时代,网络安全与信息安全已成为维护网络空间主权和社会稳定的关键。本文深入探讨了网络安全漏洞的概念、加密技术的进展以及提升安全意识的必要性。通过对当前网络威胁的分析,提出了一系列针对性的防御措施和应对策略,旨在为读者提供一套全面的安全防护知识体系。
|
4天前
|
运维 网络协议 网络虚拟化
某高校园区网络的规划与建设
某高校园区网络的规划与建设
|
5天前
|
机器学习/深度学习 数据可视化 算法
R语言神经网络与决策树的银行顾客信用评估模型对比可视化研究
R语言神经网络与决策树的银行顾客信用评估模型对比可视化研究
|
5天前
|
机器学习/深度学习 数据可视化 数据挖掘
R语言神经网络模型金融应用预测上证指数时间序列可视化
R语言神经网络模型金融应用预测上证指数时间序列可视化
|
5天前
|
机器学习/深度学习 数据可视化 算法
SPSS Modeler决策树和神经网络模型对淘宝店铺服装销量数据预测可视化|数据分享
SPSS Modeler决策树和神经网络模型对淘宝店铺服装销量数据预测可视化|数据分享
|
5天前
|
监控 网络协议 安全
计算机网络概述及 参考模型
计算机网络概述及 参考模型
|
5天前
|
存储 安全 网络安全
云计算与网络安全:保障信息安全的新挑战与应对策略
随着云计算技术的不断发展,网络安全已成为企业和个人关注的焦点。本文将探讨云计算环境下的网络安全挑战,分析信息安全面临的新形势,并提出相应的应对策略。
15 1
|
5天前
|
存储 安全 网络安全
云端防御:云计算环境中的网络安全策略与实践
【5月更文挑战第6天】 随着企业和个人日益依赖云服务,数据存储、处理和流通的边界变得模糊。这种转变不仅带来了灵活性和成本效益,也引入了新的安全挑战。本文探讨了云计算环境下网络安全的关键问题,包括身份验证、数据加密、访问控制和威胁监测等。通过分析当前云安全的最佳实践和面临的挑战,我们提出了一系列战略性措施以增强云基础设施的安全性,并确保信息资产的保密性、完整性和可用性得到保护。
33 5