- 论文题目:Exploring Model-based Planning with Policy Networks
所解决的问题?
结合模型预测控制方法的基于模型的强化学习算法已近取得不错的成绩,但是在模型预测控制那一环中如果采用的是随机动作的话,那效率就会比较低。作者就是在这个规划方面结合了一个策略。
背景
基于模型的强化学习算法学一个model
,然后拿这个model
产生一些imaginary
数据,或者直接优化策略。但是学一个模型就一定会产生误差,而这个误差在长期的规划过程中就会累计,导致这种方法也很难落地。
结合random shooting
(RS
)算法和模型预测控制(MPC
)方法能够获得较好的鲁棒性和稳定性。但是RS
这种随机采样出动作的算法效率是比较低的,也较难用于高维、复杂动态的环境中去。
作者将从另外一个视角分析,将之前的采样结合MPC
的这种方法看作一个优化问题来求解。在正式介绍Model-Based Policy Planning
之前,先需要了解一下Random Shooting
算法和PETS
算法。
所采用的方法?
作者介绍了两种算法在动作空间中的规划,和在参数空间中的规划。定义:在时间步t tt期望的规划奖励可以表示为:
在动作空间中的策略规划
算法可描述为:
在参数空间中的策略规划
在最终的策略选择上,作者还比较了模型预测控制(MPC
)和策略直接控制两种方法。
策略提炼
作者用模仿学习来获取规划的策略,数据来自与MPC
采用的最好的动作与真实环境的交互。模仿学习有很多方法,最简单的就是behavior cloning
算法:
我们也可以采用GAN网络来训练一个策略网络:
通过模型学习算法学习planning
采样中比较好的算法,然后渐渐地使得整个算法变得更强。
代码实现
- tensorflow实现: https://github.com/WilsonWangTHU/POPLIN
取得的效果?
可以看到POPLIN
算法采样会有聚焦点的改变。
所出版信息?作者信息?