PETS：伯克利大神Sergey Levine指导的概率集成轨迹采样算法-阿里云开发者社区

PETS：伯克利大神Sergey Levine指导的概率集成轨迹采样算法

2023-08-05 78

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： PETS：伯克利大神Sergey Levine指导的概率集成轨迹采样算法

论文题目：Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models

所解决的问题？

基于模型的强化学习算法由于要使用一个深度神经网络去学习一个环境model，而纯神经网络这种大参数的近似函数求解会带来很多缺陷，比如说计算开销，对于环境的不确定性无法很好的表征，由于参数量比较大，其求解相对来说也并不会很容易。

作者通过一个不确定的动态模型(uncertainty-aware dynamics models)来处理环境的不确定性，使得其能够相对来说不需要很大的神经网络来处理环境的不确定性。所提出的算法就是基于轨迹采样的概率集成算法，英文描述为probabilistic ensembles with trajectory sampling，简写为PETS。通过采样的不确定性来处理环境的动态模型的这样一种特性。

背景

无模型强化学习算法最大的弊端就是采样昂贵，这就限制了其很大一部分应用都处于仿真领域，当然也存在一些极少数的例外，像2009年提出来的Policy search for motor primitives in robotics和2016年提出来的End-to-end training of deep visuomotor policies。

很显然，由于模型采样成本极高，因此学一个模型就变得顺理成章，由此衍生出了一系列基于模型的强化学习文章。通过与所学的模型交互从而减少采样的复杂性。更细致地来说，是通过在所学模型中对未来发生的事情进行想象，专业术语叫做规划，planning。

基于模型的强化学习还有一个好处在于，它可以做到奖励独立，因为学的是状态转移。所以如果是在相同的环境中，而任务不同的话，他的泛化能力是非常强的。比如说，对于同一个机器人，对于某个特定的任务，奖励函数固定，而换了一个任务的话，奖励函数就改变了。这个时候如果还需要与环境进行交互采样的话，效率就未免太低了。

因此从上述论述中不难发现，在基于模型的强化学习算法中，如何学一个模型是至关重要的，也就是说所构建模型的表征能力往往能决定基于模型的强化学习算法在最终性能上的表现。

高斯过程对于model的不确定性表征具有极强的学习能力，而神经网络能够处理大规模高维的数据，但是对于少量数据容易过拟合。高斯函数也有弊端，就是基准分布是一个平滑的高斯核，而神经网络能够表达更复杂的函数近似。作者将二者结合，在基准控制任务中取得了SOTA的结果。

所采用的方法？

大体思路

如上图所示，Model是多个概率动态模型(上图中是两个)，每一个动态模型都能够很好地去表征环境的不确定性。有了模型之后就可以往前进行轨迹采样(trajectory sampling)。规划的时候用MPC算法即可，计算出一个最优的动作序列，然后只采用这个最优序列的第一个动作，然后不断地进行规划。

PETS能够处理的不确定性是两种：1. aleatoric：系统本身所带来的不确定性。2. epistemic：由于数据限制所带来的不确定性。