论文阅读之：PRIORITIZED EXPERIENCE REPLAY-阿里云开发者社区

论文阅读之：PRIORITIZED EXPERIENCE REPLAY

2016-07-11 1729

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： PRIORITIZED EXPERIENCE REPLAY ICLR 2016 　　经验回放使得 online reinforcement learning agent 能够记住并且回放过去的经验。

PRIORITIZED EXPERIENCE REPLAY

ICLR 2016

　　经验回放使得 online reinforcement learning agent 能够记住并且回放过去的经验。在先前的工作中，从回放记忆中随机的采样 experience transitions。但是，这种方法简单的在同一频率回放 transitions，而不管其意义。本文提出了一种方法能够实现优先回放，能够更加高频的回放重要的 transitions，从而实现更加高校的学习。我们在 DQN 上使用优先经验回放，取得了更加有效的结果。

　　online RL agent 当观察到一系列的经验时，增量的更新其参数。最简单的形式，即：在更新之后，他们立刻扔掉到来的数据。这种做法有两个问题：

　　a. 强烈的相关更新操作破坏了许多流行的基于随机梯度的算法；

　　b. 快速的忘记可能稀缺的经验，但是后面可能还要用得上这个经验。

　　Experience Replay 解决了上述问题：在一个回放单元中存储 experience，通过混合或多或少的最近的经验来更新就有可能破坏 temporal correlation，rare experience 将会被用来不止一次更新。这就被用在 NIPS2013 和 Nature 2015的论文中，特别地，DQN 利用一个大的滑动窗口回放单元，随机的从中均匀采样，平均重复访问一个 transition 8次。总的来讲，experience replay 可以大量的降低需要去学习的经验，而是用更多的计算和更多的memory来替换--- which are often cheaper resources than the RL agent's interactions with its environment.

　　注： a transition 是 agent在环境中的一次交互的原子操作，即：$ (state S_{t-1}, action A_{t-1}, reward R_t, discount t, next state S_t)$.

　　Prioritized Replay

　　1. A Motivating Example

　　设计这么一个优先回放功能，涉及到两个层次，即：选择哪些进行存储，另外就是选择哪些进行回放？本文主要是研究后者的，如何最有效的利用回放功能进行学习？

　　如上图所示，本文给出了一个例子来充分的说明优先的潜在好处。引入了称为“Blind Cliffwalk”的环境，来示例说明当奖赏非常 rare的时候，探索所遇到的挑战。假设仅有 n 个状态，这个环境就要求足够的随机步骤知道得到第一个非零奖励；确切的讲，随机的选择动作序列就会有 $2^{-n}$的概率才能得到第一个非零奖赏。此外，最相关的 transitions 却藏在大量的失败的尝试当中。

　　本文利用这个例子来 highlight 两个 agents的学习次数的不同。可以看到这两个 agent 都从同一个回放单元中去获取Q-learning的更新，第一个agent 随机均匀的回放 transitions，第二个唤醒一个 oracle 来进行优先转移。这个 oracle 贪婪的选择使得在当前状态下最大化的降低全局损失的 transitions。从上图右侧的图可以看出，按照一定优化序列得到的转移比随机均匀采样要花费很少的尝试步骤，这明显的提升了训练的速度。

　　2. Prioritizing TD-Error

　　优先回放的一个中心成分是评判优先的准则：衡量每一个转移 transitions 的重要性。一个理想的标准是当前状态下，RL agent 能够学习到的量，也就是期望的学习过程。但是这个标准并不能直接访问到，一个比较合理的代理，能够表示重要性的另一个衡量是：一个 transitions 的 TD error $\delta$ 的规模，来表示该转移的惊奇度或者出乎意料的程度：How far the value is from its next-step bootstrap estimation. 这非常适合增量的，在线 RL 算法，比如：SARSA 或者 Q-learning，已经计算 TD-error 并且更新和 $\delta$成比例的参数。但是有些情况下， TD-error 仍然是非常差的预测，例如：当奖励非常 noisy的时候。

　　为了说明通过 TD-error 优先回放的有效性，我们对比了 uniform 和 oracle baselines 在 Blind Cliffwalk 上的“贪婪 TD-error prioritization”算法。该算法存储了在回放单元中每次转移之后，最后遇到的 TD error 。将最大绝对值 TD误差的转移从 memory 中进行回放。然后对该转移进行 Q-learning的更新，更新和 TD error 的权重。新的转移到来之后，没有已知的 TD-error，所以我们将其放到最大优先级的行列，确保所有的 experience 至少回放一次。

　　关于这样做的好处，从下图可以看出， oracle 的做法可以极大的降低无用的尝试，加速了算法的执行速度。

　　3. Stochastic Priorization

　　然而，贪婪的 TD-error 优先有几个问题：

　　首先，为了避免在整个回放单元中扫描而带来的计算代价，TD 误差仅仅更新被回放的转移。这个带来的一个后果就是：带有低 TD error的转移在第一次访问时可能很长时间不会被回放（which means effectively never with a sliding window replay memory）。

　　此外，对 noise spikes 非常敏感，bootstrapping 会加剧该现象，估计误差又会成为另一个噪声的来源。

　　最终，贪婪优先集中于一个小的经验子集，误差收缩的很慢，特别是使用函数估计的时候，意味着初始的高误差转移被经常回放。缺乏多样性使得该系统倾向于 over-fitting。

　　为了解决上述问题，我们引入了一个随机采样的方法，该方法结合了纯粹的贪婪优先和均匀随机采样。我们确保被采样的概率在转移优先级上是单调的，与此同时，确保最低优先级的转移的概率也是非零的。具体的，我们定义采样转移 i 的概率为：