在强化学习领域,一个由Richard Sutton领导的研究团队提出了一种简单而有效的方法,可以显著提高几乎所有强化学习算法的性能。该方法被称为"奖励中心化",它通过从观察到的奖励中减去其经验平均,使奖励更加集中。
奖励中心化的核心思想是,通过减去奖励的经验平均值,可以使强化学习算法在解决持续性问题时表现得更好。持续性问题是指那些在代理和环境之间的交互无法自然地分成不相交的子序列或情节的问题。在这类问题中,代理会经历无限多的奖励,因此评估性能的一种可行方式是测量每一步获得的平均奖励,或奖励率,给予即时和延迟奖励相等的权重。
奖励中心化的理论基础可以追溯到1962年,当时Blackwell在离散Markov决策过程(MDP)的动态规划方面进行了开创性的研究。然而,我们仍在探索其更深层次的含义。奖励中心化的两个主要理论贡献是:
均值中心化:通过减去奖励的经验平均值,可以去除与状态无关的常数(该常数与1-γ成反比,其中γ是折扣因子),使价值函数逼近器能够专注于状态和动作之间的相对差异。这允许相对容易地估计与任意接近1的折扣因子对应的值(例如,没有性能下降)。
鲁棒性:均值中心化(毫不奇怪)使标准方法对奖励中的任何常数偏移具有鲁棒性。这在强化学习应用中可能非常有用,其中奖励信号是未知的或变化的。
在实现奖励中心化时,有几种不同的方法,包括简单中心化和基于价值的中心化。
简单中心化:最简单的方法是维护一个迄今为止观察到的奖励的运行平均值。然后,从每个观察到的奖励中减去这个平均值,使修改后的奖励看起来是均值中心化的。
基于价值的中心化:这种方法受到强化学习的平均值公式的启发,使用TD误差(而不是标准误差)来估计奖励率。它已被证明在离线策略设置中特别有效。
研究团队在一系列控制问题上测试了奖励中心化的效果,包括使用表格、线性和非线性函数逼近的问题。他们发现,奖励中心化可以显著提高强化学习算法的性能,特别是在折扣因子接近1时。
表格问题:在表格问题中,奖励中心化可以显著提高学习速度,并使算法对奖励的常数偏移具有鲁棒性。
线性和非线性函数逼近:在使用线性和非线性函数逼近的问题中,奖励中心化也可以提高学习速度,并使算法对奖励的常数偏移具有鲁棒性。
尽管奖励中心化在许多情况下都表现出了显著的改进,但它也有一些局限性。
离线策略设置:在离线策略设置中,简单中心化可能导致对目标策略的奖励率的不准确估计,从而影响学习速度和性能。
计算成本:奖励中心化可能需要额外的计算成本来估计奖励率,这可能会影响算法的效率。
研究团队提出了几个未来工作的方向,包括:
改进奖励率估计:开发更准确的奖励率估计方法,特别是在离线策略设置中。
结合其他方法:将奖励中心化与其他强化学习方法结合使用,以进一步提高性能。
理论分析:对奖励中心化进行更深入的理论分析,以更好地理解其工作原理和局限性。