近日,来自蒙特利尔大学的Yoshua Bengio团队发表了一篇论文,揭示了在强化学习中,如果智能体(agent)的奖励与设计者的真实效用存在差异,即使这种差异很少发生,智能体的政策所导致的状态分布也可能非常糟糕。他们提出了一种名为“不要做我可能不会做的事情”的新策略,以解决这个问题。
在强化学习中,KL正则化是一种常见的方法,用于将智能体的政策约束在一个受信任的政策附近。然而,当这个受信任的政策是一个基于贝叶斯预测模型的信任政策时,KL约束可能无法可靠地控制高级强化学习智能体的行为。
Bengio团队通过算法信息理论证明了这一点,并使用一个语言模型进行了实验,以证明他们的理论结果在实践中是相关的。他们发现,当使用KL正则化来防止强化学习智能体获得接近最大化的奖励时,如果基础政策是受信任政策的贝叶斯模仿,那么需要一个相当严格的KL阈值,并且随着贝叶斯模仿器训练数据的增加,相关阈值只能以极慢的速度增加。
为了解决这个问题,Bengio团队提出了一种名为“不要做我可能不会做的事情”的新策略。这个策略通过替换“不要做我不会做的事情”的原则,避免了KL正则化的问题。
这个新策略的核心思想是,智能体应该避免采取那些在受信任政策中可能不会采取的行动。通过这种方式,智能体可以避免那些可能导致糟糕状态分布的行动,并保持与受信任政策的一致性。
为了验证这个新策略的有效性,Bengio团队进行了一系列的实验。他们使用了一个语言模型作为强化学习智能体,并使用KL正则化来约束智能体的政策。然后,他们比较了使用新策略和传统KL正则化的智能体的性能。
实验结果表明,使用新策略的智能体在避免糟糕状态分布方面表现得更好。这表明新策略在实践中是有效的,并且可以解决KL正则化的问题。
然而,这个新策略也存在一些限制。首先,它需要一个受信任的政策作为参考,这可能在实际应用中很难获得。其次,新策略的实现可能需要更多的计算资源和时间,这可能会限制其在实际应用中的使用。