8.13 强化学习
强化学习[27]通过与环境交互,学习决策策略,对于每一步决策,环境反馈一个奖赏值,强化学习的目的是学得最大化长期累积奖赏的策略。例如在下棋中,强化学习的策略对于棋盘状态给出走子决策,直到分出胜负时强化学习获得长期奖赏,并通过胜负结果调整策略,提高策略的胜率。可见强化学习面临的优化问题比监督学习更加复杂。
演化强化学习[28]借助演化算法的优化能力对策略进行有效搜索。当策略模型可以参数化表示时,例如使用一组规则或神经网络作为策略模型,演化算法被用于直接搜索策略,以优化策略获得的长期累积奖赏[29] 。相较于其他强化学习方法,演化算法在处理状态空间大小的可扩展性、状态信息的不完备性以及环境的不确定性上具有明显的优势。比如文献 [30] 提出了一种演化神经网络方法 CoSyNE,实验结果表明 CoSyNe 比其他 15 种常用强化学习方法要显著的好。文献 [31] 提出在基于偏好的强化学习中,利用一种演化算法对模型超参数进行优化。文献 [32] 对强化学习和黑箱优化进行了有趣的深入讨论,并通过移植演化算法的扰动和更新方法,在路径积分基础上提出黑箱路径积分,提高了收敛速率和策略质量。