广义优势估计(GAE)：端策略优化PPO中偏差与方差平衡的关键技术-阿里云开发者社区

广义优势估计(GAE)：端策略优化PPO中偏差与方差平衡的关键技术

2025-03-23 1170

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

实时计算 Flink 版，1000CU*H 3个月

实时数仓Hologres，5000CU*H 100GB 3个月

简介： 广义优势估计（GAE）由Schulman等人于2016年提出，是近端策略优化（PPO）算法的核心理论基础。它通过平衡偏差与方差，解决了强化学习中的信用分配问题，即如何准确判定历史动作对延迟奖励的贡献。GAE基于资格迹和TD-λ思想，采用n步优势的指数加权平均方法，将优势函数有效集成到损失函数中，为策略优化提供稳定梯度信号。相比TD-λ，GAE更适用于现代策略梯度方法，推动了高效强化学习算法的发展。

广义优势估计(Generalized Advantage Estimation, GAE)由Schulman等人在2016年的论文中提出，是近端策略优化(PPO)算法的重要基础理论，也是促使PPO成为高效强化学习算法的核心因素之一。

GAE的理论基础建立在资格迹(eligibility traces)和时序差分λ(TD-λ)之上，为深入理解GAE的核心价值，我们需要先分析其解决的根本问题。

强化学习中的核心问题

在策略梯度方法及广义强化学习框架中，信用分配问题(credit assignment problem)始终是一个关键挑战：当系统中的奖励延迟出现时，如何准确地判定哪些历史动作应当获得强化？

这一问题本质上是寻求偏差(bias)与方差(variance)之间的最佳平衡点。当算法考虑远期回报以强化当前动作时，会引入较大方差，因为准确估计真实期望回报需要大量采样轨迹。当算法仅关注短期回报时，会导致估计偏差增大，特别是当我们将状态价值估计为较小步数(如TD残差为1时)的n步回报加权平均时。

现有技术工具

在解决上述问题方面，强化学习领域已有资格迹和λ-returns等工具，以及Sutton与Barto在《强化学习导论》中详细讨论的TD-λ算法。而λ-returns方法需要完整的训练回合(episode)才能进行计算，传统TD-λ作为一个完整算法，直接将资格迹整合到梯度向量中。在PPO等现代算法中，我们期望将优势函数作为损失函数的一部分，这与TD-λ的直接应用方式不相兼容。

GAE的技术创新

广义优势估计从本质上将TD-λ的核心思想引入策略梯度方法，通过系统性地估计优势函数，使其能够有效集成到算法损失函数中。回顾优势函数的定义，它计量特定动作价值与策略预期动作价值之间的差异，即衡量某动作相比于当前策略平均表现的优劣程度。

GAE的工作原理

从直觉上理解，优势函数的构建需要准确评估状态-动作对的价值，以便测量其与状态价值函数或当前策略的偏差。由于无法直接获取真实值，需要构建既低方差又低偏差的估计器。GAE采用n步优势的指数加权平均值方法，其中单个n步优势定义为：

这些不同步长的优势估计各有特点：

上述估计中，TD(0)具有高偏差但低方差特性，而蒙特卡洛(MC)方法则表现为高方差低偏差。GAE通过对各种不同步长优势估计的加权组合，实现了在t时刻的优势估计是状态或状态-动作价值的n步估计的衰减加权和。这种方法精确地实现了我们的目标：通过引入更精确的长期估计来减小偏差，同时通过适当降低远期估计权重来控制方差。