强化学习中价值迭代和策略迭代各有什么优缺点?

简介: 强化学习中价值迭代和策略迭代各有什么优缺点?

策略迭代


  策略迭代法(Policy Iteration method)是动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程,交替使用“求值计算”和“策略改进”两个步骤,求出逐次改进的、最终达到或收敛于最优策略的策略序列。

  我们发现如果想知道最优的策略,就需要能够准确估计值函数。然而想准确估计值函数,又需要知道最优策略,数字才能够估计准确。所以实际上这是一个“鸡生蛋还是蛋生鸡”的问题。而一般的策略迭代法的思路可总结为以下三个步骤:

image.png

第一步就是上文说的策略评估(Policy Evaluation);第二步是如何更新策略的呢?大体思想是在当前策略的基础上,贪婪地选取行为,使得后继状态价值增加最多:


image.png


上述过程的问题就在于策略迭代的主要时间都花费在策略评估上,对一个简单的问题来说,在策略评估上花费的时间不算长;但对复杂的问题来说,这个步骤的时间实在有些长。一个最直接的想法就是,我们能不能缩短在策略评估上花的时间呢?有,就是价值迭代。而策略迭代的优点也很明显,这样一步一步来做,是很容易证明其收敛性。


值迭代


  理解价值迭代原理的思路,可以从策略迭代的缺点出发。可以理解为是策略迭代的一个改进版本。

  1. 策略迭代的策略评估需要值函数完全收敛才进行策略提升的步骤,能不能对策略评估的要求放低,这样如果可以实现的话,速度会有所提升。
  2. 我们在策略迭代中关注的是最优的策略,如果说我们找到一种方法,让最优值函数和最优策略同时收敛,那样我们就可以只关注值函数的收敛过程,只要值函数达到最优,那策略也达到最优,值函数没有最优,策略也还没有最优。这样能简化了迭代步骤。

  我们的问题是寻找最优策略π \piπ,值迭代的解决方案是:使用贝尔曼最优方程,将策略改进视为值函数的改进,每一步都求取最大的值函数。具体的迭代公式如下所示:

image.png

上面这个公式与策略迭代相比,没有等到状态价值收敛才去调整策略,而是随着状态价值的迭代,及时调整策略,这样就大大减少了迭代的次数。也就是说从初始状态值函数开始同步迭代计算,最终收敛,整个过程中没有遵循任何策略。

  由于策略的调整,我们现在的价值每次更新。倾向于贪婪法寻找到最优策略对应的后续的状态价值。这样收敛的速度会更快。在值迭代过程中,算法不会给出明确的策略,迭代过程其间得到的价值函数不对应任何策略。

image.png


相关文章
|
20天前
|
机器学习/深度学习 算法
大模型开发:解释随机森林算法以及它是如何做出决策的。
随机森林是集成学习方法,利用多棵决策树提升性能。通过随机抽样和特征选择创建弱分类器,减少模型相关性。每个决策树基于子数据集和特征子集构建,预测时集成所有决策树结果,分类问题采用投票,回归问题取平均值。这种方法降低过拟合风险,提高准确性和稳定性,对噪声和异常值容忍度高,广泛应用。
18 0
|
10天前
代码之禅:在技术迭代中寻找平衡
【5月更文挑战第25天】 在软件开发的世界中,技术的迭代如同潮水般汹涌澎湃。本文将探讨如何在快速变化的技术浪潮中保持个人技能的竞争力和心态的平和。通过分享个人的实践经验,我们将一窥那些在技术演进过程中不断适应、学习和成长的策略,以及如何在这个过程中找到技术创新与内心平静之间的平衡点。
|
14天前
|
机器学习/深度学习 人工智能 测试技术
【机器学习】R-squared系数有什么缺点?如何解决?
【5月更文挑战第20天】【机器学习】R-squared系数有什么缺点?如何解决?
|
8月前
思维模型No.32|如何真正改变行为?需要5种不同的干预策略
思维模型No.32|如何真正改变行为?需要5种不同的干预策略
64 0
|
12月前
|
机器学习/深度学习 人工智能 算法
强化学习从基础到进阶--案例与实践[7.1]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解项目实战
强化学习从基础到进阶--案例与实践[7.1]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解项目实战
|
12月前
|
机器学习/深度学习 存储 人工智能
强化学习从基础到进阶-常见问题和面试必知必答[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解
强化学习从基础到进阶-常见问题和面试必知必答[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解
|
12月前
|
机器学习/深度学习 人工智能 资源调度
强化学习从基础到进阶--案例与实践[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解
强化学习从基础到进阶--案例与实践[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解
 强化学习从基础到进阶--案例与实践[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解
|
12月前
|
机器学习/深度学习 人工智能 算法
强化学习从基础到进阶-案例与实践[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代
强化学习从基础到进阶-案例与实践[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代
|
12月前
|
机器学习/深度学习 人工智能 算法
强化学习从基础到进阶-常见问题和面试必知必答[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代
强化学习从基础到进阶-常见问题和面试必知必答[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代
|
12月前
|
机器学习/深度学习 人工智能 算法
强化学习从基础到进阶-常见问题和面试必知必答[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验
强化学习从基础到进阶-常见问题和面试必知必答[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

热门文章

最新文章