强化学习中价值迭代和策略迭代各有什么优缺点?

简介: 强化学习中价值迭代和策略迭代各有什么优缺点?

策略迭代


  策略迭代法(Policy Iteration method)是动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程,交替使用“求值计算”和“策略改进”两个步骤,求出逐次改进的、最终达到或收敛于最优策略的策略序列。

  我们发现如果想知道最优的策略,就需要能够准确估计值函数。然而想准确估计值函数,又需要知道最优策略,数字才能够估计准确。所以实际上这是一个“鸡生蛋还是蛋生鸡”的问题。而一般的策略迭代法的思路可总结为以下三个步骤:

image.png

第一步就是上文说的策略评估(Policy Evaluation);第二步是如何更新策略的呢?大体思想是在当前策略的基础上,贪婪地选取行为,使得后继状态价值增加最多:


image.png


上述过程的问题就在于策略迭代的主要时间都花费在策略评估上,对一个简单的问题来说,在策略评估上花费的时间不算长;但对复杂的问题来说,这个步骤的时间实在有些长。一个最直接的想法就是,我们能不能缩短在策略评估上花的时间呢?有,就是价值迭代。而策略迭代的优点也很明显,这样一步一步来做,是很容易证明其收敛性。


值迭代


  理解价值迭代原理的思路,可以从策略迭代的缺点出发。可以理解为是策略迭代的一个改进版本。

  1. 策略迭代的策略评估需要值函数完全收敛才进行策略提升的步骤,能不能对策略评估的要求放低,这样如果可以实现的话,速度会有所提升。
  2. 我们在策略迭代中关注的是最优的策略,如果说我们找到一种方法,让最优值函数和最优策略同时收敛,那样我们就可以只关注值函数的收敛过程,只要值函数达到最优,那策略也达到最优,值函数没有最优,策略也还没有最优。这样能简化了迭代步骤。

  我们的问题是寻找最优策略π \piπ,值迭代的解决方案是:使用贝尔曼最优方程,将策略改进视为值函数的改进,每一步都求取最大的值函数。具体的迭代公式如下所示:

image.png

上面这个公式与策略迭代相比,没有等到状态价值收敛才去调整策略,而是随着状态价值的迭代,及时调整策略,这样就大大减少了迭代的次数。也就是说从初始状态值函数开始同步迭代计算,最终收敛,整个过程中没有遵循任何策略。

  由于策略的调整,我们现在的价值每次更新。倾向于贪婪法寻找到最优策略对应的后续的状态价值。这样收敛的速度会更快。在值迭代过程中,算法不会给出明确的策略,迭代过程其间得到的价值函数不对应任何策略。

image.png


相关文章
|
6月前
|
机器学习/深度学习 算法
大模型开发:解释随机森林算法以及它是如何做出决策的。
随机森林是集成学习方法,利用多棵决策树提升性能。通过随机抽样和特征选择创建弱分类器,减少模型相关性。每个决策树基于子数据集和特征子集构建,预测时集成所有决策树结果,分类问题采用投票,回归问题取平均值。这种方法降低过拟合风险,提高准确性和稳定性,对噪声和异常值容忍度高,广泛应用。
91 0
|
15天前
|
设计模式 缓存 算法
14.策略者模式设计思想
策略模式是一种行为型设计模式,用于定义一系列可互换的算法,并使它们可以独立于使用它们的客户端而变化。本文档详细介绍了策略模式的基础概念、原理、结构及应用案例,包括折扣计算、文件排序等实际场景,帮助读者深入理解策略模式的实现和优势。此外,还对比了策略模式与其他设计模式(如状态模式、模板模式)的区别,并提供了相关代码示例。适合初学者和有一定经验的开发者参考。
47 10
14.策略者模式设计思想
|
2月前
MAGICORE:基于多代理迭代的粗到细精炼框架,提升大语言模型推理质量
MAGICORE是一种多代理迭代框架,旨在改进大语言模型(LLM)的推理能力。该框架通过将问题分类为简单或困难,并分别为其应用粗粒度聚合或细粒度精炼,有效避免了过度精炼、错误定位及精炼不足等问题。MAGICORE包含Solver、Reviewer和Refiner三个角色,结合结果和过程奖励模型,实现有针对性的反馈和迭代精炼。实验结果显示,MAGICORE在多个数据集和模型上显著优于现有的聚合和精炼方法,提升了推理准确性和样本效率。
75 3
MAGICORE:基于多代理迭代的粗到细精炼框架,提升大语言模型推理质量
|
5月前
|
测试技术 持续交付
提升软件测试效率与准确性的策略探究
【5月更文挑战第50天】 在快速发展的数字时代,高质量的软件产品是企业竞争力的关键。本文聚焦于软件测试流程的优化,旨在探讨如何通过采用先进的测试工具、实施自动化测试策略以及持续集成和交付(CI/CD)来提升测试效率与准确性。通过对当前软件测试领域的挑战进行深入分析,并结合最新的技术趋势,本文提出了一系列创新的测试方法,以帮助测试团队更高效地发现和修复缺陷,确保软件产品的质量和可靠性。
|
6月前
|
机器学习/深度学习 算法 机器人
深度强化学习中利用Q-Learngin和期望Sarsa算法确定机器人最优策略实战(超详细 附源码)
深度强化学习中利用Q-Learngin和期望Sarsa算法确定机器人最优策略实战(超详细 附源码)
86 0
|
算法 调度 决策智能
贪心算法:简单而高效的优化策略
贪心算法:简单而高效的优化策略
225 1
|
机器学习/深度学习 人工智能 资源调度
强化学习从基础到进阶--案例与实践[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解
强化学习从基础到进阶--案例与实践[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解
 强化学习从基础到进阶--案例与实践[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解
|
机器学习/深度学习 算法 API
强化学习从基础到进阶-案例与实践[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代
强化学习从基础到进阶-案例与实践[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代
强化学习从基础到进阶-案例与实践[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代
|
机器学习/深度学习 人工智能 算法
强化学习从基础到进阶-案例与实践[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验
强化学习从基础到进阶-案例与实践[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验
强化学习从基础到进阶-案例与实践[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验
|
机器学习/深度学习 人工智能 算法
强化学习从基础到进阶--案例与实践[7.1]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解项目实战
强化学习从基础到进阶--案例与实践[7.1]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解项目实战
下一篇
无影云桌面