强化学习中值迭代收敛性推理证明

简介: 强化学习中值迭代收敛性推理证明

 在开始证明之前,我想说的是定理是证明给怀疑者,如果你对这个定理不怀疑,那么你就不需要证明。接下来直观感受一下强化学习中值迭代的收敛性。

  假设现在的Agent处于一个states 下,想要去找一个optimal state,那怎么去找呢?就是遍历所有的policy能够使得当前的states ,在遍历的某个policyπ x下值最大,也就找到了这个state所对应的最大value,用数学语言描述如下:


image.png

不用去怀疑,你一定能找到这样的一个最大的state value,因为你遍历了所有的policy。那能够使得state value最大的那个policy π x就是optimal policy π ∗ ,即π x = π ∗ 。那此时贝尔曼方程就是一个完全收敛的情况,可表示为:


image.png

如果不收敛,那它(value)肯定还没有到达optimal variable。上述等式在收敛的情况下就会成立,而不仅仅是一个赋值的关系。

  观察上述式子,optimal policy是什么?也即每次是如何take action的呢?也就是等式的右端项:

image.png


 那随便给一个状态,我们每次都按照optimal policytake action,那每次state value都会大于等于之前非最优的policy所得出来的state value吧:

image.png

 也就是说每次都按照optimal policytake actionstate value其实都会有所改进(或者至少不会比以前的差)。那真实的state value总有一个上界吧,总会收敛吧。


Value Iteration


  再来看看值迭代value iteration ,其实就是不断地去套bellman equation,就变成了对于每一个state去计算V ( s )

image.png


我的微信公众号名称:深度学习先进智能决策

微信公众号ID:tinyzqh

公众号介绍:主要研究深度学习、强化学习、机器博弈等相关内容!期待您的关注,欢迎一起学习交流进步!

目录
打赏
0
0
0
0
25
分享
相关文章
强化学习:蒙特卡罗求解最优状态价值函数——手把手教你入门强化学习(五)
本文介绍了强化学习中的蒙特卡罗算法,包括其基本概念、两种估值方法(首次访问蒙特卡罗与每次访问蒙特卡罗)及增量平均优化方式。蒙特卡罗法是一种基于完整回合采样的无模型学习方法,通过统计经验回报的平均值估计状态或动作价值函数。文章详细讲解了算法流程,并指出其初期方差较大、估值不稳定等缺点。最后对比动态规划,说明了蒙特卡罗法在强化学习中的应用价值。适合初学者理解蒙特卡罗算法的核心思想与实现步骤。
135 4
强化学习:动态规划求解最优状态价值函数——手把手教你入门强化学习(四)
本文介绍了基于模型的强化学习算法,重点讲解动态规划(DP)。动态规划通过分解问题为子问题求解状态价值函数,利用贝尔曼期望方程迭代更新。其核心性质包括最优子结构和重叠子问题,适用于已知转移概率和奖励的MDP场景。文章回顾了前期强化学习基础,并展望了后续内容如蒙特卡罗法。适合初学者系统了解强化学习算法原理与应用。
76 7
GenPRM:思维链+代码验证,通过生成式推理的过程奖励让大模型推理准确率显著提升
本文提出GenPRM,一种生成式过程奖励模型,通过显式Chain-of-Thought推理与代码验证提升大型语言模型性能。针对传统PRMs的局限,GenPRM结合相对进展估计和监督微调,优化推理评估精度。实验表明,GenPRM在ProcessBench及数学任务中显著优于现有方法,且可通过测试时扩展进一步增强性能。然而,该方法在计算开销和跨领域应用上仍存在局限性。
21 0
GenPRM:思维链+代码验证,通过生成式推理的过程奖励让大模型推理准确率显著提升
|
3月前
分布匹配蒸馏:扩散模型的单步生成优化方法研究
扩散模型在生成高质量图像方面表现出色,但其迭代去噪过程计算开销大。分布匹配蒸馏(DMD)通过将多步扩散简化为单步生成器,结合分布匹配损失和对抗生成网络损失,实现高效映射噪声图像到真实图像,显著提升生成速度。DMD利用预训练模型作为教师网络,提供高精度中间表征,通过蒸馏机制优化单步生成器的输出,从而实现快速、高质量的图像生成。该方法为图像生成应用提供了新的技术路径。
186 2
以图灵机为师:通过微调训练让大语言模型懂执行计算过程
大语言模型(LLMs)在自然语言处理中表现出色,但在算术任务上却常依赖记忆而非理解。论文《Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines》提出可组合算术执行框架(CAEF),通过模拟图灵机,使LLMs逐步学习计算逻辑,显著提升其算术能力和泛化性能。实验显示,CAEF在LLaMA 3.1-8B模型上实现了高准确率,支持多位数计算,证明了其有效性和广泛适用性。
83 7
模型训练实战:选择合适的优化算法
【7月更文第17天】在模型训练这场智慧与计算力的较量中,优化算法就像是一位精明的向导,引领着我们穿越复杂的损失函数地形,寻找那最低点的“宝藏”——最优解。今天,我们就来一场模型训练的实战之旅,探讨两位明星级的优化算法:梯度下降和Adam,看看它们在不同战场上的英姿。
270 5
论文推荐:用多词元预测法提高模型效率与速度
《Better & Faster Large Language Models via Multi-token Prediction》论文提出了一种多词元预测框架,改善了大型语言模型(LLMs)的样本效率和推理速度。该方法通过一次预测多个词元,而非单个词元,提高了模型在编程和自然语言任务中的性能。实验显示,多词元预测在HumanEval和MBPP任务上性能提升,推理速度最高可提升3倍。此外,自我推测解码技术进一步优化了解码效率。尽管在小模型中效果不明显,但该方法为大模型训练和未来研究开辟了新途径。
320 0
下一篇
oss创建bucket
目录
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等