强化学习中值迭代收敛性推理证明

简介: 强化学习中值迭代收敛性推理证明

 在开始证明之前,我想说的是定理是证明给怀疑者,如果你对这个定理不怀疑,那么你就不需要证明。接下来直观感受一下强化学习中值迭代的收敛性。

  假设现在的Agent处于一个states 下,想要去找一个optimal state,那怎么去找呢?就是遍历所有的policy能够使得当前的states ,在遍历的某个policyπ x下值最大,也就找到了这个state所对应的最大value,用数学语言描述如下:


image.png

不用去怀疑,你一定能找到这样的一个最大的state value,因为你遍历了所有的policy。那能够使得state value最大的那个policy π x就是optimal policy π ∗ ,即π x = π ∗ 。那此时贝尔曼方程就是一个完全收敛的情况,可表示为:


image.png

如果不收敛,那它(value)肯定还没有到达optimal variable。上述等式在收敛的情况下就会成立,而不仅仅是一个赋值的关系。

  观察上述式子,optimal policy是什么?也即每次是如何take action的呢?也就是等式的右端项:

image.png


 那随便给一个状态,我们每次都按照optimal policytake action,那每次state value都会大于等于之前非最优的policy所得出来的state value吧:

image.png

 也就是说每次都按照optimal policytake actionstate value其实都会有所改进(或者至少不会比以前的差)。那真实的state value总有一个上界吧,总会收敛吧。


Value Iteration


  再来看看值迭代value iteration ,其实就是不断地去套bellman equation,就变成了对于每一个state去计算V ( s )

image.png


我的微信公众号名称:深度学习先进智能决策

微信公众号ID:tinyzqh

公众号介绍:主要研究深度学习、强化学习、机器博弈等相关内容!期待您的关注,欢迎一起学习交流进步!

相关文章
|
7月前
|
机器学习/深度学习
【机器学习】凸函数判定
【1月更文挑战第23天】【机器学习】凸函数判定
|
26天前
|
人工智能 自然语言处理
以图灵机为师:通过微调训练让大语言模型懂执行计算过程
大语言模型(LLMs)在自然语言处理中表现出色,但在算术任务上却常依赖记忆而非理解。论文《Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines》提出可组合算术执行框架(CAEF),通过模拟图灵机,使LLMs逐步学习计算逻辑,显著提升其算术能力和泛化性能。实验显示,CAEF在LLaMA 3.1-8B模型上实现了高准确率,支持多位数计算,证明了其有效性和广泛适用性。
31 7
|
3月前
|
机器学习/深度学习 数据采集 存储
一文读懂蒙特卡洛算法:从概率模拟到机器学习模型优化的全方位解析
蒙特卡洛方法起源于1945年科学家斯坦尼斯劳·乌拉姆对纸牌游戏中概率问题的思考,与约翰·冯·诺依曼共同奠定了该方法的理论基础。该方法通过模拟大量随机场景来近似复杂问题的解,因命名灵感源自蒙特卡洛赌场。如今,蒙特卡洛方法广泛应用于机器学习领域,尤其在超参数调优、贝叶斯滤波等方面表现出色。通过随机采样超参数空间,蒙特卡洛方法能够高效地找到优质组合,适用于处理高维度、非线性问题。本文通过实例展示了蒙特卡洛方法在估算圆周率π和优化机器学习模型中的应用,并对比了其与网格搜索方法的性能。
346 1
|
6月前
|
机器学习/深度学习 算法
GBDT算法超参数评估(一)
GBDT(Gradient Boosting Decision Tree)是一种强大的机器学习技术,用于分类和回归任务。超参数调整对于发挥GBDT性能至关重要。其中,`n_estimators`是一个关键参数,它决定了模型中弱学习器(通常是决策树)的数量。增加`n_estimators`可以提高模型的复杂度,提升预测精度,但也可能导致过拟合,并增加训练时间和资源需求。
|
6月前
|
机器学习/深度学习 算法
GBDT算法超参数评估(二)
GBDT算法超参数评估关注决策树的不纯度指标,如基尼系数和信息熵,两者衡量数据纯度,影响树的生长。默认使用基尼系数,计算快速,而信息熵更敏感但计算慢。GBDT的弱评估器默认最大深度为3,限制了过拟合,不同于随机森林。由于Boosting的内在机制,过拟合控制更多依赖数据和参数如`max_features`。相比Bagging,Boosting通常不易过拟合。评估模型常用`cross_validate`和`KFold`交叉验证。
|
7月前
|
编译器 Python Windows
R语言RStan贝叶斯示例:重复试验模型和种群竞争模型Lotka Volterra
R语言RStan贝叶斯示例:重复试验模型和种群竞争模型Lotka Volterra
|
7月前
|
编译器 Python Windows
R语言RStan贝叶斯示例:重复试验模型和种群竞争模型Lotka Volterra1
R语言RStan贝叶斯示例:重复试验模型和种群竞争模型Lotka Volterra
|
7月前
R语言RStan贝叶斯示例:重复试验模型和种群竞争模型Lotka Volterra2
R语言RStan贝叶斯示例:重复试验模型和种群竞争模型Lotka Volterra
|
7月前
|
机器学习/深度学习 运维 算法
高斯混合模型:GMM和期望最大化算法的理论和代码实现
高斯混合模型(gmm)是将数据表示为高斯(正态)分布的混合的统计模型。这些模型可用于识别数据集中的组,并捕获数据分布的复杂、多模态结构。
401 0
|
机器学习/深度学习 算法
机器学习k近邻算法k值的选择
机器学习k近邻算法k值的选择
131 0