强化学习中值迭代收敛性推理证明

简介: 强化学习中值迭代收敛性推理证明

 在开始证明之前,我想说的是定理是证明给怀疑者,如果你对这个定理不怀疑,那么你就不需要证明。接下来直观感受一下强化学习中值迭代的收敛性。

  假设现在的Agent处于一个states 下,想要去找一个optimal state,那怎么去找呢?就是遍历所有的policy能够使得当前的states ,在遍历的某个policyπ x下值最大,也就找到了这个state所对应的最大value,用数学语言描述如下:


image.png

不用去怀疑,你一定能找到这样的一个最大的state value,因为你遍历了所有的policy。那能够使得state value最大的那个policy π x就是optimal policy π ∗ ,即π x = π ∗ 。那此时贝尔曼方程就是一个完全收敛的情况,可表示为:


image.png

如果不收敛,那它(value)肯定还没有到达optimal variable。上述等式在收敛的情况下就会成立,而不仅仅是一个赋值的关系。

  观察上述式子,optimal policy是什么?也即每次是如何take action的呢?也就是等式的右端项:

image.png


 那随便给一个状态,我们每次都按照optimal policytake action,那每次state value都会大于等于之前非最优的policy所得出来的state value吧:

image.png

 也就是说每次都按照optimal policytake actionstate value其实都会有所改进(或者至少不会比以前的差)。那真实的state value总有一个上界吧,总会收敛吧。


Value Iteration


  再来看看值迭代value iteration ,其实就是不断地去套bellman equation,就变成了对于每一个state去计算V ( s )

image.png


我的微信公众号名称:深度学习先进智能决策

微信公众号ID:tinyzqh

公众号介绍:主要研究深度学习、强化学习、机器博弈等相关内容!期待您的关注,欢迎一起学习交流进步!

相关文章
|
安全 算法 API
支付宝支付加密规则梳理,写的太好了!
前言 支付是一个安全等级很高的场景,系统间交互的每一条数据的泄露都有可能造成及其大的损失。因此支付时系统间交互的每一
支付宝支付加密规则梳理,写的太好了!
|
传感器 人工智能 监控
智慧工地 AI 算法方案
智慧工地AI算法方案通过集成多种AI算法,实现对工地现场的全方位安全监控、精准质量检测和智能进度管理。该方案涵盖平台层、展现层与应用层、基础层,利用AI技术提升工地管理的效率和安全性,减少人工巡检成本,提高施工质量和进度管理的准确性。方案具备算法精准高效、系统集成度高、可扩展性强和成本效益显著等优势,适用于人员安全管理、施工质量监控和施工进度管理等多个场景。
1333 0
|
4月前
|
弹性计算
阿里云无影云电脑计算套餐是什么?120小时/月够用吗?
阿里云无影云电脑计算套餐是按月预付的时长包,含120/250/360小时/月及不限时长选项(小时当月有效、不结转)。超时后按小时后付费,费用封顶至同规格不限时套餐月价,并支持自动关机策略防超支。
493 107
|
10月前
|
存储 并行计算 算法
【图像压缩】在 MATLAB 中使用奇异值分解 (SVD) 进行图像压缩(Matlab代码实现)
【图像压缩】在 MATLAB 中使用奇异值分解 (SVD) 进行图像压缩(Matlab代码实现)
740 3
|
10月前
|
机器学习/深度学习 数据采集 算法
【水质预测】基于模糊神经网络FNN水质预测研究(Matlab代码实现)
【水质预测】基于模糊神经网络FNN水质预测研究(Matlab代码实现)
252 0
|
Android开发 开发者 Python
手撸了一个全自动微信清粉小工具(源码详解)
微信清理僵尸粉工具利用Python和`uiautomator2`库,通过模拟转账操作自动检测并标记微信好友列表中被删除、被拉黑或账号存在问题的“僵尸粉”。工具支持开启调试模式、自动打开微信、获取好友信息、判断好友状态、管理标签等功能,最终将检测结果记录到文件中,便于用户管理和清理好友列表。此工具适用于Android设备,已在OPPO Reno4 Pro上测试成功。
1193 5
|
负载均衡 监控 应用服务中间件
除了 Nginx,还有以下一些常见的负载均衡工具
【10月更文挑战第17天】这些负载均衡工具各有特点和优势,在不同的应用场景中发挥着重要作用。选择合适的负载均衡工具需要综合考虑性能、功能、稳定性、成本等因素。
2258 56
|
存储 Linux 数据库
云计算的体系结构
云计算的体系结构由5部分组成,分别为应用层,平台层,资源层,用户访问层和管理层,云计算的本质是通过网络提供服务,所以其体系结构以服务为核心。 如下图: 1,资源层 资源池层是指基础架构屋面的云计算服务,这些服务可以提供虚拟化的资源,从而隐藏物理资源的复杂性。
4984 0
|
数据可视化 Python
【Python】Python 仿真OFDM发射机、信道和接收机-实现多种调制方式
文章介绍了如何使用Python和Commpy工具包实现OFDM通信系统的仿真,包括发射机、信道和接收机的过程,并支持BPSK、QPSK、8PSK、16QAM、64QAM等多种调制方式,同时展示了导频插入、信道冲击响应、星座映射的可视化,并计算了系统的误比特率。
1059 0