python实现Q Learning强化学习(完整代码)

简介: python实现Q Learning强化学习(完整代码)

完整代码:https://download.csdn.net/download/pythonyanyan/87390631


由于现实世界中并不能获取全部的state以及全部的action,因此值迭代方法在很多问题上还是会有局限性。这时用到的就是Q Learning方法了,对于上述两个问题他会这样解决:


  1. 计算的时候不会遍历所有的格子,只管当前状态,当前格子的reward 值
  2. 不会计算所有action的reward,每次行动时,只选取一个action,只计算这一个action的reward


这样的规则也说明了需要大量的尝试,才能学习出比较好的结果。Q Learning的公式如下:


70206cf9067677814336c00feb535753.png


整理后得到

00ab478b24fc621b51c6b663685fb0dd.png

从左到右拆解开来分析

12c6ef36614fdc89b2e82d1dd41687c7.png

表示的是在s时执行a的reward值之和,包括了经验reward值和表示的是经验reward,即学习率*之前学习到的执行该action的reward。可以看到学习速率α越大,保留之前训练的效果就

592760b89198410535791a629f2ec944.png


就是新的reward值了,下面逐步拆解。是计算下一个state'中最大的reward值,这个称之为 “记忆奖励”。因为在之前某次到达state'的时候,保存了四个方向(a') 的reward值,通过“回忆”,想起来自己之前在state'上能收获的最大好处,就可以直接影响在当前state时reward的计算。

af5c1c55322c83bf69b59aa245caf79b.png


是用来增加or减少state'的影响的,越大,智能体就会越重视以往经验,越小,就只重视眼前利益(R)。


R是执行了action后的reward,比如在终点处执行exit,获得+1/-1的 reward。


编写代码的时候,需要在update函数中体现上述思想。接下来分别实现函数


getQValue(state,action)函数

返回Q Value的值,直接return就可以,代码如下

defgetQValue(self,state,action):returnself.Q[(state,action)]


computeValueFromQValues(state)函数


该函数是通过QValue返回最大的reward,因此需要遍历四个reward,最终得到最大值


defcomputeValueFromQValues(self,state):actions=self.getLegalActions(state)iflen(actions)==0:return0# 保存成列表values=[self.getQValue(state,action)foractioninactions]returnmax(values)


computeActionFromQValues(state)函数 和上一个函数一样,只不过这里返回的是最大Action

defcomputeActionFromQValues(self,state):actions=self.getLegalActions(state)iflen(actions)==0:return0max_action=float('-inf')best_action=actions[0]# 记录最大actionforactioninactions:ifmax_action<self.getQValue(state,action):max_action=self.getQValue(state,action)best_action=actionreturnbest_action


getAction(state)函数

此时要返回的action应该是最大的action

defgetAction(self,state):legalActions=self.getLegalActions(state)action=Noneiflen(legalActions)==0:returnactionreturnself.computeActionFromQValues(state)


update(state, action, nextState, reward)`函数

这里就是要通过公式计算,更新Q Value值

defupdate(self,state,action,nextState,reward):sample=reward+self.discount*/self.getValue(nextState)mid=self.Q[(state,action)]# 公式self.Q[(state,action)]=(1-self.alpha)*/self.getQValue(state,action)+self.alpha*sample

搭建完毕后,就可以计算每一个action的reward了:



566cae9f7b16f4f7cbdab56fbcd6094a.jpg


按照相同路径走4次后的学习结果

Question7EpsilonGreedy


上述的算法看上去可以在每次动作都选择到最佳的动作,但在使用上述算法让智能体去学习Grid World的时候,会遇到下图的问题

相关文章
|
9月前
|
存储 算法 调度
【复现】【遗传算法】考虑储能和可再生能源消纳责任制的售电公司购售电策略(Python代码实现)
【复现】【遗传算法】考虑储能和可再生能源消纳责任制的售电公司购售电策略(Python代码实现)
418 26
|
9月前
|
测试技术 开发者 Python
Python单元测试入门:3个核心断言方法,帮你快速定位代码bug
本文介绍Python单元测试基础,详解`unittest`框架中的三大核心断言方法:`assertEqual`验证值相等,`assertTrue`和`assertFalse`判断条件真假。通过实例演示其用法,帮助开发者自动化检测代码逻辑,提升测试效率与可靠性。
587 1
|
9月前
|
机器学习/深度学习 算法 调度
基于多动作深度强化学习的柔性车间调度研究(Python代码实现)
基于多动作深度强化学习的柔性车间调度研究(Python代码实现)
404 1
|
8月前
|
测试技术 Python
Python装饰器:为你的代码施展“魔法”
Python装饰器:为你的代码施展“魔法”
381 100
|
8月前
|
开发者 Python
Python列表推导式:一行代码的艺术与力量
Python列表推导式:一行代码的艺术与力量
572 95
|
9月前
|
Python
Python的简洁之道:5个让代码更优雅的技巧
Python的简洁之道:5个让代码更优雅的技巧
380 104
|
9月前
|
开发者 Python
Python神技:用列表推导式让你的代码更优雅
Python神技:用列表推导式让你的代码更优雅
669 99
|
9月前
|
IDE 开发工具 开发者
Python类型注解:提升代码可读性与健壮性
Python类型注解:提升代码可读性与健壮性
437 102
|
8月前
|
缓存 Python
Python装饰器:为你的代码施展“魔法
Python装饰器:为你的代码施展“魔法
461 88
|
8月前
|
监控 机器人 编译器
如何将python代码打包成exe文件---PyInstaller打包之神
PyInstaller可将Python程序打包为独立可执行文件,无需用户安装Python环境。它自动分析代码依赖,整合解释器、库及资源,支持一键生成exe,方便分发。使用pip安装后,通过简单命令即可完成打包,适合各类项目部署。
1397 68

推荐镜像

更多