python实现Q Learning强化学习(完整代码)

简介: python实现Q Learning强化学习(完整代码)

完整代码:https://download.csdn.net/download/pythonyanyan/87390631


由于现实世界中并不能获取全部的state以及全部的action,因此值迭代方法在很多问题上还是会有局限性。这时用到的就是Q Learning方法了,对于上述两个问题他会这样解决:


  1. 计算的时候不会遍历所有的格子,只管当前状态,当前格子的reward 值
  2. 不会计算所有action的reward,每次行动时,只选取一个action,只计算这一个action的reward


这样的规则也说明了需要大量的尝试,才能学习出比较好的结果。Q Learning的公式如下:


70206cf9067677814336c00feb535753.png


整理后得到

00ab478b24fc621b51c6b663685fb0dd.png

从左到右拆解开来分析

12c6ef36614fdc89b2e82d1dd41687c7.png

表示的是在s时执行a的reward值之和,包括了经验reward值和表示的是经验reward,即学习率*之前学习到的执行该action的reward。可以看到学习速率α越大,保留之前训练的效果就

592760b89198410535791a629f2ec944.png


就是新的reward值了,下面逐步拆解。是计算下一个state'中最大的reward值,这个称之为 “记忆奖励”。因为在之前某次到达state'的时候,保存了四个方向(a') 的reward值,通过“回忆”,想起来自己之前在state'上能收获的最大好处,就可以直接影响在当前state时reward的计算。

af5c1c55322c83bf69b59aa245caf79b.png


是用来增加or减少state'的影响的,越大,智能体就会越重视以往经验,越小,就只重视眼前利益(R)。


R是执行了action后的reward,比如在终点处执行exit,获得+1/-1的 reward。


编写代码的时候,需要在update函数中体现上述思想。接下来分别实现函数


getQValue(state,action)函数

返回Q Value的值,直接return就可以,代码如下

defgetQValue(self,state,action):returnself.Q[(state,action)]


computeValueFromQValues(state)函数


该函数是通过QValue返回最大的reward,因此需要遍历四个reward,最终得到最大值


defcomputeValueFromQValues(self,state):actions=self.getLegalActions(state)iflen(actions)==0:return0# 保存成列表values=[self.getQValue(state,action)foractioninactions]returnmax(values)


computeActionFromQValues(state)函数 和上一个函数一样,只不过这里返回的是最大Action

defcomputeActionFromQValues(self,state):actions=self.getLegalActions(state)iflen(actions)==0:return0max_action=float('-inf')best_action=actions[0]# 记录最大actionforactioninactions:ifmax_action<self.getQValue(state,action):max_action=self.getQValue(state,action)best_action=actionreturnbest_action


getAction(state)函数

此时要返回的action应该是最大的action

defgetAction(self,state):legalActions=self.getLegalActions(state)action=Noneiflen(legalActions)==0:returnactionreturnself.computeActionFromQValues(state)


update(state, action, nextState, reward)`函数

这里就是要通过公式计算,更新Q Value值

defupdate(self,state,action,nextState,reward):sample=reward+self.discount*/self.getValue(nextState)mid=self.Q[(state,action)]# 公式self.Q[(state,action)]=(1-self.alpha)*/self.getQValue(state,action)+self.alpha*sample

搭建完毕后,就可以计算每一个action的reward了:



566cae9f7b16f4f7cbdab56fbcd6094a.jpg


按照相同路径走4次后的学习结果

Question7EpsilonGreedy


上述的算法看上去可以在每次动作都选择到最佳的动作,但在使用上述算法让智能体去学习Grid World的时候,会遇到下图的问题

相关文章
|
8天前
|
JavaScript 前端开发 Python
用python执行js代码:PyExecJS库
文章讲述了如何使用PyExecJS库在Python环境中执行JavaScript代码,并提供了安装指南和示例代码。
45 1
用python执行js代码:PyExecJS库
|
6天前
|
Python
以下是一些常用的图表类型及其Python代码示例,使用Matplotlib和Seaborn库。
以下是一些常用的图表类型及其Python代码示例,使用Matplotlib和Seaborn库。
|
8天前
|
Python
turtle库的几个案例进阶,代码可直接运行(python经典编程案例)
该文章展示了使用Python的turtle库进行绘图的进阶案例,包括绘制彩色圆形和复杂图案的代码示例。
44 6
turtle库的几个案例进阶,代码可直接运行(python经典编程案例)
|
10天前
|
机器学习/深度学习 数据采集 算法
【BetterBench博士】2024华为杯C题:数据驱动下磁性元件的磁芯损耗建模 Python代码实现
本文介绍了2024年中国研究生数学建模竞赛C题的详细分析,涵盖数据预处理、特征提取、模型训练及评估等多个方面。通过对磁通密度数据的处理,提取关键特征并应用多种分类算法进行波形分类。此外,还探讨了斯坦麦茨方程及其温度修正模型的应用,分析了温度、励磁波形和磁芯材料对磁芯损耗的影响,并提出了优化磁芯损耗与传输磁能的方法。最后,提供了B站视频教程链接,供进一步学习参考。
83 3
【BetterBench博士】2024华为杯C题:数据驱动下磁性元件的磁芯损耗建模 Python代码实现
|
1天前
|
数据安全/隐私保护 Python
探索Python中的装饰器:简化代码,提升效率
【9月更文挑战第32天】在Python编程世界中,装饰器是一个强大的工具,它允许我们在不改变函数源代码的情况下增加函数的功能。本文将通过直观的例子和代码片段,引导你理解装饰器的概念、使用方法及其背后的魔法,旨在帮助你写出更加优雅且高效的代码。
|
5天前
|
Python
? Python 装饰器入门:让代码更灵活和可维护
? Python 装饰器入门:让代码更灵活和可维护
11 4
|
5天前
|
缓存 测试技术 Python
探索Python中的装饰器:简化代码,提高可读性
【9月更文挑战第28天】在Python编程中,装饰器是一个强大的工具,它允许我们在不修改原有函数代码的情况下增加额外的功能。本文将深入探讨装饰器的概念、使用方法及其在实际项目中的应用,帮助读者理解并运用装饰器来优化和提升代码的效率与可读性。通过具体示例,我们将展示如何创建自定义装饰器以及如何利用它们简化日常的编程任务。
10 3
|
3天前
|
机器学习/深度学习 数据格式 Python
将特征向量转化为Python代码
将特征向量转化为Python代码
10 1
|
8天前
|
Python
turtle库的几个简单案例,代码可直接运行(python经典编程案例)
该文章提供了多个使用Python的turtle库绘制不同图形的简单示例代码,如画三角形、正方形、多边形等,展示了如何通过turtle进行基本的绘图操作。
16 5
|
9天前
|
NoSQL MongoDB 数据库
python3操作MongoDB的crud以及聚合案例,代码可直接运行(python经典编程案例)
这篇文章提供了使用Python操作MongoDB数据库进行CRUD(创建、读取、更新、删除)操作的详细代码示例,以及如何执行聚合查询的案例。
22 6
下一篇
无影云桌面