python实现Q Learning强化学习(完整代码)-阿里云开发者社区

python实现Q Learning强化学习(完整代码)

2023-02-17 473

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： python实现Q Learning强化学习(完整代码)

完整代码：https://download.csdn.net/download/pythonyanyan/87390631

由于现实世界中并不能获取全部的state以及全部的action，因此值迭代方法在很多问题上还是会有局限性。这时用到的就是Q Learning方法了，对于上述两个问题他会这样解决：

计算的时候不会遍历所有的格子，只管当前状态，当前格子的reward 值
不会计算所有action的reward，每次行动时，只选取一个action，只计算这一个action的reward

这样的规则也说明了需要大量的尝试，才能学习出比较好的结果。Q Learning的公式如下：

整理后得到

从左到右拆解开来分析

表示的是在s时执行a的reward值之和，包括了经验reward值和表示的是经验reward，即学习率*之前学习到的执行该action的reward。可以看到学习速率α越大，保留之前训练的效果就

就是新的reward值了，下面逐步拆解。是计算下一个state'中最大的reward值，这个称之为 “记忆奖励”。因为在之前某次到达state'的时候，保存了四个方向(a') 的reward值，通过“回忆”，想起来自己之前在state'上能收获的最大好处，就可以直接影响在当前state时reward的计算。

是用来增加or减少state'的影响的，越大，智能体就会越重视以往经验，越小，就只重视眼前利益（R)。

R是执行了action后的reward，比如在终点处执行exit，获得+1/-1的 reward。

编写代码的时候，需要在update函数中体现上述思想。接下来分别实现函数

getQValue(state,action)函数

返回Q Value的值，直接return就可以，代码如下

defgetQValue(self,state,action):returnself.Q[(state,action)]

computeValueFromQValues(state)函数

该函数是通过QValue返回最大的reward，因此需要遍历四个reward，最终得到最大值

defcomputeValueFromQValues(self,state):actions=self.getLegalActions(state)iflen(actions)==0:return0# 保存成列表values=[self.getQValue(state,action)foractioninactions]returnmax(values)

computeActionFromQValues(state)函数和上一个函数一样，只不过这里返回的是最大Action

defcomputeActionFromQValues(self,state):actions=self.getLegalActions(state)iflen(actions)==0:return0max_action=float('-inf')best_action=actions[0]# 记录最大actionforactioninactions:ifmax_action<self.getQValue(state,action):max_action=self.getQValue(state,action)best_action=actionreturnbest_action

getAction(state)函数

此时要返回的action应该是最大的action

defgetAction(self,state):legalActions=self.getLegalActions(state)action=Noneiflen(legalActions)==0:returnactionreturnself.computeActionFromQValues(state)

update(state, action, nextState, reward)`函数

这里就是要通过公式计算，更新Q Value值

defupdate(self,state,action,nextState,reward):sample=reward+self.discount*/self.getValue(nextState)mid=self.Q[(state,action)]# 公式self.Q[(state,action)]=(1-self.alpha)*/self.getQValue(state,action)+self.alpha*sample

搭建完毕后，就可以计算每一个action的reward了：

按照相同路径走4次后的学习结果

Question7EpsilonGreedy

上述的算法看上去可以在每次动作都选择到最佳的动作，但在使用上述算法让智能体去学习Grid World的时候，会遇到下图的问题

python实现Q Learning强化学习(完整代码)

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

python实现Q Learning强化学习(完整代码)

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像