AI学习笔记——Q Learning-阿里云开发者社区

AI学习笔记——Q Learning

2018-08-12 1534

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 继续接着上一篇，这篇文章介绍强化学习中的一个经典算法——Q Learning.在之前的文章中已经介绍过了，强化学习就是让机器人(Agent)在与环境的互动过程学习解决问题的最佳路径的过程。

继续接着上一篇，这篇文章介绍强化学习中的一个经典算法——Q Learning.

在之前的文章中已经介绍过了，强化学习就是让机器人(Agent)在与环境的互动过程学习解决问题的最佳路径的过程。

强化学习通常包括这么几个重要概念：

状态(State (S))
动作(Action(A))
奖励(Reward(R))

下面以一个例子来解释这几个概念，并介绍一下Q Learning是什么：

上图红色方框就是我们的机器人，任务是要在4x4的迷宫中找到黄色圆圈的宝藏，并学习到达宝藏的最佳路径。如果以左上角的初始状态为S ₀，那么整个迷宫一共有16个 状态(State)（从左到右从上到下分别是S ₀到S ₁₅）。机器人的 行动（Action）有四个: 分别是向左(A ₁)向右(A ₂)向上(A ₃)和向下(A ₄)移动。如果找到黄色圆圈(宝藏) 奖励(Reward)为1，掉入黑色陷阱奖励(Reward)为-1，其他地方为0。

1. Q表(Q table)

Q Learning 就是创造一个Q表，来指导机器人的行动，Q表对应Action的数值越大，机器人就越大概率地采取这个Action.

Q table (States\Actions)	left (A₁)	right (A₂)	up (A₃)	down (A₄)
S₀	-1	3	-1	2
S₁	1	2	-1	1
...	...	...	...	..

比如Q表在S₀最大概率会向右移动，在S₁最大概率还是向右移动，因为A₂在两个状态的Q表数值都是最大的。

这个Q表是经过学习之后的结果，学习并不断更新这个表的过程就是Q Learning。

2. 探索-利用困境(Explore-Exploit dilemma)

Q Learning 是如何学习并更新Q表呢？正如多臂老虎机(Multi-armed bandit)问题一样，如果机器人仅仅按照表中最大概率指导行动的话，是学不到任何东西的，它还需要不停地在未知地图上进行探索，这就是是探索-利用困境(Explore-Exploit dilemma)。同样的，我们也可以用ε贪婪方法(ε -Greedy method)的方法来解决这个困境。

也就是设定一个ε(比如0.9)，90%的几率按照Q表数值最大Action行动，10%随机行动。每行动一次就要更新一下Q表。

3. 如何更新Q表

Q learning的算法就是如何更新Q表的方法。还是以表下为例：

Q table (States\Actions)	left (A₁)	right (A₂)	up (A₃)	down (A₄)
S₀	-1	3	-1	2
S₁	1	2	-1	1

当机器人处于S₀的状态时，如果刚好选择了A₂，那么下一个状态就是S₁（注意有10%的概率会选择其他的Action, 而到达其他的状态)。行动之后，我们就需要更新Q(S₀,A₂)的数值, 先给结果吧：

Q(S₀,A₂) = Q(S₀,A₂) + α[R(S₁) + γ*max_aQ(S₁,a)-Q(S₀,A₂)]

解释一下

R(S₁)是机器人在S₁能活的的奖励(Reward)(该游戏除了陷阱的地方为-1，宝藏的地方为1，其他地方均为0)。
γ为衰减值。
max_aQ(S₁,a)是S₁状态下Q表数值最大的一个(这里是2)。
α是学习速率(Learning Rate)。
R(S₁) + γ*max_aQ(S₁,a)是Q(S₀,A₂) 的目标数值。

那我们再把公式重写一遍就清楚了吧：

Q(S₀,A₂)新=Q(S₀,A₂) 旧 + α* [Q(S₀,A₂)目标 - Q(S₀,A₂)旧]

上面的公式像极了在线性回归中的梯度下降法(Gradient Descent)。只不过在线性回归我们更新权重W的方法，在这里我们更新Q表而已。

完整的公式如下：

4. 衰减值

这里再解释一下为什么要用衰减值 γ，从上面的公式可以看出，S_t 和 S_t+1是一个递归的关系。当机器人走到第n步的时候，会受到0到n-1每一步状态的影响。如果衰减值γ=1，那么每一步的影响都是一样的。γ在0到1之间，就可以让越靠近n的状态对第n步影响越大，之前的状态随着行动的增加，影响力会越来越小。

文章首发steemit.com 为了方便墙内阅读，搬运至此，欢迎留言或者访问我的Steemit主页

AI学习笔记——Q Learning

1. Q表(Q table)

2. 探索-利用困境(Explore-Exploit dilemma)

3. 如何更新Q表

4. 衰减值

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

AI学习笔记——Q Learning

1. Q表(Q table)

2. 探索-利用困境(Explore-Exploit dilemma)

3. 如何更新Q表

4. 衰减值

热门文章

最新文章

相关课程

相关电子书

相关实验场景