【莫烦Python强化学习笔记】Q Learning

简介: 【莫烦Python强化学习笔记】Q Learning

决策过程


s(state)——状态

a(action)——动作

r(reward)——奖励

根据每个状态下的动作得到的奖励值,列出Q表。

如下图中,在s1状态下,动作a1的奖励值为-2,动作a2的奖励值为1,-2<1,我们选择回馈较高的动作a2;同理,在s2状态下,动作a1的奖励值为-4,动作a2的奖励值为2,-4<2,我们选择回馈较高的动作a2.



Q表更新原则:

γ——衰减值

α——学习效率

在状态s1中,由于动作a2得到的奖励值比动作a1大,我们选择采取动作a2,此时状态变为s2。这时候s2还没有动作,而是根据Q表估计 (s1, a1) 和 (s1, a2) 的奖励值。




算法:




问题


为什么需要衰减值和学习效率?


相关文章
|
10天前
|
存储 设计模式 算法
|
2月前
|
机器学习/深度学习 存储 算法
探索Python中的强化学习:SARSA
探索Python中的强化学习:SARSA
22 4
|
2月前
|
存储 C语言 Python
【Python】学习笔记day3
【Python】学习笔记day3
27 1
|
29天前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
4月前
|
Python
小笔记:Python 使用字符串调用函数
小笔记:Python 使用字符串调用函数
42 0
|
1月前
|
前端开发 安全 JavaScript
Python的Flask框架的学习笔记(前后端变量传送,文件上传,网页返回)内含实战:实现一个简单的登录页面
Python的Flask框架的学习笔记(前后端变量传送,文件上传,网页返回)内含实战:实现一个简单的登录页面
|
2天前
|
机器学习/深度学习 人工智能 算法
【Python 机器学习专栏】强化学习在游戏 AI 中的实践
【4月更文挑战第30天】强化学习在游戏AI中展现巨大潜力,通过与环境交互和奖励信号学习最优策略。适应性强,能自主探索,挖掘出惊人策略。应用包括策略、动作和竞速游戏,如AlphaGo。Python是实现强化学习的常用工具。尽管面临训练时间长和环境复杂性等挑战,但未来强化学习将与其他技术融合,推动游戏AI发展,创造更智能的游戏体验。
|
2天前
|
机器学习/深度学习 算法 TensorFlow
【Python机器学习专栏】强化学习在Python中的实现
【4月更文挑战第30天】本文介绍了如何在Python中实现强化学习算法,涉及安装gym和tensorflow库,创建CartPole环境。文中定义了一个Agent类,包含策略网络和值函数网络,并提供了训练和测试智能体的函数。通过与环境交互,智能体不断学习优化策略,以达到稳定控制小车的目标。这为理解及应用强化学习奠定了基础。
|
7天前
|
机器学习/深度学习 算法 Python
使用Python实现强化学习算法
使用Python实现强化学习算法
12 1
使用Python实现强化学习算法
|
10天前
|
存储 索引 Python