【莫烦Python强化学习笔记】Q Learning

简介: 【莫烦Python强化学习笔记】Q Learning

决策过程


s(state)——状态

a(action)——动作

r(reward)——奖励

根据每个状态下的动作得到的奖励值,列出Q表。

如下图中,在s1状态下,动作a1的奖励值为-2,动作a2的奖励值为1,-2<1,我们选择回馈较高的动作a2;同理,在s2状态下,动作a1的奖励值为-4,动作a2的奖励值为2,-4<2,我们选择回馈较高的动作a2.



Q表更新原则:

γ——衰减值

α——学习效率

在状态s1中,由于动作a2得到的奖励值比动作a1大,我们选择采取动作a2,此时状态变为s2。这时候s2还没有动作,而是根据Q表估计 (s1, a1) 和 (s1, a2) 的奖励值。




算法:




问题


为什么需要衰减值和学习效率?


相关文章
|
23天前
|
机器学习/深度学习 存储 算法
使用Python实现深度学习模型:强化学习与深度Q网络(DQN)
使用Python实现深度学习模型:强化学习与深度Q网络(DQN)
29 2
|
1月前
|
BI 测试技术 索引
Python学习笔记之NumPy模块——超详细(安装、数组创建、正态分布、索引和切片、数组的复制、维度修改、拼接、分割...)-1
Python学习笔记之NumPy模块——超详细(安装、数组创建、正态分布、索引和切片、数组的复制、维度修改、拼接、分割...)
|
15天前
|
机器学习/深度学习 算法 数据挖掘
Python强化学习应用于数据分析决策策略:** - 强化学习让智能体通过环境互动学习决策。
【7月更文挑战第5天】**Python强化学习应用于数据分析决策策略:** - 强化学习让智能体通过环境互动学习决策。 - Python因丰富库(如TensorFlow, PyTorch, Keras, Pandas, NumPy)和生态而受青睐。 - 使用OpenAI Gym构建环境,如`gym.make(&#39;CartPole-v0&#39;)`。 - 选择模型,例如神经网络,定义策略如Q-Learning。 - 训练模型,调整智能体行为,如Q-Learning更新Q表。 - 最后评估模型性能,实现数据驱动决策。
26 3
|
1月前
|
Python
GitHub爆赞!终于有大佬把《Python学习手册》学习笔记分享出来了
这份笔记的目标是为了给出一份比较精炼,但是又要浅显易懂的Python教程。《Python学习手册》中文第四版虽然比较简单,但是措辞比较罗嗦,而且一个语法点往往散落在多个章节,不方便读者总结。 我在做笔记时,将一个知识点的内容都统筹在一个章节里面,因此提炼性大大提高。而且还有《Python学习手册》中文第四版的翻译在某些章节(可能难度较大?)措辞可能前后矛盾。当知识点提炼之后就能够很快的找到一些难以理解的概念的上下文,方便吃透这些难点。
GitHub爆赞!终于有大佬把《Python学习手册》学习笔记分享出来了
这份笔记的目标是为了给出一份比较精炼,但是又要浅显易懂的Python教程。《Python学习手册》中文第四版虽然比较简单,但是措辞比较罗嗦,而且一个语法点往往散落在多个章节,不方便读者总结。 我在做笔记时,将一个知识点的内容都统筹在一个章节里面,因此提炼性大大提高。而且还有《Python学习手册》中文第四版的翻译在某些章节(可能难度较大?)措辞可能前后矛盾。当知识点提炼之后就能够很快的找到一些难以理解的概念的上下文,方便吃透这些难点。
|
22天前
|
存储 缓存 网络协议
技术笔记:python使用memcached
技术笔记:python使用memcached
15 0
|
23天前
|
Web App开发 存储 iOS开发
技术笔记:Python简单获取知轩藏书仙草毒草榜
技术笔记:Python简单获取知轩藏书仙草毒草榜
|
23天前
|
SQL 关系型数据库 MySQL
技术笔记:python连接mysql数据库
技术笔记:python连接mysql数据库
17 0
|
24天前
|
Python
python3 入门学习笔记
python3 入门学习笔记
11 0
|
26天前
|
数据采集 存储 弹性计算
Python爬虫基础笔记
【6月更文挑战第5天】Python爬虫基础笔记
24 0