强化学习的最基本概念马尔可夫决策过程简介

简介: 强化学习的最基本概念马尔可夫决策过程简介

在本文中我将介绍强化学习的基本方面,即马尔可夫决策过程。我们将从马尔可夫过程开始,马尔可夫奖励过程,最后是马尔可夫决策过程。

640.png

目录

马尔可夫过程

马尔可夫奖励过程

马尔可夫决策过程

马尔可夫过程

马尔可夫决策过程(MDP)代表了一种强化学习的环境。我们假设环境是完全可见的。这意味着我们拥有了当前状态下做出决定所需的所有信息。然而,在我们讨论MDP是什么之前,我们需要知道马尔科夫性质的含义。

马尔可夫性质指出,未来是独立于过去的现在。它意味着当前状态从历史记录中捕获所有相关信息。例如,如果我现在口渴了,我想马上喝一杯。当我决定喝水的时候,这与我昨天或一周前口渴无关(过去的状态)。现在是我做出决定的唯一关键时刻。

鉴于现在,未来独立于过去

除了马尔可夫性质外,我们还建立了一个状态转移矩阵,它存储了从每个当前状态到每个继承状态的所有概率。假设我在工作时有两种状态:工作(实际工作)和观看视频。当我工作时,我有70%的机会继续工作,30%的机会看视频。然而,如果我在工作中看视频,我可能有90%的机会继续看视频,10%的机会回到实际工作中。也就是说,状态转移矩阵定义了从所有状态(工作,观看视频)到所有继承状态(工作,观看视频)的转移概率。

了解了马尔可夫性质和状态转移矩阵之后,让我们继续讨论马尔可夫过程或马尔可夫链。马尔可夫过程是一个无记忆的随机过程,如具有马尔可夫性质的状态序列。

我们可以在下图中看到马尔科夫过程学生活动的一个例子。有几种状态,从class 1到最终状态Sleep。每个圆中的数字表示转移概率。

640.png

我们可以从class 1到sleep这一过程中获取一些例子:

C1 C2 C3 Pass Sleep,

C1 FB FB C1 C2 Sleep,

C1 C2 C3 Pub C2 C3 Pass Sleep, and so on.

它们三个从相同的状态(class 1)开始,并以睡眠结束。然而,他们经历了不同的路径来达到最终状态。每一次经历都是我们所说的马尔科夫过程。

具有马尔可夫性质的随机状态序列是一个马尔可夫过程

马尔可夫奖励过程

至此,我们终于理解了什么是马尔可夫过程。马尔可夫奖励过程(MRP)是一个有奖励的马尔可夫过程。这很简单,对吧?它由状态、状态转移概率矩阵加上奖励函数和一个折现因子组成。我们现在可以将之前的学生马尔科夫过程更改为学生MRP,并添加奖励,如下图所示。

640.png

要理解MRP,我们必须了解收益和价值函数。

回报是从现在起的总折扣奖励。折扣因子是未来奖励的现值,其值在0到1之间。当折扣因子接近0时,它倾向于立即奖励而不是延迟奖励。当它接近1时,它将延迟奖励的价值高于立即奖励。

但是,您可能会问“为什么我们要增加折扣系数?”。好吧,出于几个原因需要它。首先,我们希望通过将折扣系数设置为小于1来避免无限的回报。其次,立即获得的回报实际上可能更有价值。第三,人类行为表现出对立即获得奖励的偏好,例如选择现在购物而不是为将来储蓄。

收益(G)可以使用奖励(R)和折扣因子(γ)如下计算。

640.png

从MRP中,我们可以得到一个从class 1开始的折现系数为0.5的示例收益。样本剧本是[C1 C2 C3 Pass],其收益等于-2 -2 * 0.5 -2 * 0.25 + 10 * 0.125 = -2.25。

除了return之外,我们还有一个value函数,它是一个状态的预期收益。值函数确定状态的值,该值指示状态的可取性。使用Bellman方程,我们可以仅使用当前奖励和下一个状态值来计算当前状态值。

640.png

这意味着我们只需要下一个状态即可计算一个状态的总值。换句话说,我们可以拥有一个递归函数,直到处理结束。

让我们再次看一下Gamma等于1的 MRP。下图表示每个状态下都有一个值的MRP。以前已经计算过该值,现在我们要用等式验证3类(红色圆圈)中的值。

640.png

从class3 中我们可以看到,该值是通过将立即回报(-2)与下两个状态的期望值相加来计算的。为了计算下一状态的期望值,我们可以将转移概率与状态的 值相乘。因此,我们得到-2 +0.6* 10 +0.4*0.8等于4.3。

马尔可夫奖励过程是一个具有奖励和价值的马尔可夫过程

马尔可夫决策过程

到目前为止,我们已经了解了马尔可夫奖赏过程。但是,当前状态和下一个状态之间可能没有动作。马尔可夫决策过程(MDP)是具有决策的MRP。现在,我们可以选择几个动作以在状态之间进行转换。

让我们在下图中查看MDP。这里的主要区别在于,在采取行动后会立即获得奖励。在执行MRP时,状态变更后会立即获得奖励。这里的另一个区别是动作也可以导致学生进入不同的状态。根据学生的MDP,如果学生采取Pub动作,则他可以进入class1,class2或class3。

640.png

给定这些动作,我们现在有了一个策略,该策略将状态映射到动作。它定义了代理人(在这种情况下是学生)的行为。策略是固定的(与时间无关),它们取决于操作和状态而不是时间步长。

基于策略,我们有一个状态值函数和一个动作值函数。状态值函数是从当前状态开始然后遵循策略的预期收益。另一方面,操作值函数是从当前状态开始,然后执行操作,然后遵循策略的预期收益。

通过使用Bellman方程,我们可以具有状态值函数(v)和动作值函数(q)的递归形式,如下所示。

640.png

状态值函数

640.png

动作值函数

为了使情况更清楚,我们可以在下图中再次查看带有gamma 0.1的 MDP。假设在class3(红色圆圈)中,学生有50:50的政策。这意味着该学生有50%的机会Study或Pub。我们可以通过将每个动作之后的每个预期收益相加来计算状态值。

640.png

通过将动作概率与下一个状态的期望值(0.5 * 10)相乘,可以计算出Study的期望值。相反,Pub操作具有多个导致不同状态的分支。因此,我们可以通过将动作概率(0.5)乘以动作值,从Pub中计算出期望值。可以通过将即时奖励与来自所有可能状态的期望值相加来计算操作值。可以通过1 + 0.2 * -1.3 + 0.4 * 2.7 + 0.4 * 7.4进行计算。

代理人的目标是最大化其价值。因此,我们必须找到导致最大值的最优值函数。在前面的示例中,我们通过对所有可能的操作的所有期望值求和来计算值。现在,我们只关心提供最大值的动作。在了解了最优值函数之后,我们有了最优策略并求解了MDP。下图显示了针对每个状态的最优值和策略的MDP。

640.png

具有最佳政策的学生MDP

结论

总而言之,马尔可夫决策过程是具有动作的马尔可夫奖励过程,在此过程中,代理必须根据最佳价值和政策做出决策。

目录
相关文章
|
2月前
|
机器学习/深度学习 传感器 算法
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
|
7月前
|
机器学习/深度学习 人工智能 运维
|
机器学习/深度学习 人工智能 算法
手把手教你强化学习 (一) 什么是强化学习?与机器学习有什么区别?
手把手教你强化学习 (一) 什么是强化学习?与机器学习有什么区别?
412 3
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|
机器学习/深度学习 数据采集 存储
【强化学习】常用算法之一 “A3C”
A3C(Asynchronous Advantage Actor-Critic)算法是一种在强化学习领域中应用广泛的算法,它结合了策略梯度方法和价值函数的学习,用于近似解决马尔可夫决策过程(Markov Decision Process)问题。A3C算法在近年来备受关注,因为它在处理大规模连续动作空间和高维状态空间方面具有出色的性能。A3C算法是一种基于策略梯度的强化学习算法,通过多个并行的智能体异步地与环境交互,并利用Actor和Critic网络实现策略和价值的近似,从而实现快速而稳定的强化学习训练。
1598 0
【强化学习】常用算法之一 “A3C”
|
机器学习/深度学习 算法 自动驾驶
【强化学习】常用算法之一 “SAC”
强化学习(Reinforcement Learning,RL)是一种机器学习的分支,其目标是让智能体(agent)通过与环境的交互学习到最优的行为策略。SAC(Soft Actor-Critic)算法是近年来在强化学习领域取得重要突破的算法之一,它是一种基于策略优化和价值函数学习的算法。相对于传统的强化学习算法,SAC算法在优化过程中引入了熵正则化和软化策略更新的概念,使得智能体能够更好地探索未知的状态,提高学习效率。
2943 0
【强化学习】常用算法之一 “SAC”
|
机器学习/深度学习 人工智能 自然语言处理
强化学习从基础到进阶–案例与实践[11]:AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验
强化学习从基础到进阶–案例与实践[11]:AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验
强化学习从基础到进阶–案例与实践[11]:AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验
|
机器学习/深度学习 自然语言处理 监控
手把手教你强化学习 (二) 强化学习的直观理解和基本概念
手把手教你强化学习 (二) 强化学习的直观理解和基本概念
183 0
|
机器学习/深度学习 数据可视化 算法
解读随机森林的决策树:揭示模型背后的奥秘
通过解读随机森林决策树,我们可以揭示模型背后的奥秘。我们可以分析决策树节点的重要性和特征的贡献度,了解模型预测的依据。随机森林决策树还可以应用于金融风险评估、医学诊断等领域,并取得了很多成功案例。继续研究随机森林和决策树的价值将有助于提升模型的性能和解释能力。
162 0
|
机器学习/深度学习 人工智能 算法
强化学习基础篇【1】:基础知识点、马尔科夫决策过程、蒙特卡洛策略梯度定理、REINFORCE 算法
强化学习基础篇【1】:基础知识点、马尔科夫决策过程、蒙特卡洛策略梯度定理、REINFORCE 算法
 强化学习基础篇【1】:基础知识点、马尔科夫决策过程、蒙特卡洛策略梯度定理、REINFORCE 算法