正文
2.2. 部分可观测马尔科夫决策过程 POMDP
2.2.1. 马尔科夫过程 MDP
马尔科夫过程(Markov Decision Process,MDP)由三个部分组成:
1 P^a 是每个Action的动态模型,表示为
2、R RR是反馈函数,表示为
3、折扣因子(Discount Factor)γ \gammaγ,折扣因子的取值范围是γ ∈ [ 0 , 1 ]
2.2.2. 部分可观测马尔科夫决策过程 POMDP
一个高反馈通常是由一系列的动作得到的,所以这些采取的动作必须有长期的影响,但在这个过程里面,前期采取的动作所获得的反馈其实是被延迟了。
为了不使某一些“看起来暂时没有效果”的Action不被错误的判定为无效,强化学习需要对近期反馈和远期反馈进行权衡(Trade-Off)。
在 Agent 跟环境的交互过程中,获得很多Observation。Agent在每获得一个Observation都会采取一个Action,之后会得到一个Reward。所以强化学习的整个过程是一个“Observation→ \rightarrow→Action→ \rightarrow→Reward”的历史序列:
简写为
Agent 在采取新的Action时会依赖于它之前得到的历史序列,所以可以把整个问题的 状态空间 看成关于这个历史的函数:
在这里再次补充一下 State 和 Observation 的差别:
由于强化学习是以人类的角度来进行学习的,因此它不能获得一个系统的所有信息,例如我们用强化学习来玩王者荣耀,那么人类看王者荣耀是什么样的,Agent看王者荣耀就是什么样的,人类在看这一帧画面,Agent也在看这一帧画面。
因此,我们将Agent看到的环境称为Observation,整个系统的全部环境称为State。当 Agent 能够观察到环境的所有状态时,我们称这个环境是完全可观测的(Fully Observed)的, 此时Observation与State等价。
强化学习通常被建模成一个 POMDP 的问题。部分可观测马尔科夫决策过程(Partially Observable Markov Decision Processes, POMDP)是一个马尔科夫决策过程(MDP)的变种,它假设Agent无法得知环境的State,只能通过观察得到Observation,这个建模十分合理,比如在自动驾驶中,Agent只能感知传感器采集的有限的环境信息。
POMDP 可以用一个 7 元组描述:
(S,A,T,R,Ω,O,γ)
其中 S 表示状态空间,是一个隐变量,A AA 为动作空间,T ( s ′ ∣ s , a ) 代表了状态转移概率,R RR为反馈函数,Ω ( o ∣ s , a ) 为观测概率,O 为观测空间,γ 为折扣系数。
隐变量,是指无法观测的随机变量,通常只能通过可观测变量的样本对隐变量作出推断。
在强化学习中,由于 Observation→ \rightarrow→Action→ \rightarrow→Reward 这个过程可以不断重复,因此可以用强化学习过程中Agent获取的巨量Observation来表示State
3. 学习与规划 Learning and Planning
Learning 和 Planning 是序列决策的两个基本问题。
对于Learning(这里特指Reinforcement Learning),环境初始时是未知的,Agent 不知道环境如何工作,只能通过不断地与环境交互,逐渐改进策略。
对于Plannning,环境是已知的,Agent被告知了整个环境的运作规则的详细信息。Agent 能够计算出一个完美的模型,并且在不需要与环境进行任何交互的时候进行计算。Agent 不需要实时地与环境交互就能知道未来环境,只需要知道当前的状态,就能够开始思考,来寻找最优解。
一个常用的强化学习问题解决思路是,先学习环境如何工作,也就是了解环境工作的方式,即学习得到一个模型,然后利用这个模型进行规划。
4. 探索与利用 Exploration and Exploitation
4.1. 权衡 Trade-Off
在强化学习里面,Exploration 和 Exploitation 是两个很核心的问题。
Exploration 是说Agent通过尝试不同的行为来得到一个最佳的策略,得到最大反馈的策略。
Exploitation 是说Agent不再尝试新的行为,就采取已知的可以得到很高反馈的行为。
因为在刚开始的时候强化学习Agent 不知道它采取了某个行为会发生什么,所以只能通过试错去探索。所以 Exploration 就是在试错来理解采取的这个行为到底可不可以得到高的反馈。Exploitation 是说我们直接采取已知的可以得到很好反馈的行为。
所以这里就面临一个权衡(Trade-Off)问题:怎么通过牺牲一些短期的Reward来获得更大的长期Reward。