强化学习——强化学习概述（下）

2023-05-20 166

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 强化学习——强化学习概述

正文

2.2. 部分可观测马尔科夫决策过程 POMDP

2.2.1. 马尔科夫过程 MDP

马尔科夫过程(Markov Decision Process,MDP)由三个部分组成：

1 P^a 是每个Action的动态模型，表示为

2、R RR是反馈函数，表示为

3、折扣因子(Discount Factor)γ \gammaγ，折扣因子的取值范围是γ ∈ [ 0 , 1 ]

2.2.2. 部分可观测马尔科夫决策过程 POMDP

一个高反馈通常是由一系列的动作得到的，所以这些采取的动作必须有长期的影响，但在这个过程里面，前期采取的动作所获得的反馈其实是被延迟了。

为了不使某一些“看起来暂时没有效果”的Action不被错误的判定为无效，强化学习需要对近期反馈和远期反馈进行权衡(Trade-Off)。

在 Agent 跟环境的交互过程中，获得很多Observation。Agent在每获得一个Observation都会采取一个Action，之后会得到一个Reward。所以强化学习的整个过程是一个“Observation→ \rightarrow→Action→ \rightarrow→Reward”的历史序列：

简写为

Agent 在采取新的Action时会依赖于它之前得到的历史序列，所以可以把整个问题的 状态空间 看成关于这个历史的函数：

在这里再次补充一下 State 和 Observation 的差别：

由于强化学习是以人类的角度来进行学习的，因此它不能获得一个系统的所有信息，例如我们用强化学习来玩王者荣耀，那么人类看王者荣耀是什么样的，Agent看王者荣耀就是什么样的，人类在看这一帧画面，Agent也在看这一帧画面。

因此，我们将Agent看到的环境称为Observation，整个系统的全部环境称为State。当 Agent 能够观察到环境的所有状态时，我们称这个环境是完全可观测的(Fully Observed)的，此时Observation与State等价。

强化学习通常被建模成一个 POMDP 的问题。部分可观测马尔科夫决策过程(Partially Observable Markov Decision Processes, POMDP)是一个马尔科夫决策过程(MDP)的变种，它假设Agent无法得知环境的State，只能通过观察得到Observation，这个建模十分合理，比如在自动驾驶中，Agent只能感知传感器采集的有限的环境信息。

POMDP 可以用一个 7 元组描述：

(S,A,T,R,Ω,O,γ)

其中 S 表示状态空间，是一个隐变量，A AA 为动作空间，T ( s ′ ∣ s , a ) 代表了状态转移概率，R RR为反馈函数，Ω ( o ∣ s , a ) 为观测概率，O 为观测空间，γ 为折扣系数。

隐变量，是指无法观测的随机变量，通常只能通过可观测变量的样本对隐变量作出推断。

在强化学习中，由于 Observation→ \rightarrow→Action→ \rightarrow→Reward 这个过程可以不断重复，因此可以用强化学习过程中Agent获取的巨量Observation来表示State

3. 学习与规划 Learning and Planning

Learning 和 Planning 是序列决策的两个基本问题。

对于Learning（这里特指Reinforcement Learning），环境初始时是未知的，Agent 不知道环境如何工作，只能通过不断地与环境交互，逐渐改进策略。

对于Plannning，环境是已知的，Agent被告知了整个环境的运作规则的详细信息。Agent 能够计算出一个完美的模型，并且在不需要与环境进行任何交互的时候进行计算。Agent 不需要实时地与环境交互就能知道未来环境，只需要知道当前的状态，就能够开始思考，来寻找最优解。

一个常用的强化学习问题解决思路是，先学习环境如何工作，也就是了解环境工作的方式，即学习得到一个模型，然后利用这个模型进行规划。

4. 探索与利用 Exploration and Exploitation

4.1. 权衡 Trade-Off

在强化学习里面，Exploration 和 Exploitation 是两个很核心的问题。

Exploration 是说Agent通过尝试不同的行为来得到一个最佳的策略，得到最大反馈的策略。

Exploitation 是说Agent不再尝试新的行为，就采取已知的可以得到很高反馈的行为。

因为在刚开始的时候强化学习Agent 不知道它采取了某个行为会发生什么，所以只能通过试错去探索。所以 Exploration 就是在试错来理解采取的这个行为到底可不可以得到高的反馈。Exploitation 是说我们直接采取已知的可以得到很好反馈的行为。

所以这里就面临一个权衡(Trade-Off)问题：怎么通过牺牲一些短期的Reward来获得更大的长期Reward。

强化学习——强化学习概述（下）

正文

2.2. 部分可观测马尔科夫决策过程 POMDP

2.2.1. 马尔科夫过程 MDP

2.2.2. 部分可观测马尔科夫决策过程 POMDP

3. 学习与规划 Learning and Planning

4. 探索与利用 Exploration and Exploitation

4.1. 权衡 Trade-Off

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

强化学习——强化学习概述（下）

正文

2.2. 部分可观测马尔科夫决策过程 POMDP

2.2.1. 马尔科夫过程 MDP

2.2.2. 部分可观测马尔科夫决策过程 POMDP

3. 学习与规划 Learning and Planning

4. 探索与利用 Exploration and Exploitation

4.1. 权衡 Trade-Off

热门文章

最新文章

相关课程

相关电子书

相关实验场景