强化学习——强化学习概述(下)

简介: 强化学习——强化学习概述

正文


2.2. 部分可观测马尔科夫决策过程 POMDP


2.2.1. 马尔科夫过程 MDP


马尔科夫过程(Markov Decision Process,MDP)由三个部分组成:

1 P^a 是每个Action的动态模型,表示为


55.png

2、R RR是反馈函数,表示为

56.png

3、折扣因子(Discount Factor)γ \gammaγ,折扣因子的取值范围是γ ∈ [ 0 , 1 ]


2.2.2. 部分可观测马尔科夫决策过程 POMDP


一个高反馈通常是由一系列的动作得到的,所以这些采取的动作必须有长期的影响,但在这个过程里面,前期采取的动作所获得的反馈其实是被延迟了。


为了不使某一些“看起来暂时没有效果”的Action不被错误的判定为无效,强化学习需要对近期反馈和远期反馈进行权衡(Trade-Off)。


在 Agent 跟环境的交互过程中,获得很多Observation。Agent在每获得一个Observation都会采取一个Action,之后会得到一个Reward。所以强化学习的整个过程是一个“Observation→ \rightarrow→Action→ \rightarrow→Reward”的历史序列:

86.png

简写为87.png

Agent 在采取新的Action时会依赖于它之前得到的历史序列,所以可以把整个问题的 状态空间 看成关于这个历史的函数:

88.png

在这里再次补充一下 State 和 Observation 的差别:

由于强化学习是以人类的角度来进行学习的,因此它不能获得一个系统的所有信息,例如我们用强化学习来玩王者荣耀,那么人类看王者荣耀是什么样的,Agent看王者荣耀就是什么样的,人类在看这一帧画面,Agent也在看这一帧画面。

因此,我们将Agent看到的环境称为Observation,整个系统的全部环境称为State。当 Agent 能够观察到环境的所有状态时,我们称这个环境是完全可观测的(Fully Observed)的, 此时Observation与State等价。

强化学习通常被建模成一个 POMDP 的问题。部分可观测马尔科夫决策过程(Partially Observable Markov Decision Processes, POMDP)是一个马尔科夫决策过程(MDP)的变种,它假设Agent无法得知环境的State,只能通过观察得到Observation,这个建模十分合理,比如在自动驾驶中,Agent只能感知传感器采集的有限的环境信息。


POMDP 可以用一个 7 元组描述:

(S,A,T,R,Ω,O,γ)


其中 S  表示状态空间,是一个隐变量,A AA 为动作空间,T ( s ′ ∣ s , a ) 代表了状态转移概率,R RR为反馈函数,Ω ( o ∣ s , a ) 为观测概率,O 为观测空间,γ  为折扣系数。

隐变量,是指无法观测的随机变量,通常只能通过可观测变量的样本对隐变量作出推断。

在强化学习中,由于 Observation→ \rightarrow→Action→ \rightarrow→Reward 这个过程可以不断重复,因此可以用强化学习过程中Agent获取的巨量Observation来表示State


3. 学习与规划 Learning and Planning


Learning 和 Planning 是序列决策的两个基本问题。


对于Learning(这里特指Reinforcement Learning),环境初始时是未知的,Agent 不知道环境如何工作,只能通过不断地与环境交互,逐渐改进策略。


对于Plannning,环境是已知的,Agent被告知了整个环境的运作规则的详细信息。Agent 能够计算出一个完美的模型,并且在不需要与环境进行任何交互的时候进行计算。Agent 不需要实时地与环境交互就能知道未来环境,只需要知道当前的状态,就能够开始思考,来寻找最优解。


一个常用的强化学习问题解决思路是,先学习环境如何工作,也就是了解环境工作的方式,即学习得到一个模型,然后利用这个模型进行规划。


4. 探索与利用 Exploration and Exploitation


4.1. 权衡 Trade-Off


在强化学习里面,Exploration 和 Exploitation 是两个很核心的问题。


Exploration 是说Agent通过尝试不同的行为来得到一个最佳的策略,得到最大反馈的策略。

Exploitation 是说Agent不再尝试新的行为,就采取已知的可以得到很高反馈的行为。

因为在刚开始的时候强化学习Agent 不知道它采取了某个行为会发生什么,所以只能通过试错去探索。所以 Exploration 就是在试错来理解采取的这个行为到底可不可以得到高的反馈。Exploitation 是说我们直接采取已知的可以得到很好反馈的行为。


所以这里就面临一个权衡(Trade-Off)问题:怎么通过牺牲一些短期的Reward来获得更大的长期Reward。


相关文章
|
机器学习/深度学习 算法 前端开发
经典机器学习系列(六)【集成学习】
经典机器学习系列(六)【集成学习】
211 2
|
29天前
|
机器学习/深度学习 人工智能 算法
深度学习和强化学习有什么区别呢
【10月更文挑战第23天】深度学习和强化学习有什么区别呢
|
2月前
|
机器学习/深度学习 人工智能 算法
强化学习概述与基础
强化学习概述与基础
44 0
|
2月前
|
机器学习/深度学习 传感器 算法
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
|
3月前
|
机器学习/深度学习 算法 搜索推荐
机器学习方法之强化学习
强化学习是一种机器学习方法,旨在通过与环境的交互来学习如何做出决策,以最大化累积的奖励。
63 4
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】机器学习、深度学习、强化学习和迁移学习简介、相互对比、区别与联系。
机器学习、深度学习、强化学习和迁移学习都是人工智能领域的子领域,它们之间有一定的联系和区别。下面分别对这四个概念进行解析,并给出相互对比、区别与联系以及应用场景案例分析。
108 1
|
7月前
|
机器学习/深度学习 人工智能 运维
|
机器学习/深度学习 人工智能 算法
手把手教你强化学习 (一) 什么是强化学习?与机器学习有什么区别?
手把手教你强化学习 (一) 什么是强化学习?与机器学习有什么区别?
398 3
|
机器学习/深度学习 人工智能 自然语言处理
机器学习、深度学习和强化学习的关系和区别是什么?
众所周知,人工智能领域知识庞大且复杂,各种专业名词层出不穷,常常让初学者看得摸不着头脑。比如“机器学习”、“深度学习”、“强化学习”就属于这类名词。那么,针对这三者各自具体有哪些内容?三者是否有相关性?不同核心及侧重点是什么?以及各自的应用领域有哪些?应用的前景如何?等问题,本文根据百度百科等相关资料里的内容进行整理,形成了以下详细的阐述。
1349 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理