强化学习——强化学习概述(下)

简介: 强化学习——强化学习概述

正文


2.2. 部分可观测马尔科夫决策过程 POMDP


2.2.1. 马尔科夫过程 MDP


马尔科夫过程(Markov Decision Process,MDP)由三个部分组成:

1 P^a 是每个Action的动态模型,表示为


55.png

2、R RR是反馈函数,表示为

56.png

3、折扣因子(Discount Factor)γ \gammaγ,折扣因子的取值范围是γ ∈ [ 0 , 1 ]


2.2.2. 部分可观测马尔科夫决策过程 POMDP


一个高反馈通常是由一系列的动作得到的,所以这些采取的动作必须有长期的影响,但在这个过程里面,前期采取的动作所获得的反馈其实是被延迟了。


为了不使某一些“看起来暂时没有效果”的Action不被错误的判定为无效,强化学习需要对近期反馈和远期反馈进行权衡(Trade-Off)。


在 Agent 跟环境的交互过程中,获得很多Observation。Agent在每获得一个Observation都会采取一个Action,之后会得到一个Reward。所以强化学习的整个过程是一个“Observation→ \rightarrow→Action→ \rightarrow→Reward”的历史序列:

86.png

简写为87.png

Agent 在采取新的Action时会依赖于它之前得到的历史序列,所以可以把整个问题的 状态空间 看成关于这个历史的函数:

88.png

在这里再次补充一下 State 和 Observation 的差别:

由于强化学习是以人类的角度来进行学习的,因此它不能获得一个系统的所有信息,例如我们用强化学习来玩王者荣耀,那么人类看王者荣耀是什么样的,Agent看王者荣耀就是什么样的,人类在看这一帧画面,Agent也在看这一帧画面。

因此,我们将Agent看到的环境称为Observation,整个系统的全部环境称为State。当 Agent 能够观察到环境的所有状态时,我们称这个环境是完全可观测的(Fully Observed)的, 此时Observation与State等价。

强化学习通常被建模成一个 POMDP 的问题。部分可观测马尔科夫决策过程(Partially Observable Markov Decision Processes, POMDP)是一个马尔科夫决策过程(MDP)的变种,它假设Agent无法得知环境的State,只能通过观察得到Observation,这个建模十分合理,比如在自动驾驶中,Agent只能感知传感器采集的有限的环境信息。


POMDP 可以用一个 7 元组描述:

(S,A,T,R,Ω,O,γ)


其中 S  表示状态空间,是一个隐变量,A AA 为动作空间,T ( s ′ ∣ s , a ) 代表了状态转移概率,R RR为反馈函数,Ω ( o ∣ s , a ) 为观测概率,O 为观测空间,γ  为折扣系数。

隐变量,是指无法观测的随机变量,通常只能通过可观测变量的样本对隐变量作出推断。

在强化学习中,由于 Observation→ \rightarrow→Action→ \rightarrow→Reward 这个过程可以不断重复,因此可以用强化学习过程中Agent获取的巨量Observation来表示State


3. 学习与规划 Learning and Planning


Learning 和 Planning 是序列决策的两个基本问题。


对于Learning(这里特指Reinforcement Learning),环境初始时是未知的,Agent 不知道环境如何工作,只能通过不断地与环境交互,逐渐改进策略。


对于Plannning,环境是已知的,Agent被告知了整个环境的运作规则的详细信息。Agent 能够计算出一个完美的模型,并且在不需要与环境进行任何交互的时候进行计算。Agent 不需要实时地与环境交互就能知道未来环境,只需要知道当前的状态,就能够开始思考,来寻找最优解。


一个常用的强化学习问题解决思路是,先学习环境如何工作,也就是了解环境工作的方式,即学习得到一个模型,然后利用这个模型进行规划。


4. 探索与利用 Exploration and Exploitation


4.1. 权衡 Trade-Off


在强化学习里面,Exploration 和 Exploitation 是两个很核心的问题。


Exploration 是说Agent通过尝试不同的行为来得到一个最佳的策略,得到最大反馈的策略。

Exploitation 是说Agent不再尝试新的行为,就采取已知的可以得到很高反馈的行为。

因为在刚开始的时候强化学习Agent 不知道它采取了某个行为会发生什么,所以只能通过试错去探索。所以 Exploration 就是在试错来理解采取的这个行为到底可不可以得到高的反馈。Exploitation 是说我们直接采取已知的可以得到很好反馈的行为。


所以这里就面临一个权衡(Trade-Off)问题:怎么通过牺牲一些短期的Reward来获得更大的长期Reward。


相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
强化学习概述与基础
强化学习概述与基础
44 0
|
1月前
|
机器学习/深度学习 传感器 算法
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
|
2月前
|
机器学习/深度学习 算法 搜索推荐
机器学习方法之强化学习
强化学习是一种机器学习方法,旨在通过与环境的交互来学习如何做出决策,以最大化累积的奖励。
62 4
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】机器学习、深度学习、强化学习和迁移学习简介、相互对比、区别与联系。
机器学习、深度学习、强化学习和迁移学习都是人工智能领域的子领域,它们之间有一定的联系和区别。下面分别对这四个概念进行解析,并给出相互对比、区别与联系以及应用场景案例分析。
92 1
|
机器学习/深度学习 算法 自动驾驶
【强化学习】什么是“强化学习”
强化学习是机器学习领域的一种重要方法,主要通过使用环境的反馈信息来指导智能体的行为,并且通过智能体收集的经验数据对自身策略进行优化。在强化学习中,我们通常用“智能体”来表示学习机器或者一个决策实体。这个智能体在某个环境中采取行动,然后收到环境的反馈信号(奖励或者惩罚),从而逐渐学习到一个最优的行动策略。在强化学习中,主要涉及到一些概念,如状态、行动、奖励、策略等等。状态指的是输入进入智能体算法的集合,行动指的是智能体做出的反应,奖励通常是指环境给予智能体的反馈信息,策略指的是智能体在某种状态下选择的行为。
238 0
【强化学习】什么是“强化学习”
|
机器学习/深度学习 人工智能 算法
手把手教你强化学习 (一) 什么是强化学习?与机器学习有什么区别?
手把手教你强化学习 (一) 什么是强化学习?与机器学习有什么区别?
396 3
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
强化学习第1天:强化学习概述
强化学习第1天:强化学习概述
|
机器学习/深度学习 决策智能
初探强化学习
初探强化学习
145 0
|
机器学习/深度学习 算法 自动驾驶
强化学习模型
强化学习模型
186 0
下一篇
无影云桌面