强化学习——强化学习概述(下)

简介: 强化学习——强化学习概述

正文


2.2. 部分可观测马尔科夫决策过程 POMDP


2.2.1. 马尔科夫过程 MDP


马尔科夫过程(Markov Decision Process,MDP)由三个部分组成:

1 P^a 是每个Action的动态模型,表示为


55.png

2、R RR是反馈函数,表示为

56.png

3、折扣因子(Discount Factor)γ \gammaγ,折扣因子的取值范围是γ ∈ [ 0 , 1 ]


2.2.2. 部分可观测马尔科夫决策过程 POMDP


一个高反馈通常是由一系列的动作得到的,所以这些采取的动作必须有长期的影响,但在这个过程里面,前期采取的动作所获得的反馈其实是被延迟了。


为了不使某一些“看起来暂时没有效果”的Action不被错误的判定为无效,强化学习需要对近期反馈和远期反馈进行权衡(Trade-Off)。


在 Agent 跟环境的交互过程中,获得很多Observation。Agent在每获得一个Observation都会采取一个Action,之后会得到一个Reward。所以强化学习的整个过程是一个“Observation→ \rightarrow→Action→ \rightarrow→Reward”的历史序列:

86.png

简写为87.png

Agent 在采取新的Action时会依赖于它之前得到的历史序列,所以可以把整个问题的 状态空间 看成关于这个历史的函数:

88.png

在这里再次补充一下 State 和 Observation 的差别:

由于强化学习是以人类的角度来进行学习的,因此它不能获得一个系统的所有信息,例如我们用强化学习来玩王者荣耀,那么人类看王者荣耀是什么样的,Agent看王者荣耀就是什么样的,人类在看这一帧画面,Agent也在看这一帧画面。

因此,我们将Agent看到的环境称为Observation,整个系统的全部环境称为State。当 Agent 能够观察到环境的所有状态时,我们称这个环境是完全可观测的(Fully Observed)的, 此时Observation与State等价。

强化学习通常被建模成一个 POMDP 的问题。部分可观测马尔科夫决策过程(Partially Observable Markov Decision Processes, POMDP)是一个马尔科夫决策过程(MDP)的变种,它假设Agent无法得知环境的State,只能通过观察得到Observation,这个建模十分合理,比如在自动驾驶中,Agent只能感知传感器采集的有限的环境信息。


POMDP 可以用一个 7 元组描述:

(S,A,T,R,Ω,O,γ)


其中 S  表示状态空间,是一个隐变量,A AA 为动作空间,T ( s ′ ∣ s , a ) 代表了状态转移概率,R RR为反馈函数,Ω ( o ∣ s , a ) 为观测概率,O 为观测空间,γ  为折扣系数。

隐变量,是指无法观测的随机变量,通常只能通过可观测变量的样本对隐变量作出推断。

在强化学习中,由于 Observation→ \rightarrow→Action→ \rightarrow→Reward 这个过程可以不断重复,因此可以用强化学习过程中Agent获取的巨量Observation来表示State


3. 学习与规划 Learning and Planning


Learning 和 Planning 是序列决策的两个基本问题。


对于Learning(这里特指Reinforcement Learning),环境初始时是未知的,Agent 不知道环境如何工作,只能通过不断地与环境交互,逐渐改进策略。


对于Plannning,环境是已知的,Agent被告知了整个环境的运作规则的详细信息。Agent 能够计算出一个完美的模型,并且在不需要与环境进行任何交互的时候进行计算。Agent 不需要实时地与环境交互就能知道未来环境,只需要知道当前的状态,就能够开始思考,来寻找最优解。


一个常用的强化学习问题解决思路是,先学习环境如何工作,也就是了解环境工作的方式,即学习得到一个模型,然后利用这个模型进行规划。


4. 探索与利用 Exploration and Exploitation


4.1. 权衡 Trade-Off


在强化学习里面,Exploration 和 Exploitation 是两个很核心的问题。


Exploration 是说Agent通过尝试不同的行为来得到一个最佳的策略,得到最大反馈的策略。

Exploitation 是说Agent不再尝试新的行为,就采取已知的可以得到很高反馈的行为。

因为在刚开始的时候强化学习Agent 不知道它采取了某个行为会发生什么,所以只能通过试错去探索。所以 Exploration 就是在试错来理解采取的这个行为到底可不可以得到高的反馈。Exploitation 是说我们直接采取已知的可以得到很好反馈的行为。


所以这里就面临一个权衡(Trade-Off)问题:怎么通过牺牲一些短期的Reward来获得更大的长期Reward。


相关文章
|
存储 数据挖掘 Windows
服务器数据恢复-zfs文件系统服务器raidz数据恢复案例
服务器数据恢复环境: 一台服务器共配备32块硬盘,组建了4组RAIDZ,Windows操作系统+zfs文件系统。 服务器故障: 服务器在运行过程中突然崩溃,经过初步检测检测没有发现服务器存在物理故障,重启服务器后故障依旧,需要恢复服务器内的大量数据。
服务器数据恢复-zfs文件系统服务器raidz数据恢复案例
|
Ubuntu 网络安全 Docker
|
2月前
|
存储 数据挖掘 大数据
基于python大数据的用户行为数据分析系统
本系统基于Python大数据技术,深入研究用户行为数据分析,结合Pandas、NumPy等工具提升数据处理效率,利用B/S架构与MySQL数据库实现高效存储与访问。研究涵盖技术背景、学术与商业意义、国内外研究现状及PyCharm、Python语言等关键技术,助力企业精准营销与产品优化,具有广泛的应用前景与社会价值。
|
12月前
|
存储 编解码 算法
微帧科技:综合多项指标评价视频质量,才能更接近主观感受
视频质量评价指标如PSNR、SSIM和VMAF是衡量画面质量的重要工具,但不应成为视频工作者的唯一目标。微帧致力于优化画质,提升观看体验,强调综合评估指标,以实现最接近人眼主观感受的效果。本文探讨了PSNR avg.MSE与PSNR avg.log的区别,以及VMAF的优势与不足。
|
JSON JavaScript Linux
绘图框架 plotly 知识点补充(绘制子图,图表保存)
绘图框架 plotly 知识点补充(绘制子图,图表保存)
563 13
|
设计模式 存储 人工智能
基于阿里云通义星尘实现多智能体(Multi-agent)协同工作的构想与尝试
近年来,大规模预训练模型(大模型)快速发展,其能力显著增强,尤其是在语言理解和生成方面取得了突破。然而,尽管大模型强大,但仍需被动响应指令,为此,研究转向了更具自主性的新范式——智能体(AI agent)。不同于仅执行命令的大模型,智能体不仅能理解复杂指令,还能规划行动步骤并在特定领域自我学习与改进。为进一步提高处理复杂任务的能力,多智能体(Multi-Agent)系统应运而生,多个智能体通过协作、交流信息和共享资源,共同完成更为复杂精细的任务。本文探讨了如何利用阿里云的通义星尘实现基础的多智能体协同工作,介绍了智能体的概念、优势及局限性,并通过具体案例展示了如何构建协作型多智能体系统。
|
SQL 存储 OLAP
FFA 2023 「核心技术」专场: Flink 核心技术动向深度解读
完整议程已公开,期待 12 月 8-9 日与你 Flink Forward Asia 2023 相会!
586 0
FFA 2023 「核心技术」专场: Flink 核心技术动向深度解读
|
资源调度 JavaScript Ubuntu
Yarn介绍及快速安装Debian/Ubuntu Linux
现在,你已经成功安装了Yarn,可以在你的JavaScript项目中使用它来管理依赖。
1465 3
|
弹性计算 Linux 应用服务中间件
手动搭建WordPress(CentOS 8)
WordPress是使用PHP语言开发的博客平台,在支持PHP和MySQL数据库的服务器上,您可以用WordPress架设自己的网站,也可以用作内容管理系统(CMS)。本教程介绍如何在Linux操作系统的ECS实例上搭建WordPress网站。
4399 6
|
机器学习/深度学习 人工智能 API
调用chatgpt的api, 必须知道的三件事
字符限制 问题+答案<4000, 单位是token; 一个英文算1个token, 一个汉字算2个token; 也就是说, 问题和答案总的字数不能超过2000汉字, 不能超过4000英文;
5587 0
调用chatgpt的api, 必须知道的三件事