Andrew Ng机器学习公开课笔记–Reinforcement Learning and Control

简介:

网易公开课,第16课 
notes,12

前面的supervised learning,对于一个指定的x可以明确告诉你,正确的y是什么 
但某些sequential decision making问题,比如下棋或直升机自动驾驶 
无法确切知道,下一步怎么样是正确的,因为这是一个连续和序列化的决策,比如直到最终直升机crash或下棋输了,你才知道之前的选择是不好的,但中间那么多步决策,到底是哪部分出了问题,可见这是个比较复杂的问题

强化学习,基本思路就是,既然不知道怎样是正确的,那就随便try,然后根据反馈好坏来,逐步强化得到正确结果的行为 
挺有意思的,想想人学习的过程, 
比如大家都学过自行车,这个不是别人和你说下步怎么做,你就能会的,开始你也不知道如何骑 
只能试,如果摔倒了,潜意识的就会改变步骤,如果可以骑起来了,就会强化刚才的步骤,慢慢身体就学会了骑车,这就是典型的强化学习

 

Markov decision processes

A Markov decision process is a tuple image , where:

马尔可夫决策过程,可以表示成5元组 
S,set of states. 状态集合,对于直升机驾驶,就是当前的位置和方向

A,set of actions. 行为集合,对于直升机驾驶,就是下一步采取的操控,上,下,左右,前后等

image,state transition probabilities. 状态迁移的概率分布,因为在s状态采取a行为,最终达到的状态是有一定随机性的,这个体现出markov过程 
比如,你让直升机像右移动,但是比如因为风或其他noise,它移动到右前方向,或右后方,或前方,都是有可能的,所以要用概率来表示。

image,discount factor. 后面会看到,这个参数用于调整,当前决策和未来决策之间的权重

image,reward function. 表示在s状态做a行为得到的反馈,回报函数。image,常常回报函数仅仅以状态为参数,理解为转移到当前状态,对于最终达到好的结果有多大的作用

大家可以想象,Markov决策过程应该就是如图这个过程

image

那么这个过程中reward function的和为,这里看到image发挥左右,往往取值0.99,后面的reward function乘上image ,像是做discount 
表达的意思,越早的决策越重要,是不是比较合理

image 

即,

image

那么我们强化学习的目标就是,maximize the expected value of the total payoff

image

这个不难理解,reward function的值越大,表示越正确

比如看NG的例子,12格,其中一格为障碍,最终到达+1格(4,3)为成功,到达-1格(4,2)为失败

image

假设起始点为图中的(3,1),采取的action为N,即朝北走,图中就是上方,有

image

朝上走,

到达(3,2)的概率最大,0.8 
作为扰动noise,也有0.1的概率会到达(4,1),或(2,1) 
到达其他格的概率为0

看看如何设置reward function的值?

到达(4,3),即成功,reward function为1 
(4,2)为失败,reward function为-1 
其他格的reward function都设置为-0.02

这是一个技巧,把剩余的格都设为很小的负面奖励,对于导航或机器人,每多走一步意味着耗费更多的电或能源 
如果要reward function和最大,必须尽量最小step数

 

Bellman equations

image ,定义从S到A的映射关系的函数,即在某个状态下对应哪个action,称为policy

那么显然我们的目的,就是找到使total payoff最大的那个policy函数

那么定义,起点为s,policy为image ,最终过程的total payoff为image,称为image的value function,值函数

image

上面这个式子,可以写成下面这种递归的形式,

image

其中s1,即image是未知的,有多种可能性,上面的式子写成

image

这就称为Bellman equation 
分为两部分, 
其中R(s),为immediate reward,即刻回报 
第二部分,future discounted rewards,也可以写成image

Bellman equation的用处是,可以求出image 
在reward function R(s)已知的情况下,直接求image,比较困难,因为在马尔可夫决策过程中,每步的s是不确定的

而用Bellman等式,可以为每个s列出这样一个等式,

image作为变量,对于n个状态,就会有n个变量,通用有n个bellman等式,通过解方程组,就可以解出每个image

还是看上面的例子, 
下图表示一个policy,可以看到画出每一格上,选择移动的方向,即action

image 

现在为状态(3,1)列出bellman等式,其中画框的都是变量

image

当为每个状态都列出上面这样的等式时,就可以通过解方程组,解出变量值

从而求得image, 如下图

image

 

好,继续定义

我们的目的是找到使image最大的那个image

image

即,因为R(s)是常数,所以得到Bellman等式的另一种表示

image

那么我们定义,image ,使得,

image

这就是我们要找的最佳的policy

 

Value iteration and policy iteration

那么现在介绍算法来求解上面的最优问题,介绍的算法只针对有限的状态和actions的MDPs

Value iteration

image

算法挺简单,就是用Bellman等式不断去更新V,可以证明V是会收敛于V*的

在得到V*后,用

image

就可以求出image

如图,还是上面的例子在(3,1),如何定policy?根据上面的式子分别算出往W或往N的值,发现往w是更优的policy

image image

其中更新V的有异步和同步两种, 
同步是把所有s的新的V都算出来后,一次性更新所有的V 
异步是算一个更新一个,那么后面s的V的计算就会用到前面更新的V

 

Policy iteration

image

随机指定image,然后通过Bellman等式的方程组解出image,根据新的image来更新image。。。。。。

这两个算法都是会收敛的,

Policy iteration在状态比较少的时候会收敛更快,但是不能用于huge状态集的MDP,因为需要求解方程组来得到image,开销太大

所以对于比较大的状态集的MDP,往往使用,value iteration

 

Learning a model for an MDP

前面的算法都是基于一个假设,即,state transition probabilities and rewards function是已知的 
但是很多情况下,它们是未知的,所以我们需要去estimate出它们 
其中rewards function一般也是已知的,因为这个是你提供的,你应该知道,除了些特例

所以下面就特别看下state transition probabilities是如何预估的,

image

其实很简单,多试几次,然后根据实际情况统计即可, 
并且这个P应该可以线上不断更新,会更为准确

image

并且对于0/0的case,用1/|s|替代

Using a similar procedure, if R is unknown, we can also pick our estimate of the expected immediate reward R(s) in state s to be the average reward 
observed in state s.

如果R未知,也可以用实验中观察到的均值来作为估计值,我不太明白,实验中怎么能观察到reward function的值?


本文章摘自博客园,原文发布日期:2014-08-21 

目录
相关文章
|
27天前
|
机器学习/深度学习 计算机视觉 Python
模型预测笔记(三):通过交叉验证网格搜索机器学习的最优参数
本文介绍了网格搜索(Grid Search)在机器学习中用于优化模型超参数的方法,包括定义超参数范围、创建参数网格、选择评估指标、构建模型和交叉验证策略、执行网格搜索、选择最佳超参数组合,并使用这些参数重新训练模型。文中还讨论了GridSearchCV的参数和不同机器学习问题适用的评分指标。最后提供了使用决策树分类器进行网格搜索的Python代码示例。
46 1
|
5月前
|
机器学习/深度学习 算法 BI
机器学习笔记(一) 感知机算法 之 原理篇
机器学习笔记(一) 感知机算法 之 原理篇
|
5月前
|
机器学习/深度学习 算法 数据可视化
技术心得记录:机器学习笔记之聚类算法层次聚类HierarchicalClustering
技术心得记录:机器学习笔记之聚类算法层次聚类HierarchicalClustering
46 0
|
5月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
39 0
|
6月前
|
机器学习/深度学习 Python 索引
fast.ai 机器学习笔记(二)(4)
fast.ai 机器学习笔记(二)
54 0
fast.ai 机器学习笔记(二)(4)
|
6月前
|
索引 机器学习/深度学习 Python
fast.ai 机器学习笔记(二)(3)
fast.ai 机器学习笔记(二)
69 0
fast.ai 机器学习笔记(二)(3)
|
6月前
|
机器学习/深度学习 计算机视觉 算法
fast.ai 机器学习笔记(二)(2)
fast.ai 机器学习笔记(二)
76 0
fast.ai 机器学习笔记(二)(2)
|
6月前
|
索引 机器学习/深度学习 Python
fast.ai 机器学习笔记(二)(1)
fast.ai 机器学习笔记(二)
37 0
fast.ai 机器学习笔记(二)(1)
|
6月前
|
机器学习/深度学习 PyTorch 算法框架/工具
fast.ai 机器学习笔记(三)(4)
fast.ai 机器学习笔记(三)
67 0
fast.ai 机器学习笔记(三)(4)
|
6月前
|
机器学习/深度学习 Python PyTorch
fast.ai 机器学习笔记(三)(3)
fast.ai 机器学习笔记(三)
68 0
fast.ai 机器学习笔记(三)(3)

热门文章

最新文章

  • 1
    机器学习实战:房价预测项目
    202
  • 2
    强化学习(Reinforcement Learning, RL)** 是一种机器学习技术,其中智能体(Agent)通过与环境(Environment)交互来学习如何执行决策以最大化累积奖励。
    77
  • 3
    集成学习(Ensemble Learning)是一种机器学习技术,它通过将多个学习器(或称为“基学习器”、“弱学习器”)的预测结果结合起来,以提高整体预测性能。
    219
  • 4
    `sklearn.metrics`是scikit-learn库中用于评估机器学习模型性能的模块。它提供了多种评估指标,如准确率、精确率、召回率、F1分数、混淆矩阵等。这些指标可以帮助我们了解模型的性能,以便进行模型选择和调优。
    454
  • 5
    在机器学习和数据科学中,数据预处理是一个至关重要的步骤。数据规范化(或称为特征缩放)是预处理的一种常见技术,它可以帮助我们改进模型的性能。`sklearn.preprocessing`模块提供了多种数据规范化的方法,其中`StandardScaler`和`MinMaxScaler`是最常用的两种。
    89
  • 6
    在人工智能和机器学习的领域中,语音识别(Speech Recognition,SR)是一个重要的研究方向。它旨在将人类的语音转换为计算机可读的文本。
    106
  • 7
    OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习库,它提供了大量的函数和工具,用于处理图像和视频数据。
    121
  • 8
    驾驭大数据洪流:Pandas与NumPy在高效数据处理与机器学习中的核心作用
    84
  • 9
    探索机器学习在图像识别中的应用
    53
  • 10
    智能化运维:机器学习在故障预测和自动化修复中的应用
    66