【深度强化学习】值函数逼近的详解(图文解释)

简介: 【深度强化学习】值函数逼近的详解(图文解释)

觉得有帮助请点赞关注收藏~~~

值函数逼近

对于取实数值R的动作值函数Q(s,a)来说,它是状态空间S和动作空间A的笛卡尔积到实数集的映射:S×A→R

该映射问题可以看作是机器学习中的回归问题,因此,求解回归问题的模型都可以用来求得该映射。

其基本方法一般是先确定逼近的结构,然后通过样本集来迭代优化结构的参数。这种事先确定结构,再优化参数的逼近方法,称为参数化逼近。参数化逼近又分为线性逼近和非线性逼近,它们分别采用线性和非线性的结构,前者如线性回归模型,后者如神经网络模型等等。

求解回归问题的关键问题包括模型、样本、损失函数和优化等方面。

1.模型

将逼近动作值函数Q(s,a)的模型结构记为Q ̂(x(s,a),θ),其中θ是待优化的参数向量,x(s,a)是由s和a按全排列组成的向量,共有|S|×|A|个可能取值。x(s,a)也可以看作是通过特征工程从状态和动作中提取的特征组成的向量。

当采用线性逼近时,动作值函数的逼近可表示为:

其中,指定x^(0)=1,指定θ^(0)=b是线性模型的偏置。

2.样本  

记长度为T的轨迹τ=(s_0,a_0,s_1,a_1,…s_T−1,a_T−1),立即回报序列为:R=(r_1,r_2,…,r_T),累积折扣回报序列为:G=(G_0,G_1,…,G_T−1),其中G_t=r_t+1+γr_t+2+γ^2r_t+3+…+γ^T−1−tr_T=∑_k=0^T−1−t▒γ^kr_t+1+k。

基于蒙特卡罗法生成的训练样本为:s_t=(x(s_t,a_t),G_t),其中,x(s_t,a_t)是实例,G_t是对应的标签。

基于时序差分法生成的训练样本为:s_t=(x(s_t,a_t),r_t+1+γQ ̂(x(s_t+1,a_t+1),θ)),其中,x(s_t,a_t)是实例,r_t+1+γQ ̂(x(s_t+1,a_t+1),θ)是对应的标签。

3.损失函数

对基于蒙特卡罗法生成的训练样本来说,单个样本s_t=(x(s_t,a_t),G_t)产生的平方误差损失函数为:

对基于时序差分法生成的训练样本来说,单个样本s_t=(x(s_t,a_t),r_t+1+γQ ̂(x(s_t+1,a_t+1),θ))产生的平方误差损失函数为:

4.优化

参数θ的优化可采用多种方法,常用梯度下降法,其迭代关系式为:

如果采用线性逼近,对蒙特卡罗法生成样本的损失函数,梯度为:

如果采用线性逼近,对时序差分法生成样本的损失函数,梯度为:

上式只对预测值x(s_t,a_t)θ_i^T进行了求导,忽略了对样本标签(r_i+1+γx(s_t+1,a_t+1)θ_i^T)的求导,可见此时并非完全的梯度法,此方法称为半梯度法。

基于值函数逼近的时序差分法基本流程

(2)和(4)步操作中的Q(s,a)用逼近函数Q ̂(x(s,a),θ)来计算。 当采用同策略的Sarsa法时,(5-1)步操作中的值函数的更新在参数化逼近中表现为参数θ的更新:

当采用异策略的Qlearning法时,(5-2)步中参数θ的更新采用贪心策略:

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
3月前
|
机器学习/深度学习
【机器学习】如何判断函数凸或非凸?(面试回答)
文章介绍了如何判断函数是凸函数还是非凸函数,包括凸函数的定义、几何意义、判定方法(一元函数通过二阶导数判断,多元函数通过Hessian矩阵的正定性判断),以及凸优化的概念和一些经典的凸优化问题。
157 1
【机器学习】如何判断函数凸或非凸?(面试回答)
|
机器学习/深度学习
本文介绍了隐马尔科夫模型向强化学习转化的逻辑
本文介绍了隐马尔科夫模型向强化学习转化的逻辑
72 0
|
机器学习/深度学习
花书《深度学习》代码实现:02 概率部分:概率密度函数+期望+常见概率分布代码实现
随机变量 (Random Variable):⼀个可能随机取不同值的变量。例如:抛掷⼀枚硬币,出现正⾯或者反⾯的结果
121 0
|
机器学习/深度学习 算法 数据挖掘
机器学习:感知机+代码实现(原始+对偶形式)
机器学习:感知机+代码实现(原始+对偶形式)
306 0
机器学习:感知机+代码实现(原始+对偶形式)
|
机器学习/深度学习 数据可视化 算法
SHAP值:用博弈论的概念解释一个模型
SHAP值:用博弈论的概念解释一个模型
676 0
SHAP值:用博弈论的概念解释一个模型
|
机器学习/深度学习
想要神经网络输出分类的概率值?应该这样写代码
想要神经网络输出分类的概率值?应该这样写代码
|
机器学习/深度学习 算法
近似推断|机器学习推导系列(二十七)
近似推断|机器学习推导系列(二十七)
149 0
近似推断|机器学习推导系列(二十七)
|
机器学习/深度学习 存储 分布式计算
概率图模型-推断|机器学习推导系列(十一)
概率图模型-推断|机器学习推导系列(十一)
207 0
概率图模型-推断|机器学习推导系列(十一)
|
机器学习/深度学习
高斯过程回归|机器学习推导系列(二十四)
高斯过程回归|机器学习推导系列(二十四)
519 0
高斯过程回归|机器学习推导系列(二十四)
|
前端开发 数据挖掘
计算与推断思维 十六、比较两个样本
十六、比较两个样本 原文:Comparing Two Samples 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 最近邻分类方法的动机是这样的,个体可能像最近的邻居。
930 0
下一篇
无影云桌面