【Python强化学习】动态规划法中策略迭代和值迭代求解冰湖问题实战(图文解释 附源码)

简介: 【Python强化学习】动态规划法中策略迭代和值迭代求解冰湖问题实战(图文解释 附源码)

需要源码请点赞关注收藏后评论区留言私信~~~

基于值函数优化策略的方法是先求得值函数,然后通过值函数来求得最优策略。相应地,该类算法的迭代过程可分为策略评估阶段和策略改进阶段。

在策略评估阶段,算法基于当前策略来求得值函数;在策略改进阶段,算法利用当前值函数来更新策略。

动态规划法

1:策略迭代算法

状态值函数V_π(s)可以看作动作值函数Q_π(s,a)在状态处于s时关于动作a的数学期望:

π(a│s)是概率表示的策略,也是Q_π(s,a)发生的概率值。

同样地,动作值函数Q_π(s,a)可以看作在状态s执行了动作a后,进入到下一状态s^′的立即回报r^′与下一状态的状态值函数的折扣γV_π(s^′)之和的数学期望:

式中,P_ss^′^a是状态转移概率,也是r^′+γV_π(s^′)发生的概率。

代入

可得:

称为状态值函数的贝尔曼期望方程。

在五元组〈S,A,P,R,γ〉和策略π(a│s)均为已知的条件下,根据状态值函数的贝尔曼期望方程,可列出由|S|个独立方程组成的方程组。

其中只有|S|个未知数V_π(s),因此,可以求解得到在确定策略π时每个状态值函数的值。

可完成基于值函数求解算法中的策略评估任务。

冰湖问题中,假定当前要评估的策略是在所有状态s都执行向左的动作:

π(0│s)=1, π(1│s)=π(2│s)=π(3│s)=0

根据环境模型,执行向左的动作时,状态0只可能转移到状态0、状态0和状态4,不可能到达终点G,因此,R_0^a=0。

根据V_π(s)=∑_a∈A▒[π(a│s)(R_s^a+γ∑_s^′∈S▒P_ss^′^aV_π(s^′))]和主体在冰面上的移动规则,在状态0,可得:

同样地,在其他每个状态都可得到一个独立的方程。将这些方程联立,得到方程组,可以求得各状态的状态值。

利用计算机对方程组的求解,仍然采用迭代法,其迭代关系式为:

其中,上标k表示迭代的轮数,并初始化V_π^0(s)=0。

s^′是s的下一状态,因此,状态值的求解是通过从未来到现在的反向迭代来进行计算的。

在策略改进阶段,要根据指定策略π时各状态值函数V_π(s),采用贪心策略来对强化学习主体的策略进行优化。

根据动作值函数与状态值函数的关系式Q_π(s,a)=∑_s^′∈S▒P_ss^′^a(r^′+γV_π(s^′)),可求得动作值函数Q_π(s,a)。 因此,在策略改进阶段,基于贪心策略依据下式来得到新策略π^′(s):

策略迭代法流程图如下

实际运行效果如下

部分代码如下

n_states = 16 # 状态空间的大小
n_actions = 4 # 动作空间的大小
# 对确定性策略pi进行评估,即计算状态值函数
def policy_evaluation(pi, gamma=1.0):
    V_table = np.zeros(n_states) # 状态值函数表
    threshold = 1e-10 # 收敛判断阈值
    while True:
        pre_V_table = np.copy(V_table)
        for s in range(n_states):
            = sum([ trans_prob * (r + gamma*pre_V_table[next_s])
                            for trans_prob, next_s, r, done in env.P[s][a]])# 环境模型,存储状态s下采取动作a得到的状态转移概率,下一步状态,回报,完成标志
        if (np.sum((np.fabs(pre_V_table - V_table))) <= threshold): # 是否收敛
            break
    return V_table
# 基于新的状态值函数对策略进行改进
def police_improvement(v_table, gamma=1.0):
    pi = np.zeros(n_states)
    for s ge(n_actions):
            for next_sr in env.P[s][a]: # 环境模型,存储状态s下采取动作a得到的状态转移概率,下一步状态,回报,完成标志
                trans_prob, next_s, r, done = next_sr
                Q_table[a] += (trans_prob * (r + gamma*v_table[next_s]))
        pi[s] = np.argmax(Q_table) # 贪心策略
    return pi
# 策略迭代
def policy_iteration(gamma=1.0):
    pi = np.zeros(n_states) # 0初始化策略
provement(V_table, gamma)
        i += 1
        #print("迭代次数:", i, "\n\tV_table:", V_table, "\n\tpi:", new_pi)
        if (np.all(pi == new_pi)): break # 是否收敛
        pi = new_pi
    return pi

2:值迭代算法

在策略迭代算法中,在一个迭代周期里,通过计算动作值函数的数学期望来更新状态值函数,而在所谓的值迭代算法中,则是直接取最大动作值函数来更新状态值函数:

与策略迭代算法不同的是,值迭代每次迭代只进行策略评估。当状态值函数收敛后,再进行一次策略改进即可。

流程图如下

# 值迭代
def value_itration(env, gamma=1.0):
    V_table = np.zeros(n_states)
    n_iterations = 10000
    threshold = 1e-10
    for i in range(n_iterations):
        pre_V_table = np.copy(V_table)
        for s in range(n_states):
            Q = [] # 状态s的Q值
            for a in range(n_actions):
                next_s_prob_rewards = [] # 到下一状态的转移概率乘以下一状态的累积回报
                for next_sr in env.P[s][a]:
                    trans_prob, next_s, r, done = next_sr
                    next_s_prob_rewards.append( ( trans_prob * ( r + gamma*pre_V_table[next_s] ) ) ) # 式8-31
                    Q.append( np.sum( next_s_prob_rewards ) )
                    V_table[s] = max(Q)
        if( np.sum( np.fabs( pre_V_table - V_table ) ) <= threshold ): break
    return V_table
best_V_table = value_itration(env=env, gamma=1.0)
print("最优状态值函数:", best_V_table)
best_pi = police_improvement(best_V_table, gamma=1.0)
print("值迭代算法计算最优策略:", best_pi)

 

定义所有策略中最大的状态值函数为最优状态值函数V^∗(s): V^∗(s)=max┬πV_π(s) 同样,可以定义所有策略中最大的动作值函数为最优动作值函数Q^∗(s,a): Q^∗(s,a)=max┬πQ_π(s,a) 当采用最优状态值函数时,状态值函数贝尔曼方程称为贝尔曼最优方程,写为:

在冰湖问题中实际运行结果如下

部分代码如下

 

# 值迭代
def value_itration(env, gamma=1.0):
    V_table = np.zeros(n_states)
    n_iterations = 10000
    threshold = 1e-10
    for i in range(n_iterations):
        pre_V_table = np.copy(V_table)
        for s in range(n_states):
            Q = [] # 状态s的Q值
            for a in range(n_actions):
                next_s_prob_rewards = [] # 到下一状态的转移概率乘以下一状态的累积回报
                for next_sr in env.P[s][a]:
                    trans_prob, next_s, r, done = next_sr
             ( pre_V_table - V_table ) ) <= threshold ): break
    return V_table
best_V_table = value_itration(env=env, gamma=1.0)
print("最优状态值函数:", best_V_table)
best_pi = police_improvement(best_V_table, gamma=1.0)
print("值迭代算法计算最优策略:", best_pi)

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
12天前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
21天前
|
机器学习/深度学习 Python
堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能
本文深入探讨了堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能。文章详细介绍了堆叠的实现步骤,包括数据准备、基础模型训练、新训练集构建及元学习器训练,并讨论了其优缺点。
41 3
|
12天前
|
小程序 开发者 Python
探索Python编程:从基础到实战
本文将引导你走进Python编程的世界,从基础语法开始,逐步深入到实战项目。我们将一起探讨如何在编程中发挥创意,解决问题,并分享一些实用的技巧和心得。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你提供有价值的参考。让我们一起开启Python编程的探索之旅吧!
36 10
|
18天前
|
数据采集 存储 算法
Python 中的数据结构和算法优化策略
Python中的数据结构和算法如何进行优化?
|
20天前
|
JSON 开发工具 git
基于Python和pygame的植物大战僵尸游戏设计源码
本项目是基于Python和pygame开发的植物大战僵尸游戏,包含125个文件,如PNG图像、Python源码等,提供丰富的游戏开发学习素材。游戏设计源码可从提供的链接下载。关键词:Python游戏开发、pygame、植物大战僵尸、源码分享。
|
24天前
|
算法 Unix 数据库
Python编程入门:从基础到实战
本篇文章将带你进入Python编程的奇妙世界。我们将从最基础的概念开始,逐步深入,最后通过一个实际的项目案例,让你真正体验到Python编程的乐趣和实用性。无论你是编程新手,还是有一定基础的开发者,这篇文章都将为你提供有价值的信息和知识。让我们一起探索Python的世界吧!
|
25天前
|
并行计算 调度 开发者
探索Python中的异步编程:从基础到实战
在Python的世界里,异步编程是一种让程序运行更加高效、响应更快的技术。本文不仅会介绍异步编程的基本概念和原理,还将通过具体代码示例展示如何在Python中实现异步操作。无论你是初学者还是有经验的开发者,都能从中获益,了解如何运用这一技术优化你的项目。
|
25天前
|
数据处理 Python
探索Python中的异步编程:从基础到实战
在Python的世界中,“速度”不仅是赛车手的追求。本文将带你领略Python异步编程的魅力,从原理到实践,我们不单单是看代码,更通过实例感受它的威力。你将学会如何用更少的服务器资源做更多的事,就像是在厨房里同时烹饪多道菜而不让任何一道烧焦。准备好了吗?让我们开始这场技术烹饪之旅。
|
29天前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
26天前
|
机器学习/深度学习 数据采集 人工智能
机器学习入门:Python与scikit-learn实战
机器学习入门:Python与scikit-learn实战
36 0