【Python强化学习】蒙特卡洛法讲解及在冰湖问题中实战(图文解释 附源码)

简介: 【Python强化学习】蒙特卡洛法讲解及在冰湖问题中实战(图文解释 附源码)

需要源码请点赞关注收藏后评论区留言私信~~~

随机性策略

首先生成一个随机初始化的随机性策略

def create_random_policy(env):
    pi = np.ones([env.observation_space.n, env.action_space.n]) # 用数组来存储策略
    p = 1 / env.action_space.n 
    return pi * p
pi = create_random_policy(env)
print( pi )

然后按随机性策略进行尝试

def episode_random(env, pi, render = False):
    env.reset()
    if render:    
        env.render()
    episode = []
    done = False
    while not done:
        s = env.env.s # 读取环境状态
        timestep = []
        timestep.append(s)        
        action = np.random.choice(env.action_space.n, p=pi[s])        
        # 执行动作并记录
        next_s, r, done, info = env.step(action)
        timestep.append(action)
        timestep.append(r)
        episode.append(timestep)        
        if render: 
            env.render()
    return episode
tau = episode_random(env, pi, False)
print( tau )

蒙特卡洛法基本思想

在没有环境模型时,在策略评估阶段,用随机近似方法来求值函数的近似值:

动作值函数: Q_π(s,a)=E_π[G_t|S_t=s┤,A_t=a]

求函数f(x)关于 x的分布p(x)的期望E[f(x)]=∫▒p(x)f(x)□dx,可以先依概率p(x)采样x_i,然后根据大数定律用样本均值来近似:

流程图如下

一次尝试的轨迹如下:

更新动作值函数:对所有s和a对应的动作值函数重新求均值

主体的轨迹中可能会出现相同的状态值和动作值对(s,a),也就是说,主体在探索时,可能会回到以前的状态并做出与上次相同的动作。如上述示例轨迹中的第1步和第2步。

对重复状态和动作值对(s,a)的处理,有两种方法,分别称为每次访问统计和初次访问统计。

每次访问统计是对每个出现的(s,a)都进行采样用于后续统计。 初次访问统计是只对第一次出现的(s,a)进行采样。

步骤(3)是对每一(s,a),统计它的所有采样的累积折扣回报的均值,即得到动作值函数Q(s,a)的近似估计值。

在统计累积折扣回报的均值时,如果按照保存所有G值再平均的常规方法会占用大量的存储空间,此时,可采用所谓的递增计算均值的方法。

对(s,a)新增的累积折扣回报G,动作值函数Q(s,a)的递增计算式为:

式中,N(s,a)表示已经统计的次数。

使用同策略蒙特卡洛法求解冰湖问题结果如下

部分代码如下

def mc_on_policy(env, epsilon=0.01, n_episodes=100):    
    pi = create_random_policy(env)  # 产生随机策略,数组形式    
    Q_value = np.zeros([env.observation_space.n, env.action_space.n]) 
    N_s_a = np.zeros([env.observation_space.n, env.action_space.n])  
    for k in range(n_episodes):         
        G = 0 # 累积回报
        tau = episode_random(env, pi, False) # 采样得到轨迹τ 
        for i in reversed( range( 0, len(tau) ) ):   
            s_t, a_t, r_t = tau[i] 
            G += r_t 
            if not (s_t, a_t) in [(x[0], x[1]) for x in tau[0:i]]: # 初次访问统计
                N_s_a[s_t, a_t] += 1
                Q_value[s_t, a_t] = Q_value[s_t, a_t] + ( G - Q_value[s_t, a_t] ) / N_s_a[s_t, a_t]        
        for value[s] == np.max(Q_value[s]))
            tag_max_Q = random.choice(indices[0])
            pi[s][tag_max_Q] += 1 - epsilon # 最优动作的增加概率            
    return pi

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
1月前
|
SQL 关系型数据库 数据库
Python SQLAlchemy模块:从入门到实战的数据库操作指南
免费提供Python+PyCharm编程环境,结合SQLAlchemy ORM框架详解数据库开发。涵盖连接配置、模型定义、CRUD操作、事务控制及Alembic迁移工具,以电商订单系统为例,深入讲解高并发场景下的性能优化与最佳实践,助你高效构建数据驱动应用。
266 7
|
1月前
|
数据采集 Web App开发 数据安全/隐私保护
实战:Python爬虫如何模拟登录与维持会话状态
实战:Python爬虫如何模拟登录与维持会话状态
|
1月前
|
存储 数据采集 监控
Python文件操作全攻略:从基础到高级实战
本文系统讲解Python文件操作核心技巧,涵盖基础读写、指针控制、异常处理及大文件分块处理等实战场景。结合日志分析、CSV清洗等案例,助你高效掌握文本与二进制文件处理,提升程序健壮性与开发效率。(238字)
268 1
|
1月前
|
Java 调度 数据库
Python threading模块:多线程编程的实战指南
本文深入讲解Python多线程编程,涵盖threading模块的核心用法:线程创建、生命周期、同步机制(锁、信号量、条件变量)、线程通信(队列)、守护线程与线程池应用。结合实战案例,如多线程下载器,帮助开发者提升程序并发性能,适用于I/O密集型任务处理。
225 0
|
1月前
|
机器学习/深度学习 监控 数据挖掘
Python 高效清理 Excel 空白行列:从原理到实战
本文介绍如何使用Python的openpyxl库自动清理Excel中的空白行列。通过代码实现高效识别并删除无数据的行与列,解决文件臃肿、读取错误等问题,提升数据处理效率与准确性,适用于各类批量Excel清理任务。
344 0
|
2月前
|
数据采集 机器学习/深度学习 人工智能
Python:现代编程的首选语言
Python:现代编程的首选语言
274 102
|
2月前
|
数据采集 机器学习/深度学习 算法框架/工具
Python:现代编程的瑞士军刀
Python:现代编程的瑞士军刀
299 104
|
2月前
|
人工智能 自然语言处理 算法框架/工具
Python:现代编程的首选语言
Python:现代编程的首选语言
251 103
|
2月前
|
机器学习/深度学习 人工智能 数据挖掘
Python:现代编程的首选语言
Python:现代编程的首选语言
191 82
|
1月前
|
Python
Python编程:运算符详解
本文全面详解Python各类运算符,涵盖算术、比较、逻辑、赋值、位、身份、成员运算符及优先级规则,结合实例代码与运行结果,助你深入掌握Python运算符的使用方法与应用场景。
171 3

推荐镜像

更多
下一篇
oss云网关配置