【Python强化学习】时序差分法Sarsa算法和Qlearning算法在冰湖问题中实战（附源码）-阿里云开发者社区

【Python强化学习】时序差分法Sarsa算法和Qlearning算法在冰湖问题中实战（附源码）

2023-12-20 131

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【Python强化学习】时序差分法Sarsa算法和Qlearning算法在冰湖问题中实战（附源码）

需要源码请点赞关注收藏后评论区留言私信~~~

时序差分算法

时序差分法在一步采样之后就更新动作值函数Q(s,a)，而不是等轨迹的采样全部完成后再更新动作值函数。

在时序差分法中，对轨迹中的当前步的(s,a)的累积折扣回报G，用立即回报和下一步的(s^′,a^′)的折扣动作值函数之和r+γQ(s^′,a^′)来计算，即：

G=r+γQ(s^′,a^′)

在递增计算动作值函数时，用一个[0,1]之间的步长α来代替1/N(s,a)。动作值函数Q(s,a)的递增计算式为：

Sarsa算法与Qlearning算法

在蒙特卡罗法中，当前状态s下，对动作的采样是完全依据Q(s,a)来进行的，选中a的概率与对应的Q(s,a)的大小成正比。在时序差分法中，对动作的采样采用ε-贪心策略，Q(s,a)最大的动作被选择的概率为ε/|A|+1−ε，其他动作被选择的概率为ε/|A|，|A|是动作空间的大小。

Sarsa算法的采样和改进都采用了ε-贪心策略，是同策略的算法。

Qlearning算法对动作的采样采用的是ε-贪心策略，而对动作值函数Q(s,a)的更新采用的是贪心策略，因此，它是异策略的算法：

算法流程图如下

算法在冰湖问题中求解结果如下

要注意的是，时序差分法也存在方差大，不稳定的问题，每次实验的得分可能会相差较大

部分代码如下

# 基于贪心策略，根据当前状态s的所有动作值函数，采样输出动作值
def greedy_sample(Q_s):
    # Q_s:状态s的所有动作值函数，一维数组
    max_Q = np.max( Q_s )
    action_list = np.where( max_Q == Q_s )[0]  # 最大动作值函数可能有多个action对应
    a = np.random.choice( action_list )      
    return a
# 基于e-gredy贪心策略，根据当前状态s的所有动作值函数，采样输出动作值
def epsilon_greedy_sample(Q_s, n_actions, epsilon):
    # Q_s:状态s的所有动作值函数，一维数组
    # <时表示利用，否则为探索
    if np.random.uniform(0,1) <= 1-epsilon:
        a = greedy_sample(Q_s)
    else:
        a = np.random.choice(n_actions)
    return a
# 时序差分算法
def TD(env, gamma=1.0, alpha=0.01, epsilon=0.1, n_episodes=10000, algorithm="Qlearning"):
    Q = np.zeros([env.observation_space.n, env.action_space.n]) # 用数组来存储动作值函数
    n_actions = env.action_space.n
    for i in range(n_episodes): 
        # 开始一次尝试
        sum_rewards = 0
        steps = 0
        s = env.reset() # 获取初始s
        a = epsilon_greedy_sample(Q[s], n_actions, epsilon)
        # 逐步推进
        while(True):
            next_s, r, done, _ = env.step(a) # 执行动作a
            # e-gredy贪心策略得到下一动作a'
            next_a = epsilon_greedy_sample( Q[next_s], n_actions, epsilon )
            # 更新动作值函数
            if(done):
                Q[s, a] = Q[s, a] + alpha * ( r - Q[s, a] )
            else:
                if algorithm == "Qlearning":
                    Q[s, a] = Q[s, a] + alpha * ( r + gamma * np.max(Q[next_s]) - Q[s, a] )
                else:
                    Q[s, a] = Q[s, a] + alpha * ( r + gamma*Q[next_s, next_a] - Q[s, a] )
            # 更新当前s,a
            s = next_s
            a = next_a
            sum_rewards += r * gamma**steps
            steps += 1
            if(done):
                break
        #print('尝试次：%s: 共运行步数：%s, 本次累积折扣回报：%.1f' % (i+1, steps, sum_rewards))
    pi = []
    for s in range(env.observation_space.n):
        a = greedy_sample( Q[s] )
        pi.append(a)
    return pi

创作不易觉得有帮助请点赞关注收藏~~~

【Python强化学习】时序差分法Sarsa算法和Qlearning算法在冰湖问题中实战（附源码）

时序差分算法

Sarsa算法与Qlearning算法

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【Python强化学习】时序差分法Sarsa算法和Qlearning算法在冰湖问题中实战（附源码）

时序差分算法

Sarsa算法与Qlearning算法

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像