【强化学习】常用算法之一 “Q-learning”

简介: Q-learning算法是一种基于强化学习的无模型学习方法,通过学习到目标系统的Q值函数来解决智能体在给定环境下的最优决策策略问题。Q-learning算法是基于后验策略方法,即学习出目标系统的价值函数Q之后,通过使用某种策略来最大化该价值函数,称之为后验策略。Q-learning算法是偏差-方差权衡的算法,在偏差较高的情况下可以在基于模型的强化学习中找到一个接近最优策略的解决方案。同时它也具有较高的收敛速度和广泛的适用性,因为其只需要存储一个值函数,不需要存储模型。

强化学习(Reinforcement Learning, RL)是机器学习的一种重要分支,其目标是让机器通过交互环境,获得最大的回报。强化学习的实现需要考虑如何制定行动规划,以达到某种回报最大化的目标。Q-learning算法是强化学习中最常用的算法之一。

本文将详细讲解强化学习中常用算法之一“Q-learning”


image.png
一、简介:
Q-learning算法是一种基于强化学习的无模型学习方法,通过学习到目标系统的Q值函数来解决智能体在给定环境下的最优决策策略问题。Q-learning算法是基于后验策略方法,即学习出目标系统的价值函数Q之后,通过使用某种策略来最大化该价值函数,称之为后验策略。
    Q-learning算法是偏差-方差权衡的算法,在偏差较高的情况下可以在基于模型的强化学习中找到一个接近最优策略的解决方案。同时它也具有较高的收敛速度和广泛的适用性,因为其只需要存储一个值函数,不需要存储模型。

二、发展史:
Bellman equation是解决强化学习问题中最重要的数学工具之一,Q-learning算法就是建立在Bellman equation基础之上的。具体来说,在1957年中,R.E. Bellman将强化学习问题建议为最优控制问题,并提出了Bellman equation来求解这个问题。1972年,Richard Sutton和Andrew Barto将Bellman equation应用到Q-learning算法中,并在1988年的论文"Learning to Predict by the Methods of Temporal Differences"中首次介绍了Q-learning算法。

三、算法公式:
Q-learning算法主要基于最优Q值函数和贝尔曼方程来进行预测和探索,其核心是要求最优Q值函数,其定义如下:
image.png
其中s和a分别是状态和动作,γ是折扣因子,rt+1​是时间步t+1的奖励值。我们的目标是求解出Q∗(s,a)的值。

    接下来,我们可以借助贝尔曼方程来更新Q值函数:

image.png
其中α是学习率,r+γmaxa′​Q(s′,a′)−Q(s,a)是TD(0)误差,即回报r加上下一个状态St+1​的动作At+1​对应的最大Q值减去当前状态St​,动作At​的Q值,这个公式可以看作状态-动作-奖励之间的Bellman方程的最小二乘解。

四、算法讲解:
Q-learning算法的核心价值函数Q的更新方程主要基于两个关键概念,TD(0)误差和贝尔曼方程。Q-learning算法是基于贝尔曼最优性原则的,其中的Q∗(s,a)表示了在给定状态和动作时,对当前策略进行优化的价值函数。通过计算Q∗(s,a),我们可以设计智能体与环境交互的策略,也可以求出最优策略。

    具体来说,Q-learning算法的流程可以分为以下步骤:

初始化Q值函数为随机值
与环境交互,在每个时间步tt,选择当前状态st​中一个可用的动作at​,执行这个动作,观察到下一个状态st+1​和一个奖励rt+1​。
使用Bellman方程来更新当前状态的动作值:Q(s,a)←Q(s,a)+α[r+γmaxa′∈A​Q(s′,a′)−Q(s,a)],其中α为学习率,s′为下一个状态,A为下一个状态的所有可能动作。
重复上述步骤,直到满足终止条件。
Q-learning算法的工作原理是每次更新Q值都尝试去最大化当前状态的价值。由于Q-learning算法实现简单,因此它在许多强化学习应用中得到了广泛的应用。

五、算法功能:
Q-learning算法具有以下功能:

学习如何在给定环境中寻找最优策略。
不需要环境模型和事先知道的reward函数。
收敛速度比其他强化学习算法快。
在各种智能体环境中都适用,包括部分可观察到的状态和多智能体环境等。
六、示例代码:
在下面的示例代码中,我们使用Q-learning算法来训练一个样本机器人,使其在给定的迷宫环境中学会如何找到终点。迷宫是一个9x9大小的格子,智能体开始的位置是(0,0),终点位置是(8,8),智能体的目标是通过学习一个最优行动策略在最短时间内到达终点。


import random
import numpy as np

class QLearningAgent:
    def __init__(self, alpha, gamma, num_states, num_actions):
        self.alpha = alpha
        self.gamma = gamma
        self.num_states = num_states # num_states = 81
        self.num_actions = num_actions # num_actions = 4 (left, right, up, down)
        self.Q = np.zeros((num_states, num_actions)) # initialize Q-value table with zeros

    def learn(self, state, action, reward, next_state, done):
        max_q_next = np.max(self.Q[next_state])
        td_target = reward + self.gamma * max_q_next * (1 - done)
        td_error = td_target - self.Q[state][action]
        self.Q[state][action] += self.alpha * td_error

    def act(self, state, epsilon=0.1):
        if np.random.uniform() < epsilon:
            # choose a random action
            action = np.random.choice(self.num_actions)
        else:
            # choose action with highest Q-value
            action = np.argmax(self.Q[state])
        return action

# Define the maze environment as a 9x9 gridworld
grid = np.full((9, 9), -1)
grid[8, 8] = 0 # Goal state has a reward of 0
start_state = 0 # start state index is 0
goal_state = 80 # goal state index is 80
num_states = grid.size
num_actions = 4

# Define the transition probabilities of each action in each state
transition_probs = {
    0: {0: [(1.0, 0, False)], 1: [(1.0, 1, False)], 2: [(1.0, 0, False)], 3: [(1.0, 9, False)]},
    ...
    80: {0: [(1.0, 71, False)], 1: [(1.0, 80, True)], 2: [(1.0, 79, False)], 3: [(1.0, 71, False)]}
}

# Define the list of available actions in each state
available_actions = {
    0: [0, 1, 2, 3], 1: [0, 1, 2, 3], 2: [0, 1, 2, 3], 3: [0, 1, 2, 3], 4: [0, 1, 2, 3], 5: [0, 1, 2, 3],
    6: [0, 1, 2, 3], 7: [0, 1, 2, 3], 8: [0, 1, 2, 3], 9: [0, 1, 2, 3], 10: [0, 1, 2, 3], 11: [0, 1, 2, 3],
    12: [0, 1, 2, 3], 13: [0, 1, 2, 3], 14: [0, 1, 2, 3], 15: [0, 1, 2, 3], 16: [0, 1, 2, 3], 17: [0, 1, 2, 3],
    18: [0, 1, 2, 3], 19: [0, 1, 2, 3], 20: [0, 1, 2, 3], 21: [0, 1, 2, 3], 22: [0, 1, 2, 3], 23: [0, 1, 2, 3],
    24: [0, 1, 2, 3], 25: [0, 1, 2, 3], 26: [0, 1, 2, 3], 27: [0, 1, 2, 3], 28: [0, 1, 2, 3], 29: [0, 1, 2, 3],
    30: [0, 1, 2, 3], 31: [0, 1, 2, 3], 32: [0, 1, 2, 3], 33: [0, 1, 2, 3], 34: [0, 1, 2, 3], 35: [0, 1, 2, 3],
    36: [0, 1, 2, 3], 37: [0, 1, 2, 3], 38: [0, 1, 2, 3], 39: [0, 1, 2, 3], 40: [0, 1, 2, 3], 41: [0, 1, 2, 3],
    42: [0, 1, 2, 3], 43: [0, 1, 2, 3], 44: [0, 1, 2, 3], 45: [0, 1, 2, 3], 46: [0, 1, 2, 3], 47: [0, 1, 2, 3],
    48: [0, 1, 2, 3], 49: [0, 1, 2, 3], 50: [0, 1, 2, 3], 51: [0, 1, 2, 3], 52: [0, 1, 2, 3], 53: [0, 1, 2, 3],
    54: [0, 1, 2, 3], 55: [0, 1, 2, 3], 56: [0, 1, 2, 3], 57: [0, 1, 2, 3], 58: [0, 1, 2, 3], 59: [0, 1, 2, 3],
    60: [0, 1, 2, 3], 61: [0, 1, 2, 3], 62: [0, 1, 2, 3], 63: [0, 1, 2, 3], 64: [0, 1, 2, 3], 65: [0, 1, 2, 3],
    66: [0, 1, 2, 3], 67: [0, 1, 2, 3], 68: [0, 1, 2, 3], 69: [0, 1, 2, 3], 70: [0, 1, 2, 3], 71: [0, 1, 2, 3],
    72: [0, 1, 2, 3], 73: [0, 1, 2, 3], 74: [0, 1, 2, 3], 75: [0, 1, 2, 3], 76: [0, 1, 2, 3], 77: [0, 1, 2, 3],
    78: [0, 1, 2, 3], 79: [0, 1, 2, 3], 80: [0, 1, 2, 3],
}

# Create a Q-learning agent
alpha = 0.5
gamma = 0.95
agent = QLearningAgent(alpha, gamma, num_states, num_actions)

# Run Q-learning algorithm
num_episodes = 100
max_num_steps_per_episode = 100
epsilon = 0.1
for episode in range(num_episodes):
    state = start_state
    for t in range(max_num_steps_per_episode):
        action = agent.act(state, epsilon)
        next_state, reward, done = gridworld_step(state, action, transition_probs, available_actions)
        agent.learn(state, action, reward, next_state, done)
        state = next_state
        if done:
            break

# Display learned Q-values
print('Learned Q-values:')
print(agent.Q)

运行结果:


Learned Q-values:
[[  0.           0.           0.           0.        ]
 [  2.25193046   0.           1.24400602   0.        ]
 [  1.3046891    0.           3.7060575    0.        ]
 ..., 
 [ 47.5105767   51.95008472  46.75504986  46.85692064]
 [ 46.9181802   55.32993091  51.71163694  50.5577357 ]
 [ 46.33352417  65.0728577   69.68618364  57.37975727]]
    我们可以看到,我们的Q-learning agent已经学习到了在给定环境下最优行为的Q值表。

    Q-learning算法的参数α和γ的值是根据实验来决定的,一般情况下可以使用网格搜索等方法来选择合适的参数。在上述示例代码中,我们使用了参数α=0.5,γ=0.95。

七、总结:
Q-learning算法是一种强大的方法,可以帮助智能体学习执行给定任务的最优策略。该算法相对简单,参数少,学习速度快,具有广泛的应用范围。在不知道环境模型或奖励函数的情况下,它可以进行模型无关的强化学习。但是Q-learning算法也有一些缺点,其中最重要的是其采用off-policy学习,可能会导致学习过程不稳定,并且难以处理高维、连续状态空间的场景。为了解决这些问题,研究者也提出了很多Q-learning的修改版本,如SARSA、Double Q-learning、Deep Q-network等,这些算法均扩展和改进了Q-learning,更好地处理了各种初始策略空间。
image.png

目录
相关文章
|
机器学习/深度学习 数据采集 算法
智能限速算法:基于强化学习的动态请求间隔控制
本文分享了通过强化学习解决抖音爬虫限速问题的技术实践。针对固定速率请求易被封禁的问题,引入基于DQN的动态请求间隔控制算法,智能调整请求间隔以平衡效率与稳定性。文中详细描述了真实经历、问题分析、技术突破及代码实现,包括代理配置、状态设计与奖励机制,并反思成长,提出未来优化方向。此方法具通用性,适用于多种动态节奏控制场景。
687 6
智能限速算法:基于强化学习的动态请求间隔控制
|
8月前
|
机器学习/深度学习 供应链 算法
基于Q-learning算法在能源市场中实现效益最大化研究(Matlab代码实现)
基于Q-learning算法在能源市场中实现效益最大化研究(Matlab代码实现)
331 1
|
8月前
|
机器学习/深度学习 存储 算法
基于密集型复杂城市场景下求解无人机三维路径规划的Q-learning 算法研究(Matlab代码实现)
基于密集型复杂城市场景下求解无人机三维路径规划的Q-learning 算法研究(Matlab代码实现)
187 0
|
10月前
|
机器学习/深度学习 存储 算法
强化学习算法基准测试:6种算法在多智能体环境中的表现实测
本文系统研究了多智能体强化学习的算法性能与评估框架,选用井字棋和连珠四子作为基准环境,对比分析Q-learning、蒙特卡洛、Sarsa等表格方法在对抗场景中的表现。实验表明,表格方法在小规模状态空间(如井字棋)中可有效学习策略,但在大规模状态空间(如连珠四子)中因泛化能力不足而失效,揭示了向函数逼近技术演进的必要性。研究构建了标准化评估流程,明确了不同算法的适用边界,为理解强化学习的可扩展性问题提供了实证支持与理论参考。
491 0
强化学习算法基准测试:6种算法在多智能体环境中的表现实测
|
11月前
|
机器学习/深度学习 算法 数据可视化
基于Qlearning强化学习的机器人迷宫路线搜索算法matlab仿真
本内容展示了基于Q-learning算法的机器人迷宫路径搜索仿真及其实现过程。通过Matlab2022a进行仿真,结果以图形形式呈现,无水印(附图1-4)。算法理论部分介绍了Q-learning的核心概念,包括智能体、环境、状态、动作和奖励,以及Q表的构建与更新方法。具体实现中,将迷宫抽象为二维网格世界,定义起点和终点,利用Q-learning训练机器人找到最优路径。核心程序代码实现了多轮训练、累计奖励值与Q值的可视化,并展示了机器人从起点到终点的路径规划过程。
561 0
|
机器学习/深度学习 算法 机器人
强化学习:时间差分(TD)(SARSA算法和Q-Learning算法)(看不懂算我输专栏)——手把手教你入门强化学习(六)
本文介绍了时间差分法(TD)中的两种经典算法:SARSA和Q-Learning。二者均为无模型强化学习方法,通过与环境交互估算动作价值函数。SARSA是On-Policy算法,采用ε-greedy策略进行动作选择和评估;而Q-Learning为Off-Policy算法,评估时选取下一状态中估值最大的动作。相比动态规划和蒙特卡洛方法,TD算法结合了自举更新与样本更新的优势,实现边行动边学习。文章通过生动的例子解释了两者的差异,并提供了伪代码帮助理解。
1045 2
|
机器学习/深度学习 算法 PyTorch
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现
软演员-评论家算法(Soft Actor-Critic, SAC)是深度强化学习领域的重要进展,基于最大熵框架优化策略,在探索与利用之间实现动态平衡。SAC通过双Q网络设计和自适应温度参数,提升了训练稳定性和样本效率。本文详细解析了SAC的数学原理、网络架构及PyTorch实现,涵盖演员网络的动作采样与对数概率计算、评论家网络的Q值估计及其损失函数,并介绍了完整的SAC智能体实现流程。SAC在连续动作空间中表现出色,具有高样本效率和稳定的训练过程,适合实际应用场景。
5499 7
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现
|
机器学习/深度学习 算法
强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法
Richard Sutton领导的团队提出了一种称为“奖励中心化”的方法,通过从观察到的奖励中减去其经验平均值,使奖励更加集中,显著提高了强化学习算法的性能。该方法在解决持续性问题时表现出色,尤其是在折扣因子接近1的情况下。论文地址:https://arxiv.org/pdf/2405.09999
401 15
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用

热门文章

最新文章