强化学习:时间差分(TD)(SARSA算法和Q-Learning算法)(看不懂算我输专栏)——手把手教你入门强化学习(六)

简介: 本文介绍了时间差分法(TD)中的两种经典算法:SARSA和Q-Learning。二者均为无模型强化学习方法,通过与环境交互估算动作价值函数。SARSA是On-Policy算法,采用ε-greedy策略进行动作选择和评估;而Q-Learning为Off-Policy算法,评估时选取下一状态中估值最大的动作。相比动态规划和蒙特卡洛方法,TD算法结合了自举更新与样本更新的优势,实现边行动边学习。文章通过生动的例子解释了两者的差异,并提供了伪代码帮助理解。

前言

 前两期我们介绍了动态规划算法,还有蒙特卡洛算法,不过它们对于状态价值函数的估值都有其缺陷性,像动态规划,需要从最下面向上进行递推,而蒙特克洛则需要一个Episode(回合)结束才能对其进行估值,有没有更直接的方法,智能体能边做动作,边估值一次,不断学习策略?答案是有的。这就是本期需要介绍的算法,时间差分法(Time Difference,TD)法。本期将介绍两个典型经典的TD算法,SARSA算法 和 Q-learing算法。它们都是无模型强化学习方法,直接跟环境进行交互来估算动作价值函数。

前期回顾


强化学习:基础知识篇(包含Gym库的简单实践)——手把手教你入门强化学习(一)
强化学习:Markov决策过程(MDP)——手把手教你入门强化学习(二)
强化学习:实践理解Markov决策过程(MDP)——手把手教你入门强化学习(三)
强化学习:动态规划求解最优状态价值函数——手把手教你入门强化学习(四)
强化学习:蒙特卡罗求解最优状态价值函数——手把手教你入门强化学习(五)

一、SARSA算法

我们可以看到SARSA其实就是“状态/动作/奖励/状态/动作”(State-Action-Reward-State-Action)。该算法利用
$$R_{t}+1+\gamma q_{t}(S_{t+1},A_{t+1})$$
得到单步时序差分目标Ut,进而更新q(St,At)。该算法的更新式为:
image.png
简单来看,实际上公式就是:更新后的Q值=更新前的Q值+某种修正,这个某种修正里,我们用了部分真实值,不像蒙特卡洛方法用了全部的真实值。部分真实值就是R,同理这里a是学习率。
通俗意义上,我们可以这样理解,举个例子,我们开车从A->B,现在初始值Q(A->B)是100min,一般是我们跑完A->B看看花了多少时间,然后用真实值去更新这个结果,但这个需要跑完全程,现在我们可以换个思路,我们在A-B中间找个C,A->C->B,我们只跑A->C,然后用A->C+Q(C,B)系统给的初始值,用这个跟Q(A,B)去做差,然后用这个去更新Q(A,B),这样我们每一步走的都可以去更新,不用跑完全程,这个就类似于这个算法,我们跑到C就是获得真实奖励R,然后用这个+$\gamma Q(S',A')-Q(S,A)$去更新Q(S,A),也就是去修正Q。

还有一个重要的点,这是个On-Policy算法,也就是同策略算法,它的行动策略和评估策略是同一套策略。这个我们需要跟待会的Q-Learning算法做对比。
行动策略,就是我们Q(s,a)里的a我们应该怎么选择,SARSA这里采取的方法就是ε-greedy方法,方法有两个要点。
· 令ε取一个0和1之间的数字,ε是概率。我们用ε概率随机选择一个动作。
· 以1− ε的概率,让机器人做
$$a^{*}=argmax_{a\in A}Q(s,a)$$
的动作,也就是选择Q(s,a)中能够产生最高估值的动作a。
举个例子:假设你在选走哪条路,有两条路,一条是新路线,一条是你已知最快的路线,如果 ε=0.1,表示你有 10% 的概率随机选路,90% 概率选当前已知最快的路。很好理解这个策略吧,能保证我们拥有一定的好奇心,但大部分还是向更好的路线走。
而评估策略就是Q(s',a'),这里的a‘我们应该怎么选择,这个SARSA选择的是同策略,还是ε-greedy方法。
我们可以看一下SARSA算法的伪代码:

初始化函数Q(sa),令任何一个终止状态的Q值都为0
对于每个Episode循环
      设置初始状态S
      根据Q函数与状态S,选择动作A(例如ε−greedy方法)
      对于每个Step循环
          做一个动作A,观测R和S′
          根据Q函数和状态S′,选择动作A′(例如ε−greedy方法)
          赋值:Q(S,A)←Q(S,A)+a[R+γQ(S′,A′)−Q(S,A)]
          赋值:S←S′,A←A′
      直到S是终止状态

这个根据上面的推导过程,我们已经很清楚了,用某种修正去更新Q。

二、Q-Learning算法

Q-Learning算法仍然是一个TD算法。它与SARSA算法不同,它是Off-Policy(离线),也就是离线的,区别就是它的行动策略跟评估策略不同。我们先看一下它的更新公式:
image.png
它跟SARSA算法唯一的不同就是它多了一个max,也就是评估策略的不同,Q-Learning这里很明确,转移的下一个状态,我只看哪个动作a’能取得最大的估值,我就才用哪一个,而不是我们之前提到的ε-greedy策略。
再以上面选路举例子:还是面临两个选择,现在这个策略告诉我们,我们应该只选最快到底的,不管路况怎么样,如果它堵车我们也选择它。
我们看一下伪代码:
image.png
我们可以看到跟SARSA算法,唯一不同的就是行动策略的不同。
SARSA是保守派,我这次发现堵车,可能下次我就不走这里了。而Q-learning如果这次堵车,下次我还选这里,因为这里最快啊。

三、总结

好的,至此,两个算法都讲清楚了,我们现在做个总结,它们两都是TD算法,TD算法是介于蒙特卡罗方法和动态规划之间的强化学习方法,它结合了动态规划的自举更新以及蒙特卡洛算法的样本更新。


写在最后

 如果想要更深入强化学习的内容,关注我,下期更精彩,感兴趣的友友也可以关注我的csdn账号。
https://blog.csdn.net/qq_53769632?spm=1000.2115.3001.5343


创作不易,求关注,点赞,收藏,谢谢~
相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
3月前
|
存储 算法
算法入门:专题二---滑动窗口(长度最小的子数组)类型题目攻克!
给定一个正整数数组和目标值target,找出总和大于等于target的最短连续子数组长度。利用滑动窗口(双指针)优化,维护窗口内元素和,通过单调性避免重复枚举,时间复杂度O(n)。当窗口和满足条件时收缩左边界,更新最小长度,最终返回结果。
|
8月前
|
机器学习/深度学习 数据采集 算法
智能限速算法:基于强化学习的动态请求间隔控制
本文分享了通过强化学习解决抖音爬虫限速问题的技术实践。针对固定速率请求易被封禁的问题,引入基于DQN的动态请求间隔控制算法,智能调整请求间隔以平衡效率与稳定性。文中详细描述了真实经历、问题分析、技术突破及代码实现,包括代理配置、状态设计与奖励机制,并反思成长,提出未来优化方向。此方法具通用性,适用于多种动态节奏控制场景。
305 6
智能限速算法:基于强化学习的动态请求间隔控制
|
3月前
|
存储 算法
算法入门:专题一:双指针(有效三角形的个数)
给定一个数组,找出能组成三角形的三元组个数。利用“两边之和大于第三边”的性质,先排序,再用双指针优化。固定最大边,左右指针从区间两端向内移动,若两短边之和大于最长边,则中间所有组合均有效,时间复杂度由暴力的O(n³)降至O(n²)。
|
3月前
|
存储 算法 编译器
算法入门:剑指offer改编题目:查找总价格为目标值的两个商品
给定递增数组和目标值target,找出两数之和等于target的两个数字。利用双指针法,left从头、right从尾向中间逼近,根据和与target的大小关系调整指针,时间复杂度O(n),空间复杂度O(1)。找不到时返回{-1,-1}。
|
4月前
|
机器学习/深度学习 传感器 算法
【高创新】基于优化的自适应差分导纳算法的改进最大功率点跟踪研究(Matlab代码实现)
【高创新】基于优化的自适应差分导纳算法的改进最大功率点跟踪研究(Matlab代码实现)
307 14
|
4月前
|
机器学习/深度学习 边缘计算 分布式计算
基于差分进化算法的微电网调度研究(Matlab代码实现)
基于差分进化算法的微电网调度研究(Matlab代码实现)
183 1
|
4月前
|
机器学习/深度学习 供应链 算法
基于Q-learning算法在能源市场中实现效益最大化研究(Matlab代码实现)
基于Q-learning算法在能源市场中实现效益最大化研究(Matlab代码实现)
159 1
|
4月前
|
机器学习/深度学习 存储 算法
基于密集型复杂城市场景下求解无人机三维路径规划的Q-learning 算法研究(Matlab代码实现)
基于密集型复杂城市场景下求解无人机三维路径规划的Q-learning 算法研究(Matlab代码实现)
136 0
|
6月前
|
机器学习/深度学习 存储 算法
强化学习算法基准测试:6种算法在多智能体环境中的表现实测
本文系统研究了多智能体强化学习的算法性能与评估框架,选用井字棋和连珠四子作为基准环境,对比分析Q-learning、蒙特卡洛、Sarsa等表格方法在对抗场景中的表现。实验表明,表格方法在小规模状态空间(如井字棋)中可有效学习策略,但在大规模状态空间(如连珠四子)中因泛化能力不足而失效,揭示了向函数逼近技术演进的必要性。研究构建了标准化评估流程,明确了不同算法的适用边界,为理解强化学习的可扩展性问题提供了实证支持与理论参考。
344 0
强化学习算法基准测试:6种算法在多智能体环境中的表现实测
|
6月前
|
机器学习/深度学习 数据采集 算法
你天天听“数据挖掘”,可它到底在“挖”啥?——数据挖掘算法入门扫盲篇
你天天听“数据挖掘”,可它到底在“挖”啥?——数据挖掘算法入门扫盲篇
143 0