强化学习:时间差分(TD)(SARSA算法和Q-Learning算法)(看不懂算我输专栏)——手把手教你入门强化学习(六)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 本文介绍了时间差分法(TD)中的两种经典算法:SARSA和Q-Learning。二者均为无模型强化学习方法,通过与环境交互估算动作价值函数。SARSA是On-Policy算法,采用ε-greedy策略进行动作选择和评估;而Q-Learning为Off-Policy算法,评估时选取下一状态中估值最大的动作。相比动态规划和蒙特卡洛方法,TD算法结合了自举更新与样本更新的优势,实现边行动边学习。文章通过生动的例子解释了两者的差异,并提供了伪代码帮助理解。

前言

 前两期我们介绍了动态规划算法,还有蒙特卡洛算法,不过它们对于状态价值函数的估值都有其缺陷性,像动态规划,需要从最下面向上进行递推,而蒙特克洛则需要一个Episode(回合)结束才能对其进行估值,有没有更直接的方法,智能体能边做动作,边估值一次,不断学习策略?答案是有的。这就是本期需要介绍的算法,时间差分法(Time Difference,TD)法。本期将介绍两个典型经典的TD算法,SARSA算法 和 Q-learing算法。它们都是无模型强化学习方法,直接跟环境进行交互来估算动作价值函数。

前期回顾


强化学习:基础知识篇(包含Gym库的简单实践)——手把手教你入门强化学习(一)
强化学习:Markov决策过程(MDP)——手把手教你入门强化学习(二)
强化学习:实践理解Markov决策过程(MDP)——手把手教你入门强化学习(三)
强化学习:动态规划求解最优状态价值函数——手把手教你入门强化学习(四)
强化学习:蒙特卡罗求解最优状态价值函数——手把手教你入门强化学习(五)

一、SARSA算法

我们可以看到SARSA其实就是“状态/动作/奖励/状态/动作”(State-Action-Reward-State-Action)。该算法利用
Rt+1+γqt(St+1,At+1)


得到单步时序差分目标Ut,进而更新q(St,At)。该算法的更新式为:
image.png
简单来看,实际上公式就是:更新后的Q值=更新前的Q值+某种修正,这个某种修正里,我们用了部分真实值,不像蒙特卡洛方法用了全部的真实值。部分真实值就是R,同理这里a是学习率。
通俗意义上,我们可以这样理解,举个例子,我们开车从A->B,现在初始值Q(A->B)是100min,一般是我们跑完A->B看看花了多少时间,然后用真实值去更新这个结果,但这个需要跑完全程,现在我们可以换个思路,我们在A-B中间找个C,A->C->B,我们只跑A->C,然后用A->C+Q(C,B)系统给的初始值,用这个跟Q(A,B)去做差,然后用这个去更新Q(A,B),这样我们每一步走的都可以去更新,不用跑完全程,这个就类似于这个算法,我们跑到C就是获得真实奖励R,然后用这个+γQ(S,A)Q(S,A)去更新Q(S,A),也就是去修正Q。

还有一个重要的点,这是个On-Policy算法,也就是同策略算法,它的行动策略和评估策略是同一套策略。这个我们需要跟待会的Q-Learning算法做对比。
行动策略,就是我们Q(s,a)里的a我们应该怎么选择,SARSA这里采取的方法就是ε-greedy方法,方法有两个要点。
· 令ε取一个0和1之间的数字,ε是概率。我们用ε概率随机选择一个动作。
· 以1− ε的概率,让机器人做
a=argmaxaAQ(s,a)


的动作,也就是选择Q(s,a)中能够产生最高估值的动作a。
举个例子:假设你在选走哪条路,有两条路,一条是新路线,一条是你已知最快的路线,如果 ε=0.1,表示你有 10% 的概率随机选路,90% 概率选当前已知最快的路。很好理解这个策略吧,能保证我们拥有一定的好奇心,但大部分还是向更好的路线走。
而评估策略就是Q(s',a'),这里的a‘我们应该怎么选择,这个SARSA选择的是同策略,还是ε-greedy方法。
我们可以看一下SARSA算法的伪代码:

初始化函数Q(sa),令任何一个终止状态的Q值都为0
对于每个Episode循环
      设置初始状态S
      根据Q函数与状态S,选择动作A(例如ε−greedy方法)
      对于每个Step循环
          做一个动作A,观测R和S′
          根据Q函数和状态S′,选择动作A′(例如ε−greedy方法)
          赋值:Q(S,A)←Q(S,A)+a[R+γQ(S′,A′)−Q(S,A)]
          赋值:S←S′,AA′
      直到S是终止状态
AI 代码解读

这个根据上面的推导过程,我们已经很清楚了,用某种修正去更新Q。

二、Q-Learning算法

Q-Learning算法仍然是一个TD算法。它与SARSA算法不同,它是Off-Policy(离线),也就是离线的,区别就是它的行动策略跟评估策略不同。我们先看一下它的更新公式:
image.png
它跟SARSA算法唯一的不同就是它多了一个max,也就是评估策略的不同,Q-Learning这里很明确,转移的下一个状态,我只看哪个动作a’能取得最大的估值,我就才用哪一个,而不是我们之前提到的ε-greedy策略。
再以上面选路举例子:还是面临两个选择,现在这个策略告诉我们,我们应该只选最快到底的,不管路况怎么样,如果它堵车我们也选择它。
我们看一下伪代码:
image.png
我们可以看到跟SARSA算法,唯一不同的就是行动策略的不同。
SARSA是保守派,我这次发现堵车,可能下次我就不走这里了。而Q-learning如果这次堵车,下次我还选这里,因为这里最快啊。

三、总结

好的,至此,两个算法都讲清楚了,我们现在做个总结,它们两都是TD算法,TD算法是介于蒙特卡罗方法和动态规划之间的强化学习方法,它结合了动态规划的自举更新以及蒙特卡洛算法的样本更新。


写在最后

 如果想要更深入强化学习的内容,关注我,下期更精彩,感兴趣的友友也可以关注我的csdn账号。
https://blog.csdn.net/qq_53769632?spm=1000.2115.3001.5343


创作不易,求关注,点赞,收藏,谢谢~
相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
wxchyy
+关注
目录
打赏
0
2
2
0
15
分享
相关文章
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现
软演员-评论家算法(Soft Actor-Critic, SAC)是深度强化学习领域的重要进展,基于最大熵框架优化策略,在探索与利用之间实现动态平衡。SAC通过双Q网络设计和自适应温度参数,提升了训练稳定性和样本效率。本文详细解析了SAC的数学原理、网络架构及PyTorch实现,涵盖演员网络的动作采样与对数概率计算、评论家网络的Q值估计及其损失函数,并介绍了完整的SAC智能体实现流程。SAC在连续动作空间中表现出色,具有高样本效率和稳定的训练过程,适合实际应用场景。
469 7
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现
强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法
Richard Sutton领导的团队提出了一种称为“奖励中心化”的方法,通过从观察到的奖励中减去其经验平均值,使奖励更加集中,显著提高了强化学习算法的性能。该方法在解决持续性问题时表现出色,尤其是在折扣因子接近1的情况下。论文地址:https://arxiv.org/pdf/2405.09999
129 15
基于生物地理算法的MLP多层感知机优化matlab仿真
本程序基于生物地理算法(BBO)优化MLP多层感知机,通过MATLAB2022A实现随机数据点的趋势预测,并输出优化收敛曲线。BBO模拟物种在地理空间上的迁移、竞争与适应过程,以优化MLP的权重和偏置参数,提升预测性能。完整程序无水印,适用于机器学习和数据预测任务。
基于LSB最低有效位的音频水印嵌入提取算法FPGA实现,包含testbench和MATLAB对比
本项目展示了一种基于FPGA的音频水印算法,采用LSB(最低有效位)技术实现版权保护与数据追踪功能。使用Vivado2019.2和Matlab2022a开发,完整代码含中文注释及操作视频。算法通过修改音频采样点的最低有效位嵌入水印,人耳难以察觉变化。然而,面对滤波或压缩等攻击时,水印提取可能受影响。该项目运行效果无水印干扰,适合实时应用场景,核心逻辑简单高效,时间复杂度低。
基于GA遗传算法的拱桥静载试验车辆最优布载matlab仿真
本程序基于遗传算法(GA)实现拱桥静载试验车辆最优布载的MATLAB仿真,旨在自动化确定车辆位置以满足加载效率要求(0.95≤ηq≤1.05),目标是使ηq尽量接近1,同时减少车辆数量和布载耗时。程序在MATLAB 2022A版本下运行,展示了工况1至工况3的测试结果。通过优化模型,综合考虑车辆重量、位置、类型及车道占用等因素,确保桥梁关键部位承受最大荷载,从而有效评估桥梁性能。核心代码实现了迭代优化过程,并输出最优布载方案及相关参数。
基于MobileNet深度学习网络的活体人脸识别检测算法matlab仿真
本内容主要介绍一种基于MobileNet深度学习网络的活体人脸识别检测技术及MQAM调制类型识别方法。完整程序运行效果无水印,需使用Matlab2022a版本。核心代码包含详细中文注释与操作视频。理论概述中提到,传统人脸识别易受非活体攻击影响,而MobileNet通过轻量化的深度可分离卷积结构,在保证准确性的同时提升检测效率。活体人脸与非活体在纹理和光照上存在显著差异,MobileNet可有效提取人脸高级特征,为无线通信领域提供先进的调制类型识别方案。
基于模糊神经网络的金融序列预测算法matlab仿真
本程序为基于模糊神经网络的金融序列预测算法MATLAB仿真,适用于非线性、不确定性金融数据预测。通过MAD、RSI、KD等指标实现序列预测与收益分析,运行环境为MATLAB2022A,完整程序无水印。算法结合模糊逻辑与神经网络技术,包含输入层、模糊化层、规则层等结构,可有效处理金融市场中的复杂关系,助力投资者制定交易策略。
基于BBO生物地理优化的三维路径规划算法MATLAB仿真
本程序基于BBO生物地理优化算法,实现三维空间路径规划的MATLAB仿真(测试版本:MATLAB2022A)。通过起点与终点坐标输入,算法可生成避障最优路径,并输出优化收敛曲线。BBO算法将路径视为栖息地,利用迁移和变异操作迭代寻优。适应度函数综合路径长度与障碍物距离,确保路径最短且安全。程序运行结果完整、无水印,适用于科研与教学场景。

热门文章

最新文章