基于强化学习的路径规划matlab仿真,对比QLearning和SARSA

简介: 本仿真展示了使用MATLAB 2022a实现的Q-Learning路径规划算法。通过与环境交互,智能体学习从起点至终点的最佳路径。Q-Learning采用off-policy学习方式,直接学习最优策略;而SARSA为on-policy方法,依据当前策略选择动作。仿真结果显示智能体逐步优化路径并减少步数,最终实现高效导航。核心代码片段实现了Q表更新、奖励计算及路径可视化等功能。

1.算法仿真效果
matlab2022a仿真结果如下(完整代码运行后无水印):

1.jpeg
2.jpeg
3.jpeg

2.算法涉及理论知识概要
强化学习(Reinforcement Learning, RL)是一种机器学习方法,它使代理(agent)通过与环境互动,学习采取何种行动以最大化累积奖励。在路径规划问题中,强化学习被用于自动探索环境,找到从起点到终点的最佳路径。其中,QLearning和SARSA是两种经典的价值迭代方法。

2.1 QLearning
QLearning是一种off-policy学习方法,意味着它学习的是一个最优策略,而不是仅仅基于所执行的策略。它通过更新动作价值函数Q(s,a)来实现这一点,公式如下:

d3ba62eb33a2cf594df0ad42bb81bb78_watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=.png

   QLearning的特点在于其更新规则不依赖于当前策略,而是基于最佳动作进行更新,这使得它能够直接学习最优策略,即使执行的策略与学习策略不同。

2.2 SARSA
相比之下,SARSA(State-Action-Reward-State-Action)是一种on-policy学习方法,它根据当前策略来选择下一个动作,并据此更新动作价值函数。SARSA的更新公式如下:

51bf59458c415d233971f916d78bacdd_watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=.png

2.3 对比分析
策略差异:QLearning是off-policy,它学习的是最优策略,而实际执行的动作可以来自任意策略,这使得它更灵活,能够探索更广阔的行为空间;SARSA则是on-policy,更新规则依赖于执行的策略,学习与行为策略一致,这要求算法必须按照正在学习的策略来行动,有时限制了探索范围。

更新规则:QLearning在更新时考虑的是下一个状态st+1​下所有动作的最大期望回报,这使得它在探索未知环境时更加积极,但也可能导致过估计;SARSA则只考虑下一个状态下按当前策略选择的动作的回报,这使得它更保守,倾向于评估当前策略下的性能。

收敛性:理论上,QLearning在无限探索且无偏的情况下可以保证收敛到最优策略,但实践中容易过估计,尤其是在状态空间较大时;SARSA由于其保守性,通常收敛性更稳定,但可能不会直接找到最优解。

适用场景:QLearning更适合于探索性要求较高、需要寻找全局最优策略的任务;而SARSA则适用于策略更新需要与执行策略一致,或对稳定性要求较高的场景。

3.MATLAB核心程序
``` % 保存每轮数据
step_save(iters) = step;
Rwd1(iters) = Rwd3;
Rwd2(iters) = Rwd3/step;
Rwd3 = 0; % 重置累积奖励

% 在到达目标后的额外步骤处理
[next, temp] = func_next(current, action, Maps,temp, Rm, Cm);
rewardNew = Rwd_stop;
if func_Overlap(next,xy1) ~= 0
    if next.row == Rm && next.col >= 2 && next.col < Cm % 悬崖情况
        rewardNew = Rwd_n;
        next = xy0; % 回到起点
    end
else
    rewardNew = Rwd_p;
end



% 再次应用Epsilon-greedy策略
randN = 0 + (rand(1) * 1);
if(randN > Lsearch)
    [~,nextAction] = max(Qtable0(next.row,next.col,:));
else
    nextAction = round(1 + (rand(1) * 3));
end

nextQ    = Qtable0(next.row,next.col,nextAction);
Qcur     = Qtable0(current.row, current.col, action);
Qtable0(current.row, current.col, action) = Qcur + Lr * (rewardNew + Gma*nextQ - Qcur);


if  iters == Miter
    temp2 = func_Episode(Qtable0,Rm,Cm,xy0,xy1,Maps,Nact);


    figure(2);
    subplot(311); 
    plot(1:iters, Rwd1, 'b');
    ylabel('每轮奖励之和')
    axis([0 iters min(Rwd1)-10 max(Rwd1+10)])

    subplot(312); 
    plot(1:iters, step_save, 'b');
    ylabel('步数');
    axis([0 iters 0 max(step_save+10)])
    xlabel('试验次数')


    subplot(313); 
    plot(1:iters, Rwd2, 'b');
    ylabel('每轮奖励平均值')
    axis([0 iters min(Rwd2)-10 max(Rwd2+10)])
    drawnow
else
    Qtable1=Qtable0;

end

iters = iters + 1; % 迭代计数器增加

end

save R2.mat
0Z_007m

```

相关文章
|
2天前
|
算法
基于小波变换和峰值搜索的光谱检测matlab仿真,带GUI界面
本程序基于小波变换和峰值搜索技术,实现光谱检测的MATLAB仿真,带有GUI界面。它能够对CO2、SO2、CO和CH4四种成分的比例进行分析和提取。程序在MATLAB 2022A版本下运行,通过小波分解、特征提取和峰值检测等步骤,有效识别光谱中的关键特征点。核心代码展示了光谱数据的处理流程,包括绘制原始光谱、导数光谱及标注峰值位置,并保存结果。该方法结合了小波变换的时频分析能力和峰值检测的敏锐性,适用于复杂信号的非平稳特性分析。
|
1天前
|
传感器 算法
基于GA遗传算法的多机无源定位系统GDOP优化matlab仿真
本项目基于遗传算法(GA)优化多机无源定位系统的GDOP,使用MATLAB2022A进行仿真。通过遗传算法的选择、交叉和变异操作,迭代优化传感器配置,最小化GDOP值,提高定位精度。仿真输出包括GDOP优化结果、遗传算法收敛曲线及三维空间坐标点分布图。核心程序实现了染色体编码、适应度评估、遗传操作等关键步骤,最终展示优化后的传感器布局及其性能。
|
3天前
|
算法 数据可视化 数据安全/隐私保护
一级倒立摆平衡控制系统MATLAB仿真,可显示倒立摆平衡动画,对比极点配置,线性二次型,PID,PI及PD五种算法
本课题基于MATLAB对一级倒立摆控制系统进行升级仿真,增加了PI、PD控制器,并对比了极点配置、线性二次型、PID、PI及PD五种算法的控制效果。通过GUI界面显示倒立摆动画和控制输出曲线,展示了不同控制器在偏转角和小车位移变化上的性能差异。理论部分介绍了倒立摆系统的力学模型,包括小车和杆的动力学方程。核心程序实现了不同控制算法的选择与仿真结果的可视化。
31 15
|
1天前
|
监控 算法 数据安全/隐私保护
基于扩频解扩+turbo译码的QPSK图传通信系统matlab误码率仿真,扩频参数可设置
本项目基于MATLAB 2022a实现图像传输通信系统的仿真,涵盖QPSK调制解调、扩频技术和Turbo译码。系统适用于无人机图像传输等高要求场景,确保图像质量和传输稳定性。通过仿真,验证了系统在不同信噪比下的性能,展示了图像的接收与恢复效果。核心代码实现了二进制数据到RGB图像的转换与显示,并保存不同条件下的结果。
16 6
|
2天前
|
机器学习/深度学习 算法 安全
基于深度学习的路面裂缝检测算法matlab仿真
本项目基于YOLOv2算法实现高效的路面裂缝检测,使用Matlab 2022a开发。完整程序运行效果无水印,核心代码配有详细中文注释及操作视频。通过深度学习技术,将目标检测转化为回归问题,直接预测裂缝位置和类别,大幅提升检测效率与准确性。适用于实时检测任务,确保道路安全维护。 简介涵盖了算法理论、数据集准备、网络训练及检测过程,采用Darknet-19卷积神经网络结构,结合随机梯度下降算法进行训练。
|
6月前
|
安全
【2023高教社杯】D题 圈养湖羊的空间利用率 问题分析、数学模型及MATLAB代码
本文介绍了2023年高教社杯数学建模竞赛D题的圈养湖羊空间利用率问题,包括问题分析、数学模型建立和MATLAB代码实现,旨在优化养殖场的生产计划和空间利用效率。
272 6
【2023高教社杯】D题 圈养湖羊的空间利用率 问题分析、数学模型及MATLAB代码
|
6月前
|
存储 算法 搜索推荐
【2022年华为杯数学建模】B题 方形件组批优化问题 方案及MATLAB代码实现
本文提供了2022年华为杯数学建模竞赛B题的详细方案和MATLAB代码实现,包括方形件组批优化问题和排样优化问题,以及相关数学模型的建立和求解方法。
162 3
【2022年华为杯数学建模】B题 方形件组批优化问题 方案及MATLAB代码实现
|
6月前
|
数据采集 存储 移动开发
【2023五一杯数学建模】 B题 快递需求分析问题 建模方案及MATLAB实现代码
本文介绍了2023年五一杯数学建模竞赛B题的解题方法,详细阐述了如何通过数学建模和MATLAB编程来分析快递需求、预测运输数量、优化运输成本,并估计固定和非固定需求,提供了完整的建模方案和代码实现。
138 0
【2023五一杯数学建模】 B题 快递需求分析问题 建模方案及MATLAB实现代码
|
9月前
|
数据安全/隐私保护
耐震时程曲线,matlab代码,自定义反应谱与地震波,优化源代码,地震波耐震时程曲线
地震波格式转换、时程转换、峰值调整、规范反应谱、计算反应谱、计算持时、生成人工波、时频域转换、数据滤波、基线校正、Arias截波、傅里叶变换、耐震时程曲线、脉冲波合成与提取、三联反应谱、地震动参数、延性反应谱、地震波缩尺、功率谱密度
基于混合整数规划的微网储能电池容量规划(matlab代码)
基于混合整数规划的微网储能电池容量规划(matlab代码)

热门文章

最新文章