基于强化学习的路径规划matlab仿真,对比QLearning和SARSA-阿里云开发者社区

基于强化学习的路径规划matlab仿真,对比QLearning和SARSA

2024-08-06 135

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本仿真展示了使用MATLAB 2022a实现的Q-Learning路径规划算法。通过与环境交互，智能体学习从起点至终点的最佳路径。Q-Learning采用off-policy学习方式，直接学习最优策略；而SARSA为on-policy方法，依据当前策略选择动作。仿真结果显示智能体逐步优化路径并减少步数，最终实现高效导航。核心代码片段实现了Q表更新、奖励计算及路径可视化等功能。

1.算法仿真效果
matlab2022a仿真结果如下（完整代码运行后无水印）：

2.算法涉及理论知识概要
强化学习(Reinforcement Learning, RL)是一种机器学习方法，它使代理(agent)通过与环境互动，学习采取何种行动以最大化累积奖励。在路径规划问题中，强化学习被用于自动探索环境，找到从起点到终点的最佳路径。其中，QLearning和SARSA是两种经典的价值迭代方法。

2.1 QLearning
QLearning是一种off-policy学习方法，意味着它学习的是一个最优策略，而不是仅仅基于所执行的策略。它通过更新动作价值函数Q(s,a)来实现这一点，公式如下：

d3ba62eb33a2cf594df0ad42bb81bb78_watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=.png

   QLearning的特点在于其更新规则不依赖于当前策略，而是基于最佳动作进行更新，这使得它能够直接学习最优策略，即使执行的策略与学习策略不同。

2.2 SARSA
相比之下，SARSA（State-Action-Reward-State-Action）是一种on-policy学习方法，它根据当前策略来选择下一个动作，并据此更新动作价值函数。SARSA的更新公式如下：

51bf59458c415d233971f916d78bacdd_watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=.png

2.3 对比分析
策略差异：QLearning是off-policy，它学习的是最优策略，而实际执行的动作可以来自任意策略，这使得它更灵活，能够探索更广阔的行为空间；SARSA则是on-policy，更新规则依赖于执行的策略，学习与行为策略一致，这要求算法必须按照正在学习的策略来行动，有时限制了探索范围。

更新规则：QLearning在更新时考虑的是下一个状态st+1下所有动作的最大期望回报，这使得它在探索未知环境时更加积极，但也可能导致过估计；SARSA则只考虑下一个状态下按当前策略选择的动作的回报，这使得它更保守，倾向于评估当前策略下的性能。

收敛性：理论上，QLearning在无限探索且无偏的情况下可以保证收敛到最优策略，但实践中容易过估计，尤其是在状态空间较大时；SARSA由于其保守性，通常收敛性更稳定，但可能不会直接找到最优解。

适用场景：QLearning更适合于探索性要求较高、需要寻找全局最优策略的任务；而SARSA则适用于策略更新需要与执行策略一致，或对稳定性要求较高的场景。

3.MATLAB核心程序
``` % 保存每轮数据
step_save(iters) = step;
Rwd1(iters) = Rwd3;
Rwd2(iters) = Rwd3/step;
Rwd3 = 0; % 重置累积奖励

% 在到达目标后的额外步骤处理
[next, temp] = func_next(current, action, Maps,temp, Rm, Cm);
rewardNew = Rwd_stop;
if func_Overlap(next,xy1) ~= 0
    if next.row == Rm && next.col >= 2 && next.col < Cm % 悬崖情况
        rewardNew = Rwd_n;
        next = xy0; % 回到起点
    end
else
    rewardNew = Rwd_p;
end



% 再次应用Epsilon-greedy策略
randN = 0 + (rand(1) * 1);
if(randN > Lsearch)
    [~,nextAction] = max(Qtable0(next.row,next.col,:));
else
    nextAction = round(1 + (rand(1) * 3));
end

nextQ    = Qtable0(next.row,next.col,nextAction);
Qcur     = Qtable0(current.row, current.col, action);
Qtable0(current.row, current.col, action) = Qcur + Lr * (rewardNew + Gma*nextQ - Qcur);


if  iters == Miter
    temp2 = func_Episode(Qtable0,Rm,Cm,xy0,xy1,Maps,Nact);


    figure(2);
    subplot(311); 
    plot(1:iters, Rwd1, 'b');
    ylabel('每轮奖励之和')
    axis([0 iters min(Rwd1)-10 max(Rwd1+10)])

    subplot(312); 
    plot(1:iters, step_save, 'b');
    ylabel('步数');
    axis([0 iters 0 max(step_save+10)])
    xlabel('试验次数')


    subplot(313); 
    plot(1:iters, Rwd2, 'b');
    ylabel('每轮奖励平均值')
    axis([0 iters min(Rwd2)-10 max(Rwd2+10)])
    drawnow
else
    Qtable1=Qtable0;

end

iters = iters + 1; % 迭代计数器增加

end

save R2.mat
0Z_007m

```

基于强化学习的路径规划matlab仿真,对比QLearning和SARSA

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

基于强化学习的路径规划matlab仿真,对比QLearning和SARSA

热门文章

最新文章

相关课程

相关电子书