AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(1)-阿里云开发者社区

AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(1)

2018-09-28 1876

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 我们介绍过MDP(Markov Decision Processes马可夫决策过程)以及什么是最优MDP，甚至从强化学习的角度介绍了DQN，Q-learning, Sarsa 等求解最优MDP方法，但是要深入理解强化学习，必须了解背后支持的理论基础。

我们介绍过MDP(Markov Decision Processes马可夫决策过程)以及什么是最优MDP，甚至从强化学习的角度介绍了DQN，Q-learning, Sarsa 等求解最优MDP方法，但是要深入理解强化学习，必须了解背后支持的理论基础。动态规划(Dynamic programming)就是这些算法为什么能够求解最优MDP的理论基础。

动态规划的本质是将复杂大问题分解成，相互重叠的简单子问题，求到子问题的的最优解，然后将这些最优解组合起来就是大问题的最优解。

举个简单的例子，女朋友想在衣帽间中找到最搭的穿戴(衣服，帽子，鞋子，首饰。。。)。这是一个复杂的问题，但是我们可以把这个问题分解成互相重叠的小问题，比如，找到最佳搭配的鞋子和裤子。最佳搭配的裤子和衣服，最佳搭配的衣服和首饰等等。。。将这些搭配打完分之后，你自然就会找到最佳搭配的(得分最高的)衣服，裤子，帽子，鞋子和首饰了。

能用动态规划解决的问题必须满足两个条件，第一是可以拆解成子问题，第二这些子问题必须能相互重叠，MDP就满足这两个条件。

在用动态规划解决MDP问题的时候需要用到之前提到的Bellman公式，已经用Bellman公式1.预测v函数(状态值函数)，2.通过价值迭代(Value iteration)求最优MDP 3. 通过策略迭代(Policy Iternation)来求得最优MDP。这些内容将放在下一篇文章中介绍。

文章首发steemit.com 为了方便墙内阅读，搬运至此，欢迎留言或者访问我的Steemit主页

AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(1)

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(1)

热门文章

最新文章

相关课程

相关电子书

相关实验场景