AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(1)

简介: 我们介绍过MDP(Markov Decision Processes马可夫决策过程)以及什么是最优MDP,甚至从强化学习的角度介绍了DQN,Q-learning, Sarsa 等求解最优MDP方法,但是要深入理解强化学习,必须了解背后支持的理论基础。

我们介绍过MDP(Markov Decision Processes马可夫决策过程)以及什么是最优MDP,甚至从强化学习的角度介绍了DQNQ-learning, Sarsa 等求解最优MDP方法,但是要深入理解强化学习,必须了解背后支持的理论基础。动态规划(Dynamic programming)就是这些算法为什么能够求解最优MDP的理论基础。

img_764feb2671ca466c22ae8a47f9ccf766.png

动态规划的本质是将复杂大问题分解成,相互重叠的简单子问题,求到子问题的的最优解,然后将这些最优解组合起来就是大问题的最优解。

举个简单的例子,女朋友想在衣帽间中找到最搭的穿戴(衣服,帽子,鞋子,首饰。。。)。这是一个复杂的问题,但是我们可以把这个问题分解成互相重叠的小问题,比如,找到最佳搭配的鞋子和裤子。最佳搭配的裤子和衣服,最佳搭配的衣服和首饰等等。。。将这些搭配打完分之后,你自然就会找到最佳搭配的(得分最高的)衣服,裤子,帽子,鞋子和首饰了。

能用动态规划解决的问题必须满足两个条件,第一是可以拆解成子问题,第二这些子问题必须能相互重叠,MDP就满足这两个条件。

在用动态规划解决MDP问题的时候需要用到之前提到的Bellman公式,已经用Bellman公式1.预测v函数(状态值函数),2.通过价值迭代(Value iteration)求最优MDP 3. 通过策略迭代(Policy Iternation)来求得最优MDP。这些内容将放在下一篇文章中介绍。


相关文章
AI学习笔记——求解最优MDP
AI学习笔记——MDP(Markov Decision Processes马可夫决策过程)简介
AI学习笔记——Q Learning
AI学习笔记——Sarsa算法
AI学习笔记——卷积神经网络(CNN)


文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言或者访问我的Steemit主页

目录
相关文章
|
9月前
|
机器学习/深度学习 人工智能 UED
直击强化学习前沿,RL专场来袭丨AI Insight Talk直播预告
在知识爆炸、信息过载的时代,如何洞悉 AI 领域前沿趋势?OpenMMLab 联合 Hugging Face、ModelScope、知乎及机智流等重磅推出 AI Insight Talk
158 0
|
6月前
|
机器学习/深度学习 人工智能 运维
强化学习加持运维:AI 也能学会“打补丁”和“灭火”?
强化学习加持运维:AI 也能学会“打补丁”和“灭火”?
270 13
|
8月前
|
机器学习/深度学习 人工智能 算法
深度强化学习在异构环境中AI Agent行为泛化能力研究
随着人工智能技术的迅猛发展,AI Agent 在游戏、智能制造、自动驾驶等场景中已逐步展现出强大的自适应能力。特别是深度强化学习(Deep Reinforcement Learning, DRL)的引入,使得智能体能够通过与环境的交互,自动学习最优的行为策略。本文将系统性地探讨基于深度强化学习的AI Agent行为决策机制,并结合代码实战加以说明。
深度强化学习在异构环境中AI Agent行为泛化能力研究
|
8月前
|
机器学习/深度学习 人工智能 算法
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
|
10月前
|
人工智能 API 开发者
用Qwen3+MCPs实现AI自动发布小红书笔记!支持图文和视频
魔搭自动发布小红书MCP,是魔搭开发者小伙伴实现的小红书笔记自动发布器,可以通过这个MCP自动完成小红书标题、内容和图片的发布。
3249 41
|
10月前
|
人工智能 IDE 开发工具
📘 AI Clouder认证学习笔记|从初入江湖到晨光乍现
正如史蒂夫·乔布斯所言:“求知若渴,虚心若愚。”本文是一篇AI Clouder认证学习笔记,记录了一位初学者在探索AI领域的过程中所经历的挑战与成长。作者分享了从软件安装问题到技术工具掌握的心路历程,并强调了心态与自驱力的重要性。通过Python编程、通义灵码等工具的学习,以及对教学设计的深刻反思。
223 5
|
10月前
|
Web App开发 人工智能 JSON
Windows版来啦!Qwen3+MCPs,用AI自动发布小红书图文/视频笔记!
上一篇用 Qwen3+MCPs实现AI自动发小红书的最佳实践 有超多小伙伴关注,同时也排队在蹲Windows版本的教程。
1820 1
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
QwQ-32B为襄阳职业技术学院拥抱强化学习的AI力量
信息技术学院大数据专业学生团队与UNHub平台合作,利用QwQ-32B模型开启AI教育新范式。通过强化学习驱动,构建职业教育智能化实践平台,支持从算法开发到应用的全链路教学。QwQ-32B具备320亿参数,优化数学、编程及复杂逻辑任务处理能力,提供智能教学助手、科研加速器和产教融合桥梁等应用场景,推动职业教育模式创新。项目已进入关键训练阶段,计划于2025年夏季上线公测。
339 10
QwQ-32B为襄阳职业技术学院拥抱强化学习的AI力量
|
人工智能 自然语言处理 搜索推荐
Open Notebook:开源 AI 笔记工具,支持多种文件格式,自动转播客和生成总结,集成搜索引擎等功能
Open Notebook 是一款开源的 AI 笔记工具,支持多格式笔记管理,并能自动将笔记转换为博客或播客,适用于学术研究、教育、企业知识管理等多个场景。
1822 0
Open Notebook:开源 AI 笔记工具,支持多种文件格式,自动转播客和生成总结,集成搜索引擎等功能
|
Python 机器学习/深度学习 人工智能
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
【10月更文挑战第1天】本文通过构建一个简单的强化学习环境,演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体,使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法,为更复杂应用奠定基础。首先需安装必要库: ```bash pip install gym torch ``` 接着定义环境并与之交互,实现智能体的训练。通过多个回合的试错学习,智能体逐步优化其策略。这一过程虽从基础做起,但为后续研究提供了良好起点。
2349 4
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣