图解强化学习|手算无模型学习:蒙特卡罗与时序差分

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 这篇博客介绍了强化学习在21点游戏中的应用,重点讲解了蒙特卡罗和时序差分两种无模型算法。游戏规则方面,详细说明了21点的观测状态、动作空间(要牌/停牌)、胜负判定和奖励机制。算法部分,蒙特卡罗方法通过完整对局后反向更新价值函数,而时序差分则采用单步更新策略,结合即时奖励和下一状态估值进行动态调整。文章通过具体示例展示了两种算法的计算流程,包括回报累加、Q值更新和策略优化过程,适合强化学习初学者理解基础概念。

  image.gif

21 点(Blackjack)

观测是三元组: (玩家点数, 庄家明牌点数, 是否有可用Ace);Ace 可记 11 点(可用)或 1 点,优

先按 11 计算,爆牌时自动转为 1 点。

仅两个选择:0=停牌(不再要牌)、1=要牌(再抽一张牌),牌池为有放回抽样。

开局双方各发两张牌;玩家先决策,持续要牌直到停牌或点数超 21(爆牌),对局提前结束。

玩家停牌后,庄家亮暗牌并按固定规则补牌:点数不足 17 必须要牌,≥17 则停牌。

                玩家点数>庄家 / 庄家爆牌:玩家胜,奖励+1

                玩家爆牌 / 玩家点数<庄家:玩家负,奖励-1

               点数一致:平局,奖励0

对局中途即时奖励均为0,仅对局结束后结算奖惩。

                                     玩家选择停牌;或玩家要牌后点数超过 21。


蒙特卡罗算法

核心思想

无模型学习无法获取环境转移概率,只能依靠与环境交互得到的完整对局(Episode) 估计价值。

蒙特卡洛方法 是最直观的无模型算法:必须跑完一整局游戏,拿到最终胜负奖励后,再反向更新

每一步的价值与策略。

手算过程

假设我们现在已经玩完了一局游戏,对局轨迹如下:

image.gif

本局为首次对局,所有的动作价值 (Q(s,a))回报(G)列表初始值均为 0 /空列表。

image.gif

步骤 1:逆序遍历轨迹,逐点计算(MC 核心)

image.gif

初始化累积回报:G_sum= 0      首先处理的最后一步(t=1)      

累加累积回报:       G=G_sum+r1=0+1.0=1.0

存入历史回报列表:   此时我们选择的是动作0,所以rewards(s1,0)=[1.0,.......]

更新Q值:   此时我们选择的是动作0,所以Q(s1,0)=mean([1.0,.......])=1.0

然后再更新策略

然后处理(t=0)    

累加累积回报(沿用前面总和): G=G_sum+r2=1.0+0=1.0

存入历史回报列表:   此时我们选择的是动作1,所以rewards(s0,1)=[1.0,.......]

更新Q值:   此时我们选择的是动作1,所以Q(s0,1)=mean([1.0,.......])=1.0

然后再更新策略

image.gif

数学公式

image.gif

时序差分算法

核心思想

                   用 “现实得到的奖励 + 预估未来价值”,去修正 “我之前的估计”。

时序差分 TD = 走一步就更新一步,不用等游戏结束,用 “眼前奖励 + 下一个状态的估计价值” 来更

新当前价值。

手算过程

image.gif

数学公式

image.gif

目录
相关文章
|
6天前
|
机器学习/深度学习 人工智能 网络架构
深度解析:Transformer 的“灵魂”——QKV 变换的物理直觉
本文用图书馆检索等生活隐喻,从物理意义与认知科学角度解析Transformer中QKV设计的精妙本质:解耦查询(q)、键(k)、值(v)三重角色,实现语义分离、避免自注意力“自恋”,模拟人类动态信息路由的认知过程。(239字)
191 13
|
6天前
|
存储 搜索推荐 大数据
优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台
优路教育大数据团队携手阿里云,基于实时计算 Flink + EMR Serverless StarRocks + DLF(Paimon) 构建了全链路实时数据服务平台,从学员画像、营销筛选到题库关联查询,实现了从“分钟级延迟”到“秒级响应”的质变,为成人教育行业的数据化转型提供了标杆实践。
|
6天前
|
SQL 安全 程序员
《ZAKU渗透论:卓伊凡的2026渗透工程》第三章:Web攻击原理(上)——注入与SQL注入
本章详解Web攻击核心——注入与SQL注入。通过“小明输入‘小明’OR‘1’=‘1’秒变管理员”的生动案例,揭示攻击本质:程序混淆数据与代码,导致恶意SQL被执行。深入剖析万能密码、数据窃取、权限绕过等危害,并指出漏洞长期存在的根源:历史代码、意识不足与修复成本。
160 2
|
7天前
|
人工智能 机器人 芯片
人工智能|YOLOv8实战
本内容为安全帽检测实战项目,基于YOLOv8模型,涵盖Kaggle数据获取、自定义yaml配置、模型训练(yolo_train.py)与测试(yolo_test.py),并提供服务器(FastAPI+Docker)、边缘(Jetson+TensorRT)及国产嵌入式(RK3588+RKNN)三类部署方案,支持工业场景实时智能识别。(239字)
144 1
|
6天前
|
存储 运维 监控
《告别日志排查:OpenClaw如何修复工具错误指南》
传统工具调用系统依赖预先枚举的错误码,面对异构工具的指数级参数组合和隐蔽语义错误时彻底失效,只能靠人工排查海量日志救火。本文深入拆解OpenClaw的革命性设计,它彻底抛弃被动防御思路,构建了语法校验、语义验证、目标对齐三层递进的语义自愈体系。通过异常语义化建模、工具间协同纠错、动态粒度控制和自学习闭环,将异常转化为系统进化的养分,实现95%以上常见异常的自主修复。这套机制为通用智能体的鲁棒性提供了全新技术路径,重新定义了工具调用的可靠性标准。
148 9
|
6天前
|
机器学习/深度学习 数据采集 人工智能
田间杂草检测数据集分享(适用于YOLO系列深度学习分类检测任务)
本数据集含4000张真实农田图像(小麦/玉米/水稻田),YOLO格式标注杂草目标,覆盖多天气、光照与视角,适用于YOLO系列等目标检测模型训练,助力智能除草与精准农业研究。(239字)
178 16
|
6天前
|
机器学习/深度学习 人工智能 分布式计算
基于NSGA-III进化算法的多目标电路优化器
基于NSGA-III进化算法的多目标电路优化器
254 122
|
6天前
|
存储 人工智能 自然语言处理
拒绝“大模型幻觉”:一文彻底搞懂 RAG(检索增强生成)技术全流程
本文深入解析RAG(检索增强生成)技术,直击大模型落地私有知识场景的核心痛点——如何让LLM精准、低成本、高时效地基于企业文档作答。从文本分片、向量化索引,到召回重排、增强生成,系统拆解五大关键步骤,揭示RAG作为“AI外挂”的底层逻辑与工程实践精髓。
243 5
拒绝“大模型幻觉”:一文彻底搞懂 RAG(检索增强生成)技术全流程
|
6天前
|
监控 API Windows
WGCLOUD v3.6.8 正式更新
WGCLOUD v3.6.8发布:修复CPU/内存等指标偶现为0、大屏离线数据不显示等Bug;新增Windows系统服务列表及开放API;优化告警脚本执行与SNMP设备运行时间兼容性。升级方式详见官方图示。
|
6天前
|
人工智能 运维 JavaScript
OpenClaw落地手册 阿里云部署流程、Token Plan设置及大模型Skill配置详解
在AI智能体技术快速普及的当下,OpenClaw凭借开源免费、私有化部署、任务自动化执行、多平台适配等优势,成为个人办公、开发运维、团队协作场景中热门的智能代理工具。很多新手在接触这款工具时,最先遇到的难题就是完整部署流程不清晰,同时不清楚如何搭配Token Plan套餐管控调用成本,也不了解大模型专属Skill技能模块的接入与配置方法,导致部署完成后无法发挥工具全部能力。
170 0