图解强化学习 |手算Q-learning

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: Q-learning是一种基于价值的离线无模型强化学习算法,通过Q表存储状态-动作价值,利用时序差分和ε-贪心策略迭代更新,实现最优策略学习;但对连续动作适应性差,大规模状态空间易致Q表爆炸。(239字)

 Q-learning算法的基础认识

Q-learning属于基于价值的离线无模型强化学习算法.

仅通过学习动作价值指导决策,无法直接优化动作策略,对连续动作场景适配性差。

它依靠Q表存储价值,结合时序差分规则迭代更新,搭配ε-贪心策略平衡探索与利用,依赖折扣因

子、学习率调控训练效果,需完成单步交互后更新,虽逻辑简单易实现,但状态或动作空间较大时

易出现Q表爆炸问题。

image.gif


基础 Q-learning 结构

Q-Learning决策

                                          选择最大的Q值(动作价值)

Q-Learning 依据动作价值函数完成决策,核心是在 Q 表中选取价值最高的动作。 以示例说明:当

前处于状态s1,存在动作a1a2,查表得Q(s1, a1)=-2Q(s1, a2)=1

a2对应预期奖励更高,因此选择a2。执行动作后状态切换为s2,重复查表、对比 Q

值、择优选择的流程。智能体不断跟随新状态循环该逻辑,直至任务结束。

  image.gif


QLearning 更新

               一个动作的总价值,由当前即时奖励与后续状态的长期收益共同构成。

估计值:Q 表中记录的 Q(s1, a2),即当前状态下执行对应动作的预估总价值。

真实目标值:即时奖励 + 下一状态的最大动作价值;引入折扣系数\(\gamma\),弱化远期收益权

重,体现未来收益的不确定性。

算法超参数与决策策略:

epsilon- 贪心策略:用于动作选择。以 epsilon=0.9为例,90% 概率依照 Q 表择优执行,10% 概

率随机选动作,以此平衡探索与利用。

学习率alpha:取值小于 1,控制单次训练中误差的更新幅度。

折扣因子gamma:对未来奖励做衰减,衡量长期收益的重要程度。

image.gif


手动计算过程

选动作

根据当前的状态和Q表格选动作

image.gif

执行动作

根据当前的状态和动作,得到奖励和下个状态

image.gif

估算的(状态-行为)值

计算当前行为的动作价值的估计值

image.gif

计算真实值

计算当前行为的动作价值的真实值(根据下一个动态的最大动作奖励函数)

image.gif

更新Q表

更新当前状态选择当前动作的动作价值函数

image.gif


数学公式

动作价值函数(Q函数)

在状态 s 下执行动作 a,未来能够获得的累计回报期望值。

image.gif

Bellman 最优方程

Q-learning 的理论基础是 Bellman 最优方程:


当前动作价值 = 当前奖励 + 下一状态最大价值。不断逼近最优 Bellman 方程。

TD目标(Temporal Difference Target)

Q-learning 每次更新的目标值:

TD Target(时序差分目标),当前样本认为的“正确 Q 值”。

TD误差(Temporal Difference Error)

当前 Q 值与目标值之间的差距。

Q-learning 更新公式

新 Q 值 = 旧经验 + 新经验

image.gif

最优策略公式

在当前状态选择价值最大的动作。

image.gif

ε-greedy 探索策略

训练阶段不能一直贪心,否则容易陷入局部最优,因此采用 ε-greedy:

奖励累计公式(Return)

Q-learning 优化目标是最大化累计奖励:

image.gif

Q-learning 最终学习:

image.gif

image.gif

image.gif

目录
相关文章
|
1天前
|
SQL 人工智能 自然语言处理
AI 黑盒生成 vs 原子语义组合:企业指标生产路径深度对比
对企业来说,这意味着 AI 不再只是“会回答”,而是能在统一语义框架中“回答得更准、更稳、更可复用”。
社区活动礼品兑换攻略
社区活动礼品兑换攻略
14781 1
|
1天前
|
存储 弹性计算 负载均衡
阿里云巨型帧是什么?云服务器ECS支持规格、开启关闭及配置步骤问题解答FAQ
阿里云巨型帧(Jumbo Frames)支持8500字节超大以太网帧,突破传统1500字节限制,可显著减少数据包数量、降低CPU负载、提升网络吞吐与大块数据传输效率,适用于HPC、大数据、SAN等高带宽场景。详细参考云服务器ECS官网解读:https://t.aliyun.com/U/AZBUsA
153 123
|
云栖大会 开发者
收到阿里云【乘风者计划】博主证书和奖励
收到阿里云【乘风者计划】博主证书和奖励 2023年2月对我来说是一个很好的开端,因为我在1号就收到了阿里云寄给我的【乘风者计划】博主证书和奖励。好兆头啊! 我收到的是我获得的【技术博主】【星级博主】【专家博主】三个的奖品和证书,一快给我寄过来哒!
3282 2
收到阿里云【乘风者计划】博主证书和奖励
|
1天前
|
机器学习/深度学习 数据可视化 机器人
PyTorch深度学习实战 |手算​​自编码Autoencoder
自编码器是一种无监督神经网络,通过编码器将数据压缩为低维潜在表示,再由解码器重建原始输入。其核心价值在于自动提取关键特征、实现降维与数据去噪,广泛应用于图像重建、特征学习和可视化分析等领域。
38 3
|
1天前
|
机器学习/深度学习 存储 编解码
PyTorch深度学习实战 | 手算卷积网络(Resnet-18)
ResNet-18是解决深层网络梯度消失与退化问题的经典模型,核心在于残差连接(Shortcut):让输入X直接跳跃传递,与卷积学习的残差F(X)相加(F(X)+X),实现恒等映射。其含4个stage、18层可训练层,每个BasicBlock由两个3×3卷积+BN+ReLU构成,并通过1×1卷积适配尺寸/通道差异,显著提升深层网络训练稳定性与性能。(239字)
32 2
|
1天前
|
机器学习/深度学习 PyTorch 算法框架/工具
PyTorch深度学习实战 | 手算生成对抗网络GAN
GAN(生成对抗网络)是一种深度学习模型,由生成器与判别器构成对抗训练框架:生成器学习伪造逼真数据,判别器则努力区分真假。二者博弈迭代,最终生成器可产出以假乱真的高质量样本,广泛应用于图像生成、数据增强等领域。
32 0
|
1天前
|
机器学习/深度学习 存储 算法
图解强化学习 |手算Sarsa算法
SARSA是一种基于价值的在线无模型强化学习算法,通过Q表存储状态-动作价值,采用ε-贪心策略与时序差分更新(TD),始终依据真实执行动作而非最优动作进行学习。其训练保守稳定、安全性高,但探索性较弱,且在大状态动作空间下易出现Q表爆炸问题。(239字)
33 0
|
6月前
|
机器学习/深度学习 人工智能 缓存
让AI评测AI:构建智能客服的自动化运营Agent体系
大模型推动客服智能化演进,从规则引擎到RAG,再到AI原生智能体。通过构建“评估-诊断-优化”闭环的运营Agent,实现对话效果自动化评测与持续优化,显著提升服务质量和效率。
3239 86
让AI评测AI:构建智能客服的自动化运营Agent体系
|
6天前
|
弹性计算 前端开发 Ubuntu
阿里云服务器ECS的租用教程和简单的前端页面部署
本文详解阿里云学生福利领取(含300元卡券)及ECS轻量服务器选购与部署全流程:涵盖学生机免费申领、配置选型建议(Ubuntu/CentOS/Windows)、安全组设置、Nginx安装、网页部署及Xshell远程连接等实操步骤,新手友好。
190 8