文档备案控制台

开发者社区大数据与机器学习文章正文

图解强化学习 |手算Q-learning

2026-05-29 172

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Q-learning是一种基于价值的离线无模型强化学习算法，通过Q表存储状态-动作价值，利用时序差分和ε-贪心策略迭代更新，实现最优策略学习；但对连续动作适应性差，大规模状态空间易致Q表爆炸。（239字）

Q-learning算法的基础认识

Q-learning属于基于价值的离线无模型强化学习算法.

仅通过学习动作价值指导决策，无法直接优化动作策略，对连续动作场景适配性差。

它依靠Q表存储价值，结合时序差分规则迭代更新，搭配ε-贪心策略平衡探索与利用，依赖折扣因

子、学习率调控训练效果，需完成单步交互后更新，虽逻辑简单易实现，但状态或动作空间较大时

易出现Q表爆炸问题。

基础 Q-learning 结构

Q-Learning决策

选择最大的Q值（动作价值）

Q-Learning 依据动作价值函数完成决策，核心是在 Q 表中选取价值最高的动作。以示例说明：当

前处于状态s1，存在动作a1、a2，查表得Q(s1, a1)=-2、Q(s1, a2)=1，

a2对应预期奖励更高，因此选择a2。执行动作后状态切换为s2，重复查表、对比 Q

值、择优选择的流程。智能体不断跟随新状态循环该逻辑，直至任务结束。

QLearning 更新

一个动作的总价值，由当前即时奖励与后续状态的长期收益共同构成。

估计值：Q 表中记录的 Q(s1, a2)，即当前状态下执行对应动作的预估总价值。

真实目标值：即时奖励 + 下一状态的最大动作价值；引入折扣系数\(\gamma\)，弱化远期收益权

重，体现未来收益的不确定性。

算法超参数与决策策略：

epsilon- 贪心策略：用于动作选择。以 epsilon=0.9为例，90% 概率依照 Q 表择优执行，10% 概

率随机选动作，以此平衡探索与利用。

学习率alpha：取值小于 1，控制单次训练中误差的更新幅度。

折扣因子gamma：对未来奖励做衰减，衡量长期收益的重要程度。

手动计算过程

选动作

根据当前的状态和Q表格选动作

执行动作

根据当前的状态和动作，得到奖励和下个状态

估算的(状态-行为)值

计算当前行为的动作价值的估计值

计算真实值

计算当前行为的动作价值的真实值（根据下一个动态的最大动作奖励函数）

更新Q表

更新当前状态选择当前动作的动作价值函数

数学公式

动作价值函数（Q函数）

在状态 s 下执行动作 a，未来能够获得的累计回报期望值。

Bellman 最优方程

Q-learning 的理论基础是 Bellman 最优方程：

当前动作价值 = 当前奖励 + 下一状态最大价值。不断逼近最优 Bellman 方程。

TD目标（Temporal Difference Target）

Q-learning 每次更新的目标值：

TD Target（时序差分目标），当前样本认为的“正确 Q 值”。

TD误差（Temporal Difference Error）

当前 Q 值与目标值之间的差距。

Q-learning 更新公式

新 Q 值 = 旧经验 + 新经验

最优策略公式

在当前状态选择价值最大的动作。

ε-greedy 探索策略

训练阶段不能一直贪心，否则容易陷入局部最优，因此采用 ε-greedy：

奖励累计公式（Return）

Q-learning 优化目标是最大化累计奖励：

Q-learning 最终学习：

文章标签：

机器学习/深度学习

算法

存储

卿云阁

目录

相关文章

卿云阁

|

1月前

|

机器学习/深度学习算法机器人

图解强化学习 |手算SAC算法

SAC（Soft Actor-Critic）是最稳定、强大的连续动作强化学习算法，广泛应用于机器人控制与决策任务。其核心是最大熵强化学习：通过双Q网络抑制过估计，柔性策略网络增强探索，自适应温度系数α动态平衡利用与探索，兼顾最优性与鲁棒性。（239字）

卿云阁

397 1 2

飞云觅宙

|

云栖大会开发者

收到阿里云【乘风者计划】博主证书和奖励

收到阿里云【乘风者计划】博主证书和奖励 2023年2月对我来说是一个很好的开端，因为我在1号就收到了阿里云寄给我的【乘风者计划】博主证书和奖励。好兆头啊！我收到的是我获得的【技术博主】【星级博主】【专家博主】三个的奖品和证书，一快给我寄过来哒！

飞云觅宙

3345 2 8

收到阿里云【乘风者计划】博主证书和奖励

卿云阁

|

1月前

|

人工智能自然语言处理计算机视觉

人工智能|大白话Meshed-Memory Transformer

M2Transformer是一种图像描述生成模型，由三部分构成：骨干编码器（Faster R-CNN）提取区域特征；记忆增强编码器（Transformer）对特征进行语义细化；网格解码器（Transformer）将增强特征转化为自然语言描述。结构清晰、层次分明，兼顾准确性与可解释性。（239字）

卿云阁

189 4 4

卿云阁

|

1月前

|

机器学习/深度学习自动驾驶 PyTorch

PyTorch深度学习实战 |SegNet

CamVid_11是面向自动驾驶的语义分割数据集，含700+张精准标注图像，划分为训练/验证/测试集。涵盖道路、车辆、行人等11类场景目标（含背景共12类），支持SegNet等模型训练与评估。

卿云阁

182 3 3

卿云阁

|

1月前

|

机器学习/深度学习存储人工智能

图解人工智能的数学基础（线性代数）

本文系统讲解线性代数核心概念，涵盖向量（定义、几何/坐标表示、内积）、矩阵（含义、运算、秩、逆、相似、分解）、行列式（几何意义与变换关系）、线性方程组、特征值与特征向量、二次型、向量空间及范数等，强调其在AI与神经网络中的实际应用。

卿云阁

283 7 7

卿云阁

|

1月前

|

弹性计算前端开发 Ubuntu

阿里云服务器ECS的租用教程和简单的前端页面部署

本文详解阿里云学生福利领取（含300元卡券）及ECS轻量服务器选购与部署全流程：涵盖学生机免费申领、配置选型建议（Ubuntu/CentOS/Windows）、安全组设置、Nginx安装、网页部署及Xshell远程连接等实操步骤，新手友好。

卿云阁

320 8 9

卿云阁

|

1月前

|

人工智能机器人芯片

人工智能|YOLOv8实战

本内容为安全帽检测实战项目，基于YOLOv8模型，涵盖Kaggle数据获取、自定义yaml配置、模型训练（yolo_train.py）与测试（yolo_test.py），并提供服务器（FastAPI+Docker）、边缘（Jetson+TensorRT）及国产嵌入式（RK3588+RKNN）三类部署方案，支持工业场景实时智能识别。（239字）

卿云阁

339 1 1

卿云阁

|

1月前

|

机器学习/深度学习人工智能算法

图解人工智能的数学基础（高数）

本文系统讲解微积分核心概念：数列与递推、极限（含无穷小/大）、导数（含中值定理、泰勒公式）、积分（不定/定/变上限/反常）及微分方程，并延伸至多元函数、偏导数、链式法则与二重积分，结合Sigmoid函数、药物衰减等实例及SymPy代码演示，突出其在AI与工程中的应用基础。

卿云阁

255 5 5

卿云阁

|

1月前

|

机器学习/深度学习人工智能算法

图解强化学习 |手算近端策略优化算法（PPO）

PPO（近端策略优化）是当前最主流的强化学习算法，以训练稳定、上手简单、泛化性强著称。它通过Actor-Critic双网络架构，结合PPO-Clip损失函数限制策略更新幅度，并利用GAE优势估计提升样本效率，广泛应用于游戏AI、机器人控制、大模型对齐等领域。

卿云阁

456 3 3

卿云阁

|

1月前

|

机器学习/深度学习算法自动驾驶

图解强化学习 |手算DDPG

DDPG（深度确定性策略梯度）是一种面向连续动作空间的Actor-Critic强化学习算法。它采用4网络结构（Actor/Critic及其对应目标网络），结合经验回放与软更新，通过确定性策略梯度优化策略，广泛应用于机器人控制、自动驾驶等场景。（239字）

卿云阁

272 1 1

大数据与机器学习

热门文章

最新文章

身怀绝技的开发者们，快来DataV玩转可视化组件

数据仓库介绍与实时数仓案例

Kibana：数据分析的可视化利器

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

现代流式计算的基石：Google DataFlow

大数据阿里云产品的简单介绍理解

新版发布功能上线，新增「大屏快照」功能！

阿里云实时计算产品案例&解决方案汇总

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

2026 生成式 AI 人才培养：从工具使用到标准化能力体系的行业演进

从 SEO 到 GEO：Schema.org 如何提升企业网站在 LLM 中的可发现性

DataWorks AI助理：一句话，DataWorks AI 助理帮你搞定研发周报！

数据越多，城市越聪明？别急，智慧城市真正缺的可能不是数据，而是“会用数据”

从 Demo 到生产环境：AI Agent 项目的架构设计总结

AI搜索引用监测实战：基于数据采集与分析的4步技术方案

【赵渝强老师】Hadoop HDFS的回收站和快照

为什么你的物联网平台总是“掉链子”？真正的问题，不是设备，而是数据平台！

2026年GEO（生成引擎优化）技术指南：从原理到实战

行为数据链路设计：从问题定位到策略回流

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！