备案控制台登录注册

开发者社区问答正文

机器强化学习有几类？

机器强化学习有几类？

收起

Dons 2021-12-14 18:51:47 1027 版权

来自：阿里机器智能举报

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

岩茶芋泥

强化学习有三大类，具体如下：

1）DQN Deep Q network，比较符合人的直观感受逻辑的一种类型，它会训练一个评估 Q-value 的网络，对任一 state 能给出各个 Action 的 reward，然后最终选择 reward 最大的那个 action 进行操作即可。训练过程通过评估 “估计的 Q-value” 和 “真正得到的 Q-value” 的结果进行反向传递，最终让网络估计 Q-value 越来越准。

2）Policy Gradient 是更加端到端的一种类型，训练一个网络，对任一 state 直接给出最终的 action。DQN 的适用范围需要连续 state 的 Q-value 也比较连续（下围棋等不适用这种情况），而 Policy Gradient 由于忽略内部过程直接给出 action，具有更大的普适性。但它的缺点是更难以评价及收敛。一般的训练过程是：对某一 state，同时随机的采取多种 action，评价各种 action 的结果进行反向传递，最终让网络输出效果更好的 action。

3）Actor-Critic 试着糅合前面两种网络，取长补短，一方面用 policy Gradient 网络进行任一 state 的 action 输出，另外一方面用 DQN 网络对 policy gradient 的 action 输出进行较好的量化评价并以之来指导 policy gradient 的更新。如名字所示，就像表演者和评论家的关系。训练过程需要同时训练 actor（policy Graident）和 critic（QN）网络，但 actor 的训练只需要 follow critic 的指引就好。它有很多的变种，也是当前 DRL 理论研究上不停发展的主要方向。

2021-12-14 18:53:23 举报

赞同评论

评论
全部评论 (0)
登录后可评论

问答分类：

机器学习/深度学习

问答地址：

开发者社区 > 阿里机器智能 > 问答

相关问答

机器通过统计学习算法生成经验模型往往会面临什么问题？

550

1

0

对机器模型性能评估实验需要如何运行程序呢？

477

1

0

机器学习中不稳定的分类器是什么意思？

595

1

0

文本分类的简史中的早期机器学习阶段是什么时间段呢？具有哪些特征啊？

514

1

0

文本分类流程使用机器分析是怎样的方法呢？

329

1

0

机器模拟算法中什么是机器学习啊？

2081

1

0

机器与人类在学习过程中的差异有哪些?

534

1

0

机器算法中的回归算法是什么呀？

2033

1

0

机器算法中贝叶斯算法中常见的算法包括哪些？

1963

1

0

机器算法中高级优化算法L-BFGS的优缺点分别是什么呢？

2511

1

0

收录在圈子:

阿里机器智能

204

+ 订阅

关于阿里的机器智能创新技术均呈现于此.

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

一键生成讲解视频，AI的理解和生成能力到底有多强？

在工作中如何成为一个“不纠结”的人？

怎么让一张流程表单提交后，自动将这张表单的数据填入另一张流程表单并提交？

传统动画创作 VS AI动画创作，你更偏向哪一个？

2025 年 AI 产业会迎来全面爆发吗？

相关文章

文献解读-Chromosome-Scale Genome of Masked Palm Civet (Paguma larvata) Shows Genomic Signatures of Its Biological Characteristics and Evolution

CLIPer：开创性框架提升CLIP空间表征，实现开放词汇语义分割突破

探究大气生态系统：1996年BOREAS项目中南北研究区SLICER数据详解

DeepSeek 实践应用解析：合力亿捷智能客服迈向 “真智能” 时代

Python 高级编程与实战：构建微服务架构

还有其他疑问?

你好，我是AI助理

可以解答问题、推荐解决方案等