开发者社区 问答 正文

机器强化学习有几类?

机器强化学习有几类?

展开
收起
Dons 2021-12-14 18:51:47 1027 分享
分享
版权
来自: 阿里机器智能 举报
1 条回答
写回答
取消 提交回答
  • 强化学习有三大类,具体如下:

    1)DQN Deep Q network,比较符合人的直观感受逻辑的一种类型,它会训练一个评估 Q-value 的网络,对任一 state 能给出各个 Action 的 reward,然后最终选择 reward 最大的那个 action 进行操作即可。训练过程通过评估 “估计的 Q-value” 和 “真正得到的 Q-value” 的结果进行反向传递,最终让网络估计 Q-value 越来越准。

    2)Policy Gradient 是更加端到端的一种类型,训练一个网络,对任一 state 直接给出最终的 action。DQN 的适用范围需要连续 state 的 Q-value 也比较连续(下围棋等不适用这种情况),而 Policy Gradient 由于忽略内部过程直接给出 action,具有更大的普适性。但它的缺点是更难以评价及收敛。一般的训练过程是:对某一 state,同时随机的采取多种 action,评价各种 action 的结果进行反向传递,最终让网络输出效果更好的 action。

    3)Actor-Critic 试着糅合前面两种网络,取长补短,一方面用 policy Gradient 网络进行任一 state 的 action 输出,另外一方面用 DQN 网络对 policy gradient 的 action 输出进行较好的量化评价并以之来指导 policy gradient 的更新。如名字所示,就像表演者和评论家的关系。训练过程需要同时训练 actor(policy Graident)和 critic(QN)网络,但 actor 的训练只需要 follow critic 的指引就好。它有很多的变种,也是当前 DRL 理论研究上不停发展的主要方向。

    2021-12-14 18:53:23 举报
    赞同 评论

    评论

    全部评论 (0)

    登录后可评论
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等