【5分钟Paper】Fast强化学习和Slow强化学习

简介: 【5分钟Paper】Fast强化学习和Slow强化学习
  • 论文标题:Fast Reinforcement Learning Via Slow Reinforcement Learning

所解决的问题

  让RL学地更快一点。

背景

  动物可以很快学习一些事情,而强化学习需要大量的试错实验。贝叶斯强化学习算法可以引入先验知识,但是在稍微复杂一点的情况下的更新是很困难的。

所采用的方法?

  将学习过程中的智能体作为一个优化目标,然后用一个标准的强化学习算法对其优化。就是用强化学习学一个强化学习算法。

  智能体与环境的交互如下图所示:

  用n表示特殊的MDP中包含的epsiode数,上图中n = 2 next states t + 1 actiona t rewardr t 和终止信号d t (episode 终止为1,非终止为0)组成策略的输入,在隐状态h t + 1 的条件下,生成下一个隐状态h t + 2 和动作a t + 1。episode的隐状态可以用于下一个episode,但是不会用于不同的trail。

  智能体的目标是最大化累计折扣奖励(一个trial,而不是一个episode)。这种做法使得智能体是在考虑整体,而非局部。最后查ICLR2017的审稿意见,说最外层的智能体优化里层智能体RNN的参数,大概就是这么个思想吧。

取得的效果?

所出版信息?作者信息?

  这篇文章并没有中,伯克利和OpenAI著作。

相关文章
|
5月前
|
机器学习/深度学习 算法
深度强化学习中Double DQN算法(Q-Learning+CNN)的讲解及在Asterix游戏上的实战(超详细 附源码)
深度强化学习中Double DQN算法(Q-Learning+CNN)的讲解及在Asterix游戏上的实战(超详细 附源码)
106 0
|
12月前
|
机器学习/深度学习 算法 计算机视觉
【检测|RCNN系列-2】目标检测算法Fast RCNN(附论文获取方式)
【检测|RCNN系列-2】目标检测算法Fast RCNN(附论文获取方式)
144 0
【检测|RCNN系列-2】目标检测算法Fast RCNN(附论文获取方式)
|
12月前
|
机器学习/深度学习 算法 数据挖掘
深度学习论文阅读目标检测篇(二):Fast R-CNN《Fast R-CNN》
本文提出了一种快速的基于区域的卷积网络方法(fast R-CNN) 用于目标检测。Fast R-CNN 建立在以前使用的深卷积网络有效地分 类目标的成果上。相比于之前的研究工作,Fast R-CNN 采用了多项创 新提高了训练和测试速度,同时也提高了检测准确度。
155 0
|
12月前
|
机器学习/深度学习 存储 算法
深度学习经典网络解析目标检测篇(二):Fast R-CNN
R-CNN网络训练、测试繁琐:R-CNN网络训练过程分为ILSVRC 2012样本下有监督预训练、PASCAL VOC 2007该特定样本下的微调、20类即20个SVM分类器训练、20类即20个Bounding-box回归器训练,该训练流程繁琐复杂;同理测试过程也包括提取建议框、提取CNN特征、SVM分类和Bounding-box回归等步骤,过于繁琐;
83 0
|
机器学习/深度学习 人工智能 算法
利用强化学习Q-Learning实现最短路径算法
如果你是一名计算机专业的学生,有对图论有基本的了解,那么你一定知道一些著名的最优路径解,如Dijkstra算法、Bellman-Ford算法和a*算法(A-Star)等。
204 0
利用强化学习Q-Learning实现最短路径算法
|
机器学习/深度学习 计算机视觉 异构计算
Fast R-CNN思想总结
Fast Rcnn思想总结
87 0
Fast R-CNN思想总结
|
机器学习/深度学习 算法 计算机视觉
经典神经网络 | fast rcnn目标检测算法详解
经典神经网络 | fast rcnn目标检测算法详解
经典神经网络 | fast rcnn目标检测算法详解
|
机器学习/深度学习 人工智能 算法
目标检测技术演进:Fast R-CNN、Faster R-CNN
我讲了 RCNN 算法,似乎它的表现不太好,所以这次我们讲讲它的进化版 —— Fast RCNN 和 Faster RCNN
91 1
目标检测技术演进:Fast R-CNN、Faster R-CNN
|
机器学习/深度学习 人工智能 算法
目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN 之 RCNN
这篇文章的内容总结翻译自 A Step-by-Step Introduction to the Basic Object Detection Algorithms (Part 1) ,文中有加入自己的理解。
101 1
|
机器学习/深度学习 计算机视觉
R-CNN: Fast R-CNN: Faster R-CNN YoloV1:
R-CNN: Fast R-CNN: Faster R-CNN YoloV1:
72 0