【5分钟Paper】Fast强化学习和Slow强化学习

简介: 【5分钟Paper】Fast强化学习和Slow强化学习
  • 论文标题:Fast Reinforcement Learning Via Slow Reinforcement Learning

所解决的问题

  让RL学地更快一点。

背景

  动物可以很快学习一些事情,而强化学习需要大量的试错实验。贝叶斯强化学习算法可以引入先验知识,但是在稍微复杂一点的情况下的更新是很困难的。

所采用的方法?

  将学习过程中的智能体作为一个优化目标,然后用一个标准的强化学习算法对其优化。就是用强化学习学一个强化学习算法。

  智能体与环境的交互如下图所示:

  用n表示特殊的MDP中包含的epsiode数,上图中n = 2 next states t + 1 actiona t rewardr t 和终止信号d t (episode 终止为1,非终止为0)组成策略的输入,在隐状态h t + 1 的条件下,生成下一个隐状态h t + 2 和动作a t + 1。episode的隐状态可以用于下一个episode,但是不会用于不同的trail。

  智能体的目标是最大化累计折扣奖励(一个trial,而不是一个episode)。这种做法使得智能体是在考虑整体,而非局部。最后查ICLR2017的审稿意见,说最外层的智能体优化里层智能体RNN的参数,大概就是这么个思想吧。

取得的效果?

所出版信息?作者信息?

  这篇文章并没有中,伯克利和OpenAI著作。

相关文章
|
7月前
FAST特征检测
FAST特征检测。
65 2
|
6月前
FAST关键点检测
【6月更文挑战第5天】FAST关键点检测。
36 4
|
机器学习/深度学习 存储 缓存
YOLOv5的Tricks | 【Trick9】模型剪枝处理与Pytorch实现的剪枝策略
在yolov5项目中的torch_utils.py文件下,有prune这个函数,用来实现模型的剪枝处理。对模型裁剪,模型剪枝这方面之前没有接触到,这里用这篇笔记来学习记录一下这方面内容。
2260 0
YOLOv5的Tricks | 【Trick9】模型剪枝处理与Pytorch实现的剪枝策略
|
机器学习/深度学习 人工智能 算法
强化学习从基础到进阶--案例与实践[8]:近端策略优化(proximal policy optimization,PPO)算法
强化学习从基础到进阶--案例与实践[8]:近端策略优化(proximal policy optimization,PPO)算法
强化学习从基础到进阶--案例与实践[8]:近端策略优化(proximal policy optimization,PPO)算法
|
机器学习/深度学习 算法 计算机视觉
【检测|RCNN系列-2】目标检测算法Fast RCNN(附论文获取方式)
【检测|RCNN系列-2】目标检测算法Fast RCNN(附论文获取方式)
194 0
【检测|RCNN系列-2】目标检测算法Fast RCNN(附论文获取方式)
|
机器学习/深度学习 算法 数据挖掘
深度学习论文阅读目标检测篇(二):Fast R-CNN《Fast R-CNN》
本文提出了一种快速的基于区域的卷积网络方法(fast R-CNN) 用于目标检测。Fast R-CNN 建立在以前使用的深卷积网络有效地分 类目标的成果上。相比于之前的研究工作,Fast R-CNN 采用了多项创 新提高了训练和测试速度,同时也提高了检测准确度。
216 0
|
机器学习/深度学习 人工智能 算法
目标检测技术演进:Fast R-CNN、Faster R-CNN
我讲了 RCNN 算法,似乎它的表现不太好,所以这次我们讲讲它的进化版 —— Fast RCNN 和 Faster RCNN
147 1
目标检测技术演进:Fast R-CNN、Faster R-CNN
|
机器学习/深度学习 存储 算法
深度学习经典网络解析目标检测篇(二):Fast R-CNN
R-CNN网络训练、测试繁琐:R-CNN网络训练过程分为ILSVRC 2012样本下有监督预训练、PASCAL VOC 2007该特定样本下的微调、20类即20个SVM分类器训练、20类即20个Bounding-box回归器训练,该训练流程繁琐复杂;同理测试过程也包括提取建议框、提取CNN特征、SVM分类和Bounding-box回归等步骤,过于繁琐;
126 0
|
机器学习/深度学习 开发框架 算法
动手学强化学习(二):马尔可夫决策过程 (Markov decision process,MDP)
 马尔可夫决策过程(Markov decision process,MDP)是强化学习的重要概念。要学好强化学习,我们首先要掌握马尔可夫决策过程的基础知识。前两章所说的强化学习中的环境一般就是一个马尔可夫决策过程。与多臂老虎机问题不同,马尔可夫决策过程包含状态信息以及状态之间的转移机制。如果要用强化学习去解决一个实际问题,第一步要做的事情就是把这个实际问题抽象为一个马尔可夫决策过程,也就是明确马尔可夫决策过程的各个组成要素。本章将从马尔可夫过程出发,一步一步地进行介绍,最后引出马尔可夫决策过程。
1724 0
|
机器学习/深度学习 计算机视觉 异构计算
Fast R-CNN思想总结
Fast Rcnn思想总结
125 0
Fast R-CNN思想总结