- 论文标题:Fast Reinforcement Learning Via Slow Reinforcement Learning
所解决的问题
让RL
学地更快一点。
背景
动物可以很快学习一些事情,而强化学习需要大量的试错实验。贝叶斯强化学习算法可以引入先验知识,但是在稍微复杂一点的情况下的更新是很困难的。
所采用的方法?
将学习过程中的智能体作为一个优化目标,然后用一个标准的强化学习算法对其优化。就是用强化学习学一个强化学习算法。
智能体与环境的交互如下图所示:
用n
表示特殊的MDP
中包含的epsiode
数,上图中n = 2 。next state
s t + 1 ,action
a t ,reward
r t 和终止信号d t (episode
终止为1
,非终止为0
)组成策略的输入,在隐状态h t + 1 的条件下,生成下一个隐状态h t + 2 和动作a t + 1。episode的隐状态可以用于下一个episode,但是不会用于不同的trail。
智能体的目标是最大化累计折扣奖励(一个trial
,而不是一个episode
)。这种做法使得智能体是在考虑整体,而非局部。最后查ICLR2017的审稿意见,说最外层的智能体优化里层智能体RNN的参数,大概就是这么个思想吧。
取得的效果?
所出版信息?作者信息?
这篇文章并没有中,伯克利和OpenAI著作。