- 论文题目:Deep Reinforcement Learning with Double Q-learning
所解决的问题?
Q-Learning
算法中存在动作值函数过估计(overestimate action values)的问题(因为其更新方程中包含一个maximization
动作值函数的一项),那这样的过估计问题是否会对其算法性能有所影响呢?能不能去避免这样的一种过估计问题呢?
背景
如果所有的动作值函数都被均匀地加上一个常数,似乎这不会对策略有什么影响。问题就在于当你有一个动作值函数过估计之后在加上探索和利用技术之后,那可能就会偏向于之前就过估计的动作值函数,而导致有些动作根本就没选到,那就会影响策略学习的好坏了。那么得到的就是一个次优解。
所采用的方法?
DQN
中就是使用相同的值函数来选择和评估动作,因此作者这里是将其拆开,具体公式如下:
假设你有两个网络θ 和θ 。一个用来选择动作,决定greedy policy
的,另一个用来决定动作值函数的。为了方便与DQN
算法对比,这里先写DQN
的公式:
两者主要的不同就是这个Target
中的策略选择和策略评估是否是用的同一个网络。
取得的效果?
实验作者是用多项式通过采样点拟合曲线。原文如下: The estimate is a d-degree polynomial that is fit to the true values at sampled states, where d = 6 (top and middle rows) or d = 9 (bottom row)。下图中:第一行与第二行的实验对比是为了分析过估计问题的普遍性、第二行跟第三行的实验是为了分析过估计问题与近似函数拟合能力的关系。
作者设计这个环境,最优动作值函数只与当前状态有关。最上面的最优动作值函数被设计为:Q ∗ ( s , a ) = s i n ( s ) Q_{*}(s,a)=sin(s)Q∗(s,a)=sin(s),中间和下面的那条线被设计为Q ∗ ( s , a ) = 2 e x p ( − s 2 ) Q_{*}(s,a)=2 exp(-s^{2})Q∗(s,a)=2exp(−s2)。左边那幅图中展示的是对状态动作值函数的近似,绿色的点是做实验过程中的采样点。
在采样点上的拟合效果还是很好的,但整个值函数方程的逼近效果还不是很理想。尤其是采样点左侧的误差较大。
作者之后就开始跟最大的作比较,最右边的图最能说明Double DQN
能减缓过估计问题了。细节描述如下图所示:
上面这个实验还说了了一个问题,就是近似函数的拟合能力增强往往对已知数据点拟合效果较好,对未知数据点拟合误差较大。
上面说明了过估计是会存在的,那过估计会不会影响学习最优策略呢?
实际上也是会的。其实验结果如下:
从上图中的下方这两幅图可以看出,随着过估计值函数增加,其得分性能下降,所以过估计其实是会损害算法的得分性能。
所出版信息?作者信息?
2016
年DeepMind
团队发表在ational conference on artificial intelligence
上的一篇文章,作者Hado van Hasselt
,谷歌DeepMind
研究科学家,Rich Sutton
同事。
定理证明
Theorem1
下图展示了,过估计的最低下界会随着动作空间维度增加而减少。
定理1 证明:
Theorem2
定理2 描述:
定理2 证明:
这意味着:
参考链接
以前解决过估计的问题是不充分地做值函数近似
- Thrun and A. Schwartz. Issues in using function approximation for reinforcement learning. In M. Mozer, P. Smolensky, D. Touretzky, J. Elman, and A. Weigend, editors, Proceedings of the 1993 Connectionist Models Summer School, Hillsdale, NJ, 1993. Lawrence Erlbaum.
或者加一点噪声
- van Hasselt. Double Q-learning. Advances in Neural Information Processing Systems, 23:2613–2621, 2010.
- van Hasselt. Insights in Reinforcement Learning. PhD thesis, Utrecht University, 2011.
我的微信公众号名称:深度学习与先进智能决策
微信公众号ID:MultiAgent1024
公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!