伯克利新研究：让深度强化学习不再一条道走到黑

伯克利新研究：让深度强化学习不再一条道走到黑 | Paper+Code

2018-01-10 1229

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本文来自AI新媒体量子位（QbitAI）

来自加州大学伯克利分校的博士生唐浩然（Haoran Tang）和Tuomas Haarnoja今天发表博客文章，介绍了他们的一项新研究。原标题《通过最大熵深度强化学习掌握不同的技能》，以下是文章的主要内容。

标准的深度强化学习，旨在掌握单一方法来解决给定的任务。但只有一种解决方案是不够的，因为智能体很容易受到现实世界中常见环境变化的影响。

例如，一个在简单迷宫中寻找目标的机器人，在训练的时候，智能体学会了从上部通道找到目标的方法，因为这个距离较短。然而之后如果我们堵住上部通道，智能体发现原来掌握的技能不可行，但不知道还可以选择下部通道。最后只能重新训练智能体。

b6696a963d480e0d18a0b08cb164953d5c2e513c

继续以上述智能体为例。智能体反复观察当前状态（s），采取行动（a），获得奖励（r）。我们将函数Q（s，a）定义为在状态s下执行a行动之后的预期累积奖励。常规的强化学习方法是以指定最大Q值为中心的单峰策略分布，这导致下层通道完全被忽略。

d37f3e5b7c092fef531285f3a872371e2932ff58

另一种解决方案是确保智能体探索全部状态，同时优先考虑更有希望的状态。如上图右侧所示，这个密度具有玻尔兹曼分布的形式。这个方法让智能体掌握所有的解决方案，以应对某些方案失效的情况。作者证明，通过能量形式定义的政策是最大熵强化学习目标的最优解。

04fb633053b19bb0e12aacfd90549c8df3417055

学习这种最大熵模型的思想源自统计建模，其目标是找到具有最高熵的概率分布，同时仍然满足观察统计。在实践中，我们偏爱最大熵模型，因为它们在对观察信息进行匹配的同时，对未知数的估计最少。此前也有不少类似的研究。

我们可以通过Soft Bellman方程来获得最大熵目标的最优解。

4f3d23aba3938f8026b990b5f29eea02aab3912c

此处

8bbec1488a56a424bdd856b87fbd602a42ad8d21

不过在连续域上仍有两个主要的挑战。首先，精确的动态规划是不可行的，其次，最优策略是由难以采样的能量分配来定义的。

解决第一个挑战，作者采用了表达神经网络函数近似，对采样状态和动作进行随机梯度下降训练，然后推广到新的状态动作元组。解决第二个挑战，采用了近似推理技术，例如马可夫链蒙特卡洛，并使用Stein变异梯度下降来加速推理。所得到的算法称为soft Q-learning。

通过soft Q-learning来学习最大熵的策略，在实践中表现如何？

作者通过实验证明，这种方法能够更好的进行探索，实现类似任务之间的策略迁移，能从现有策略中轻松组成新策略，并提高稳健性。

d7a6a11a5123f5c392e7befd9d5b7ae487c9f82b

这里有个迁移策略的例子。两个对应不同行为的策略，将Q函数叠加在一起，能掌握新的技能。如下图所示，策略1的智能体被训练将圆柱体移动到红色竖纹的位置，策略2测试移动到红色横纹。两个策略叠加，就能让智能体把圆柱移到红点的位置。

dfc1747137e7370de371ddda1856a29927838797

关于稳健性作者也给了一个例子。下面这个机器人学会了拼乐高积木，即使期间被干扰，也能成功的把乐高积木拼起来。

5a76929ffc169e7e778046cea769716019715049

上述研究，都在下面这篇论文之中：

Reinforcement Learning with Deep Energy-Based Policies
Haarnoja T., Tang H., Abbeel P., Levine S. ICML 2017.
Paper地址：
https://arxiv.org/abs/1702.08165

另外，相关代码也公布在GitHub上，地址在此：
https://github.com/haarnoja/softqlearning

— 完 —

本文作者：问耕

原文发布时间：2017-10-07

伯克利新研究：让深度强化学习不再一条道走到黑 | Paper+Code

量子位

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

伯克利新研究：让深度强化学习不再一条道走到黑 | Paper+Code

量子位

热门文章

最新文章

相关课程

相关电子书

相关实验场景