伯克利新研究:让深度强化学习不再一条道走到黑 | Paper+Code

简介:
本文来自AI新媒体量子位(QbitAI)

来自加州大学伯克利分校的博士生唐浩然(Haoran Tang)和Tuomas Haarnoja今天发表博客文章,介绍了他们的一项新研究。原标题《通过最大熵深度强化学习掌握不同的技能》,以下是文章的主要内容。

标准的深度强化学习,旨在掌握单一方法来解决给定的任务。但只有一种解决方案是不够的,因为智能体很容易受到现实世界中常见环境变化的影响。

例如,一个在简单迷宫中寻找目标的机器人,在训练的时候,智能体学会了从上部通道找到目标的方法,因为这个距离较短。然而之后如果我们堵住上部通道,智能体发现原来掌握的技能不可行,但不知道还可以选择下部通道。最后只能重新训练智能体。

b6696a963d480e0d18a0b08cb164953d5c2e513c

继续以上述智能体为例。智能体反复观察当前状态(s),采取行动(a),获得奖励(r)。我们将函数Q(s,a)定义为在状态s下执行a行动之后的预期累积奖励。常规的强化学习方法是以指定最大Q值为中心的单峰策略分布,这导致下层通道完全被忽略。

d37f3e5b7c092fef531285f3a872371e2932ff58

另一种解决方案是确保智能体探索全部状态,同时优先考虑更有希望的状态。如上图右侧所示,这个密度具有玻尔兹曼分布的形式。这个方法让智能体掌握所有的解决方案,以应对某些方案失效的情况。作者证明,通过能量形式定义的政策是最大熵强化学习目标的最优解。

04fb633053b19bb0e12aacfd90549c8df3417055

学习这种最大熵模型的思想源自统计建模,其目标是找到具有最高熵的概率分布,同时仍然满足观察统计。在实践中,我们偏爱最大熵模型,因为它们在对观察信息进行匹配的同时,对未知数的估计最少。此前也有不少类似的研究。

我们可以通过Soft Bellman方程来获得最大熵目标的最优解。

4f3d23aba3938f8026b990b5f29eea02aab3912c

此处

8bbec1488a56a424bdd856b87fbd602a42ad8d21

不过在连续域上仍有两个主要的挑战。首先,精确的动态规划是不可行的,其次,最优策略是由难以采样的能量分配来定义的。

解决第一个挑战,作者采用了表达神经网络函数近似,对采样状态和动作进行随机梯度下降训练,然后推广到新的状态动作元组。解决第二个挑战,采用了近似推理技术,例如马可夫链蒙特卡洛,并使用Stein变异梯度下降来加速推理。所得到的算法称为soft Q-learning。

通过soft Q-learning来学习最大熵的策略,在实践中表现如何?

作者通过实验证明,这种方法能够更好的进行探索,实现类似任务之间的策略迁移,能从现有策略中轻松组成新策略,并提高稳健性。

d7a6a11a5123f5c392e7befd9d5b7ae487c9f82b

这里有个迁移策略的例子。两个对应不同行为的策略,将Q函数叠加在一起,能掌握新的技能。如下图所示,策略1的智能体被训练将圆柱体移动到红色竖纹的位置,策略2测试移动到红色横纹。两个策略叠加,就能让智能体把圆柱移到红点的位置。

dfc1747137e7370de371ddda1856a29927838797

关于稳健性作者也给了一个例子。下面这个机器人学会了拼乐高积木,即使期间被干扰,也能成功的把乐高积木拼起来。

5a76929ffc169e7e778046cea769716019715049

上述研究,都在下面这篇论文之中:

Reinforcement Learning with Deep Energy-Based Policies
Haarnoja T., Tang H., Abbeel P., Levine S. ICML 2017.
Paper地址:
https://arxiv.org/abs/1702.08165

另外,相关代码也公布在GitHub上,地址在此:
https://github.com/haarnoja/softqlearning

本文作者:问耕
原文发布时间:2017-10-07
相关文章
|
2月前
|
机器学习/深度学习 人工智能 安全
TPAMI:安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析
【10月更文挑战第27天】强化学习(RL)在实际应用中展现出巨大潜力,但其安全性问题日益凸显。为此,安全强化学习(SRL)应运而生。近日,来自慕尼黑工业大学、同济大学和加州大学伯克利分校的研究人员在《IEEE模式分析与机器智能汇刊》上发表了一篇综述论文,系统介绍了SRL的方法、理论和应用。SRL主要面临安全性定义模糊、探索与利用平衡以及鲁棒性与可靠性等挑战。研究人员提出了基于约束、基于风险和基于监督学习等多种方法来应对这些挑战。
80 2
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
KDD 2024:港大黄超团队深度解析大模型在图机器学习领域的未知边界
【8月更文挑战第12天】在KDD 2024会议中,香港大学黄超团队深入探讨了大型语言模型在图机器学习的应用与前景。他们提出将LLMs与图神经网络结合可显著增强图任务性能,并归纳出四种融合模式,为领域发展提供新视角与未来路径。论文详细分析了现有方法的优势与局限,并展望了多模态数据处理等前沿课题。[论文](https://arxiv.org/abs/2405.08011)为图机器学习领域注入了新的活力。
242 61
|
4月前
|
安全 测试技术
世界模型又近了?MIT惊人研究:LLM已模拟现实世界,绝非随机鹦鹉!
【9月更文挑战第14天】麻省理工学院最近的研究揭示了大型语言模型(LLM)展现出的新潜能,其不仅能模仿真实环境,更在一定程度上理解并模拟程序在特定环境下的运作。通过使用Transformer模型并结合特定探测分类器,研究团队发现模型能逐步掌握程序的形式语义。为了验证这一发现,团队创建了一个独特的干预基准测试,进一步证实了模型的仿真能力,为世界模型的发展提供了新方向。尽管存在模型可能仅习得统计规律而非真正理解语义的争议,这项研究依然为理解复杂系统提供了新工具与视角。论文详情见:https://arxiv.org/abs/2305.11169。
51 1
|
机器学习/深度学习 传感器 自动驾驶
自动驾驶竞逐城市NOA,轻舟智航这篇ICML2023论文为「感知模块评估」指出了新方向(2)
自动驾驶竞逐城市NOA,轻舟智航这篇ICML2023论文为「感知模块评估」指出了新方向
116 0
|
机器学习/深度学习 传感器 人工智能
自动驾驶竞逐城市NOA,轻舟智航这篇ICML2023论文为「感知模块评估」指出了新方向(1)
自动驾驶竞逐城市NOA,轻舟智航这篇ICML2023论文为「感知模块评估」指出了新方向
148 0
|
存储 机器学习/深度学习 自然语言处理
把Transformer当通用计算机用,还能执行in-context learning算法,这项研究脑洞大开
把Transformer当通用计算机用,还能执行in-context learning算法,这项研究脑洞大开
100 0
|
机器学习/深度学习 存储 传感器
Habitat Challenge 2022冠军方案:字节AI Lab提出融合传统和模仿学习的主动导航
Habitat Challenge 2022冠军方案:字节AI Lab提出融合传统和模仿学习的主动导航
273 0
|
自然语言处理 算法 数据挖掘
ACL2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效,提出评价框架
ACL2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效,提出评价框架
176 0
|
机器学习/深度学习 人工智能 机器人
理解物体之间潜在关系,MIT新研究让AI像人一样「看」世界
理解物体之间潜在关系,MIT新研究让AI像人一样「看」世界
104 0
|
机器学习/深度学习 Web App开发 人工智能
谷歌大脑提出并发RL算法,机器人也可以「边行动边思考」
由谷歌大脑、UC伯克利、X实验室发表在 ICLR 2020 的一篇论文中提出了一种并发RL算法,使机器人能够像人一样「边行动边思考」。该项研究表明,机械手臂在并发模型中抓取速度比在阻塞模型中的速度提高49%。
240 0
谷歌大脑提出并发RL算法,机器人也可以「边行动边思考」