【重磅】DeepMind发布通用强化学习新范式,自主机器人可学会任何任务

简介: DeepMind今天发表博客文章,提出一种称为SAC-X(计划辅助控制)的新学习范式,旨在解决让AI以最少的先验知识,从头开始学习复杂控制问题的挑战。这在真实环境中成功让机械臂从头开始学习拾放物体。研究者认为,SAC-X是一种通用的强化学习方法,未来可以应用于机器人以外的更广泛领域。

让孩子(甚至成年人)在使用物品之后自己收拾可能是颇有挑战性的事情,但我们面临一个更大的挑战:试图让我们的AI也这样做。成功与否取决于AI是否掌握几个核心的视觉运动技能:接近一个物体,抓住并举起它,然后打开一个盒子并把物体放进里面。使事情更复杂的是,这些技能还必须用正确的顺序做。

控制任务(control tasks),例如整理桌子或堆放物体,要求agent能够确定如何、何时以及在哪里协调它的模拟手臂和手指的9个关节,以正确地移动物体,实现它的目标。在任何给定一段时间里,可能的运动组合数量会非常庞大,并且需要执行一系列正确的操作,这就构成了一个严峻的探索性问题——使得这成为强化学习研究的一个特别有趣的领域。

奖赏塑形(reward shaping)、学徒学习(apprenticeship learning)以及示范学习等技巧可以帮助解决这个问题但是,这些方法依赖于大量的关于任务的知识——以最少的先验知识,从头开始学习复杂控制问题,仍然是一个公开的挑战。

DeepMind近日发表的新论文“Learning by Playing - Solving Sparse Reward Tasks from Scratch”提出一种新的学习范式,称为“Scheduled Auxiliary Control (SAC-X)”(计划辅助控制),旨在解决这个问题。SAC-X的想法是要从头开始学习复杂的任务,那么agent必须先学习探索和掌握一套基本的技能。就像婴儿在学会爬行和走路之前必须先发展协调和平衡的能力一样,向agent提供一些与简单的技能相对应的内部(辅助)目标可以增加它理解和成功执行更复杂任务的机会。

f1ddf7775f87d7dde3941241e8282257c9ac574c

我们在几个模拟的和真实的机器人任务中演示了SAC-X的方法,包含各种任务,例如不同类物体的堆叠问题,场地整理问题(需要将物体放入盒子)。 我们定义的辅助任务遵循一个总原则:它们鼓励agent去探索它的感知空间( sensor space)。 例如,激活它的手指上的触摸传感器,感知其手腕受到的力,使其本体感受传感器( proprioceptive sensors)中的关节角度达到最大,或强制物体在其视觉相机传感器中移动。如果达到了目标,每个任务会关联到一个简单的奖励,否则奖励为零。

1657f2dd837c85328ac6aa141dd96d0ad4e91cd5

图2:agent学习的第一件事是激活手指上的触摸传感器,并移动两个物体。

e3cafc367309b2c643c6aaee4162695b8084193e

图3:模拟agent最终掌握了“堆叠”物体这个复杂任务。

然后,agent就可以自行决定它当前的“意图”(intention),即接下来的目标。目标可以是辅助任务或外部定义的目标任务。更重要的是,agent可以通过充分利用off-policy learning来检测并从其他任务的奖励信号学习。例如,在拾取或移动一个物体时,agent可能会顺便把它堆叠起来,从而得到“堆叠”的奖励。由于一系列简单的任务可以导致观察到罕见的外部奖励,所以将“意图”进行安排(schedule)的能力是至关重要的。这可以根据所收集到的所有相关知识创建一个个性化的学习课程。

事实证明,这是在如此大的一个领域中充分利用知识的一种有效方法,而且在只有很少的外部奖励信号的情况下尤其有用。我们的agent通过一个 scheduling 模块来决定遵循那个意图。在训练过程中,scheduler通过一个meta-learning算法进行优化,该算法试图使主任务的进度最大化,从而显著提高数据效率。

a3b04a125ac4f2ea0e2c888b818730f5eb10177e

图4:在探索了许多内部辅助任务之后,agent学习如何堆叠和整理物体。

我们的评估显示,SAC-X能够解决我们从头设置的所有任务——使用相同的底层辅助任务集。更令人兴奋的是,我们在实验室的一个真实的机械臂上直接利用SAC-X,成功地从头开始学会了拾取和放置任务。过去,这一点特别具有挑战性,因为真实世界中机器人的学习需要数据效率,所以主流的方法是在模拟环境中预训练(pre-train)一个agent,然后将agent转移到真实的机械臂。

070839100a209e6c92f968fc03fd88ccf6ca7035

图5:在真正的机械臂上,SAC-X学习如何从头开始拾取和移动绿色方块。它此前从未见过这一任务。

我们认为SAC-X是从头开始学习控制任务的重要一步,只需指定一个总体目标。SAC-X允许你任意定义辅助任务:可以基于一般性认识(例如在个实验中是故意激活传感器),但最终可以包含研究人员认为重要的任何任务。从这个角度看,SAC-X是一种通用的强化学习方法,不止是控制和机器人领域,可以广泛应用于一般的稀疏强化学习环境。

这一工作由以下研究者共同完成:Martin Riedmiller, Roland Hafner, Thomas Lampe, Michael Neunert, Jonas Degrave, Tom Van de Wiele, Volodymyr Mnih, Nicolas Heess and Tobias Springenberg. 

a208ce8e66df48a4b61ec5a3244ea6d9b3381b8d


原文发布时间为:2018-03-2

本文作者:Marvin

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:【重磅】DeepMind发布通用强化学习新范式,自主机器人可学会任何任务

相关文章
|
7月前
|
人工智能 关系型数据库 分布式数据库
沉浸式学习PostgreSQL|PolarDB 9: AI大模型+向量数据库, 提升AI通用机器人在专业领域的精准度, 完美诠释柏拉图提出的“知识是回忆而不是知觉”
越来越多的企业和个人希望能够利用LLM和生成式人工智能来构建专注于其特定领域的具备AI能力的产品。目前,大语言模型在处理通用问题方面表现较好,但由于训练语料和大模型的生成限制,对于垂直专业领域,则会存在知识深度和时效性不足的问题。在信息时代,由于企业的知识库更新频率越来越高,并且企业所拥有的垂直领域知识库(例如文档、图像、音视频等)往往是未公开或不可公开的。因此,对于企业而言,如果想在大语言模型的基础上构建属于特定垂直领域的AI产品,就需要不断将自身的知识库输入到大语言模型中进行训练。
856 0
|
2月前
|
传感器 机器学习/深度学习 算法
植保机器人自主导航
植保机器人自主导航
15 1
|
9月前
|
人工智能 自然语言处理 关系型数据库
用PolarDB|PostgreSQL提升通用ai机器人在专业领域的精准度
chatgpt这类通用机器人在专业领域的回答可能不是那么精准, 原因有可能是通用机器人在专业领域的语料库学习有限, 或者是没有经过专业领域的正反馈训练. 为了提升通用机器人在专业领域的回答精准度, 可以输入更多专业领域相似内容作为prompt来提升通用ai机器人在专业领域的精准度. PolarDB | PostgreSQL 开源数据库在与openai结合的过程中起到的核心作用是: 基于向量插件的向量类型、向量索引、向量相似搜索操作符, 加速相似内容的搜索. 通过“问题和正确答案”作为参考输入, 修正openapi在专业领域的回答精准度.
52205 34
用PolarDB|PostgreSQL提升通用ai机器人在专业领域的精准度
|
4月前
|
机器学习/深度学习 算法 机器人
深度强化学习中利用Q-Learngin和期望Sarsa算法确定机器人最优策略实战(超详细 附源码)
深度强化学习中利用Q-Learngin和期望Sarsa算法确定机器人最优策略实战(超详细 附源码)
40 0
|
4月前
|
机器学习/深度学习 算法 机器人
深度强化学习之gym扫地机器人环境的搭建(持续更新算法,附源码,python实现)
深度强化学习之gym扫地机器人环境的搭建(持续更新算法,附源码,python实现)
103 0
|
3月前
|
机器学习/深度学习 人工智能 自动驾驶
强化学习算法在游戏、机器人和自动驾驶等领域的应用与实践
强化学习算法在游戏、机器人和自动驾驶等领域的应用与实践
138 0
强化学习算法在游戏、机器人和自动驾驶等领域的应用与实践
|
8月前
|
机器学习/深度学习 人工智能 算法
智能电话机器人是如何自主学习的
电话机器人主要通过语音识别和针对语意的理解识别客户所说的内容,针对性的回答问题,为企业高效筛选意向客户。除了电话机器人语音识别之外,电话机器人能够自主学习,不断完善产品知识及话术等,是它智能的另一种体现。那么电话机器人是如何自主学习的?
|
8月前
|
人工智能 自然语言处理 机器人
开箱即用的对话机器人解决方案,涵盖问答型对话、任务型对话和聊天型对话等多种场景,为您提供全方位的对话交互体验。
开箱即用的对话机器人解决方案,涵盖问答型对话、任务型对话和聊天型对话等多种场景,为您提供全方位的对话交互体验。
开箱即用的对话机器人解决方案,涵盖问答型对话、任务型对话和聊天型对话等多种场景,为您提供全方位的对话交互体验。
|
8月前
|
人工智能 自然语言处理 机器人
机器人ChatGPT来了:大模型进现实世界,DeepMind重量级突破
机器人ChatGPT来了:大模型进现实世界,DeepMind重量级突破
173 0
|
9月前
|
存储 监控 机器人
不论微信钉钉还是什么软件,我写了个通用的消息监控处理机器人
不论微信钉钉还是什么软件,我写了个通用的消息监控处理机器人

热门文章

最新文章