只需1次演示,1小时在线训练,机器人真就做到看一遍就会了

简介: 只需1次演示,1小时在线训练,机器人真就做到看一遍就会了
本文提出的用于模仿学习的 ROT 算法,无需任何预训练,在 14 项任务中的平均成功率为 90.1%。

模仿学习(Imitation Learning, IL)具有悠久历史,可以分为两种广泛的范式,分别为行为克隆(BC)和逆强化学习(IRL)。BC 使用监督学习来获得一个策略,在演示中给定一个观察的情况下,该策略能够最大化采取演示行动的可能性。这虽然使得训练时不需要在线交互,但在线 rollout 期间存在分布不匹配的情况。

IRL 在通过在线环境 rollout 使用 RL 优化策略前,从演示轨迹中推断潜在的奖励函数。这使得策略即使在任务特定奖励缺失时也能稳健地解决演示任务。尽管很强大,但 IRL 方法存在一个重大的缺陷,它们需要大量的、成本高昂的在线环境交互。

在近日一项工作中,纽约大学的研究者提出了用于模仿学习的 ROT(Regularized Optimal Transport)算法,从概念上来讲,这是一种简单的新方法,ROT 与高维观测兼容,并且与标准 IRL 方法,所需额外超参数最少。

此外,为了解决 IRL 中关于奖励的非平稳性难题,ROT 采用 OT(Optimal Transport)进行奖励计算,这种方式使用非参数轨迹匹配函数。为了减轻智能体探索的挑战,该研究在专家演示中使用 BC 预训练 IRL 行为策略。这减少了模仿智能体从头开始探索的需求。



论文地址:https://arxiv.org/pdf/2206.15469.pdf论文主页:https://rot-robot.github.io/

然而,即使使用基于 OT 的奖励计算和预训练策略,该研究也只能获得边际收益。基于先前工作的启发,该研究通过正则化 IRL 策略来稳定在线学习过程,以保持接近预训练 BC 策略。

为了实现这一点,研究者开发了一种新的自适应权重方案,称为 soft Q-filtering,它可以自动设置正则化,即优先考虑在训练开始时紧跟 BC 策略,并优先考虑随后的探索。与先前的策略正则化方案相比,soft Q-filtering 不需要手动指定衰减时间表。

为了证明 ROT 的有效性,研究者在 DM Control、OpenAI Robotics 和 Meta-world 的 20 个模拟任务上进行了大量实验,并在 xArm 上进行了 14 个机器人操作任务(见下图 1)。


我们先来看下 ROT 的效果,机器人将盒子里的物体倒入另一个盒子,没有漏撒的情况


机器人准确地将杯子扣在支架上。


机器人准确的挂衣架。


方法概览

模仿学习面临的一个挑战是:平衡模仿演示行为的能力,以及演示状态分布之外的状态恢复能力。BC 通过监督学习来模仿演示的动作,而 IRL 专门研究如何从任意状态中恢复策略。ROT 可以将两者优势结合起来。

完成上述过程分为以下两个阶段:

  • 第一阶段,在专家演示数据上使用 BC 目标训练随机初始化策略,然后 BC 预训练策略用作第二阶段的初始化;
  • 第二阶段,BC 预训练策略可以访问使用 IRL 目标进行训练的环境。为了加速 IRL 训练,BC 损失被添加到具有自适应权重目标中。


阶段 1:BC 预训练

BC 对应于求解方程 2 中的最大似然问题,其中 T^e 指的是专家演示。当由具有固定方差的正态分布参数化方程时,我们可以将目标定义为回归问题,其中给定输入 s^e,π^BC 需要输出 a^e。



经过训练,π^BC 能够模拟与演示中看到的对应动作。

阶段 2:使用 IRL 进行在线微调

给定一个预训练 π^BC 模型,在环境中对策略 π^b ≡ π^ROT 进行在线微调。研究者使用 n-step DDPG 方法,这是一种基于确定性 actor-critic 的方法,可在连续控制中提供高模型性能。

用正则化 π^BC 进行微调很容易受到分布偏移的影响,并且直接微调 π^BC 也会导致模型性能不佳(参见第 3 节中的图 2)。为了解决这个问题,研究者基于引导 RL(guided RL) 和离线 RL 方法,通过将π^ROT 与 BC 损失相结合,将π^ROT 的训练规范化,如下方程 3 所示。


具有 Soft Q-filtering 的自适应正则化。虽然之前的工作使用经过手动调优的 λ(π) 时间表,但研究者提出了一种新的、无需调优的自适应方案。他们通过在从专家 replay 缓冲区 D_e 采样的一批数据中比较当前策略 π^ROT 和预训练策略 π^BC 的性能来完成。


实验结果

ROT 对于模仿学习的效率如何?ROT 在基于图像的模仿中的表现如下图 3 所示。在除一项任务之外的所有任务中,ROT 的训练速度明显快于之前的工作。

为了达到 90% 的专家性能,ROT 在 DeepMind Control 任务上平均快 8.7 倍,在 OpenAI Robotics 任务上快 2.1 倍,并在 Meta-world 任务上快 8.9 倍。该研究还发现,ROT 的改进在较难的任务上最为明显,位于图 3 的最右边一列。


ROT 在现实世界的任务中是如何执行的?研究者在 14 个真实世界的操作任务上进行评估。仅仅通过一次演示和一小时的在线训练,ROT 在 14 项任务中的平均成功率为 90.1%,这明显高于基于行为克隆 (36.1%) 和对抗性 IRL (14.6%) 的方法。


ROT 在不同的起始位置上都表现良好。


不过,ROT 也有失败的情况。


在 ROT 中 IRL 方法的选择有多重要?下图 6 将 ROT 与使用该研究中预训练和自适应 BC 正则化技术 (RDAC) 的对抗性 IRL 方法进行比较。结果发现,soft Q-filtering 方法确实改善了先前 SOTA 对抗 IRL(图 6 中的 RDAC 与 DAC)。然而,基于 OT 的方法 (ROT) 更稳定,并且平均而言会促进更有效的学习。

相关文章
|
自然语言处理 算法 机器人
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
|
18天前
|
数据采集 安全 算法
李飞飞数字表兄弟破解机器人训练难题!零样本sim2real成功率高达90%
李飞飞团队提出“数字表兄弟”(Digital Cousins)概念,通过自动化创建数字表兄弟(ACDC)方法,大幅提升了机器人在真实环境中的训练效果。该方法在零样本sim2real迁移实验中成功率达到90%,显著优于传统方法。
33 3
|
机器学习/深度学习 人工智能 自然语言处理
养成女友?我训练出了一个“杨超越”聊天机器人
养成女友?我训练出了一个“杨超越”聊天机器人
224 0
|
机器学习/深度学习 人工智能 自然语言处理
DeepMind用「强化学习」训练「正能量」聊天机器人:再也不用担心AI乱说话了!
DeepMind用「强化学习」训练「正能量」聊天机器人:再也不用担心AI乱说话了!
214 0
|
机器学习/深度学习 自然语言处理 算法
Google X教你用模拟器训练机器人,准确率超93%,ICRA2021已发表
机器人的训练相比自然语言处理、视觉等领域来说更加困难,因为需要实际搭建一个环境,更多的时间来试错。而使用模拟器来模拟机器人,训练出来的模型想要直接应用到真实环境之间还需要消除他们之间的gap。
207 0
Google X教你用模拟器训练机器人,准确率超93%,ICRA2021已发表
|
传感器 机器人 语音技术
牙医训练机器人到底能有多恐怖?!
牙医训练机器人到底能有多恐怖?!
180 0
|
人工智能 算法 安全
案例酷 | 机器人瓦力来了:训练AI吞食垃圾 瀚蓝环境探索破解垃圾围城难题
为摆脱对经验的过度依赖,瀚蓝环境意识到更高效的数字化手段是可行办法。通过将经验与数据中的隐性知识转化为显性知识,并嵌入到机器中,让机器协助人类来完成复杂焚烧过程的复杂决策与控制。但摆在眼前的问题是,垃圾焚烧领域鲜有数据科学家,懂行业机理模型的数据科学家更是凤毛麟角,行业算法处于空白。于是,瀚蓝环境找到阿里云工业大脑团队,希望借助其在数据与算法上的优势,加之与瀚蓝环境专家经验结合,共同开发垃圾焚烧工艺优化算法,优化垃圾焚烧的稳定性。 工业大脑落地场景的选择至关重要。数据可用性、风险可控、可实施、高收益与可复用是选择优先场景需要考虑的关键因素。
876 0
案例酷 | 机器人瓦力来了:训练AI吞食垃圾 瀚蓝环境探索破解垃圾围城难题
|
机器学习/深度学习 机器人 TensorFlow
如何使用深度学习训练聊天机器人
原文地址 译者观点:目前AI整体处于研究热点,很多领域离产业化还很远,比如本文中的主题如何制作聊天机器人,虽然各大厂都有不同涉足,但是涉及的领域有限,其实在各个细分领域都可以训练专用的聊天机器人。
1624 0
|
8天前
|
自然语言处理 算法 机器人
智能电话销售机器人源码搭建部署系统电话机器人源码
智能电话销售机器人源码搭建部署系统电话机器人源码
19 4