ICLR 2022 Spotlight|让AI学会捏橡皮泥飞机

简介: ICLR 2022 Spotlight|让AI学会捏橡皮泥飞机

来自于mit-ibm 机器人研究院院长淦创团队的工作提出了一种接触点发现算法 CPDeform,将基于最优传输的接触点发现算法集成到可微物理求解器中,克服了初始接触点次优或接触点切换时的局部极小值问题。


最近的研究表明,可微分物理是解决软体控制任务的强大工具。然而,当末端执行器的初始接触点次优或在多阶段任务中执行接触点切换时,可微物理求解器经常会卡住并导致局部最小值。
为了解决该问题,来自于mit-ibm 机器人研究院院长淦创团队的研究者提出了一种接触点发现方法 (CPDeform)。该方法的关键思想是将基于最优传输的接触点发现算法集成到可微物理求解器中,以克服初始接触点次优或接触点切换时的局部极小值,并在单阶段任务和多阶段任务上分别取得良好性能。论文已被 ICLR 2022 接收为 Spotlight Presentation。



论文地址:https://openreview.net/forum?id=mmUA7_O9mjY
1. 简介

软体操纵在烹饪、织物操纵、医疗保健和可变形物体的制造中有着广泛的应用。微分物理最近被证明是一种强大而解决软体操纵任务控制问题的有效工具。PlasticineLab 展示了当给定参数化操纵策略,可微物理求解器可以通过计算策略参数的梯度来实现比强化学习算法更高效的策略优化,从而高效的找到软体操纵任务上最优解。

但是,基于梯度的可微物理求解器的性能会受到策略初始化的严重影响。末端执行器与物体的初始接触点在优化中起到至关重要的作用。不同的接触点可能导致优化结果上的巨大差异由于局部最优。此外,有些任务需要 agent 在操纵期间进行接触点切换,在这种情况上局部最优问题成为完成这些多阶段任务的严重瓶颈。

例如,如图 1 所示,一个 agent 需要控制 “笔” 在黄色橡皮泥立方体的表面写下两条竖线。为了完成第二条线,agent 需要在绘制第一个后切换接触点。然而,独立的可微物理求解器可能可以画出第一条线,但它经常在此之后卡住并难以绘制第二个。这是因为缺少能将笔推到新的接触点的梯度。因此,如何为软体操作任务自动找到合适的接触点在可微物理中仍然是一个挑战。

图 1

在本文中,我们根据接触点问题提出了一个框架 CPDeform,该框架的关键思想是将基于最优传输的接触点发现算法集成到可微物理求解器中。通过把软体操纵是为粒子传输问题,CPDeform 使用最优传输来比较当前形状与目标形状并获得粒子的传输优先级。通过利用传输优先级,CPDeform 启发式地找到末端执行器的接触点。找到接触点后,CPDeform 可以结合可微分物理求解器,来去解决软体操纵任务。在不需要切换触点的单阶段任务上,CPDeform 可以找到合适的初始触点来完成任务。

在多阶段任务上,CPDeform 基于运输优先级可以迭代切换末端执行器的接触点。使用图 2(右)所示的示例,其中目标是重塑橡皮泥立方体变成飞机,CPDeform 可以基于运输优先级来迭代切换末端执行器的接触点。我们对于这种迭代变形过程的启发来源于观察人类如何操纵橡皮泥。如图 2(左)所示,当人类操作橡皮泥面团时,我们倾向于反复关注兴趣点并将其修改为目标形状。CPDeform 通过迭代地切换感兴趣的接触点来模仿这个过程,并在可微解算器的帮助下将软体变形为目标形状。通过将接触点发现集成到可微物理求解器中,CPDeform 可以跳过接触切换引起的局部最小值并提高独立求解器的性能。

图 2
本文的贡献可以总结如下:

  • 我们对初始可微物理求解器由初始触点和触点切换所导致的局部最优问题进行了深入调查。
  • 我们提出了一个框架 CPDeform,将基于最优传输的接触点发现算法集成到可微物理求解器中。
  • CPDeform 的 接触点发现 backbone 可以直接由可微物理求解器用于为单阶段任务找到更好的初始接触点。
  • 在独立求解器解决不了的多阶段任务上,CPDeform 启发式地找到末端执行器的接触,并通过迭代来完成任务。


2. 方法

考虑软体操纵的一种方法是将其视为粒子传输问题。通过评估将当前状态粒子 x 传输到目标状态粒子 y 的成本,最优传输提供了一个有用的框架来比较任何给定的对之间的差异形状,可以帮助我们发现接触点。给定一个成本矩阵 M,最优运输希望找到运输计划 P 通过最小化运输成本 <P, M>。将问题转化为对偶形式,我们有 OT(X, Y) := max E[f] +E[g] 使得 ∀i, j, 拉格朗日乘数 f[i], g[j] 满足 f[i] + g[j] ≤ M[i, j]。我们关注当前粒子的拉格朗日乘数 f (图 3)。因为它代表了当前粒子的 support ,我们将 f 解释为当前粒子 x 的传输优先级 (图 4)。

图 3
运输优先级有助于选择接触点。给定一对当前和目标形状,我们直观地将末端执行器放置在两者之间差异最大的区域周围以大幅修改形状。我们想要去将末端执行器放置在最佳操作策略可以最小化形状差异的接触点上。然而,直接评估接触点的最优性在计算上是令人望而却步的,所以我们不能通过穷举搜索来确定接触点。因此,我们提出启发式地识别接触点,基于一个简单的规则:选取高传输优先级的接触点。我们观察到具有高运输优先级的接触点大多对应具有优越的优化性能。

图 4
为了放置操纵器,我们考虑一个候选姿势集,其中每个姿势对应一个独特的操作策略。在飞机示例中(图 5),我们有三个姿势。对于每个姿势,我们根据传输优先级放置操纵器。我们的直觉是鼓励操纵器去覆盖高优先级区域。我们为每个姿势运行可微物理求解器并获得它们的动作轨迹。通过比较每个轨迹实现的形状差异损失,我们选择实现最低损失的姿势。

图 5:CPDefeorm 对于操纵器的放置 在找到最佳候选姿势后,我们使用求解器优化的相应动作轨迹对当前形状进行变形(图 6)。由于可微物理求解器可以在优化过程中调整机械手方向,因此候选姿势集在实践中不需要很大。

图 6:可微分求解器对软体进行变形

然后我们重复这个过程进行迭代变形(图 7)。综上所述,对于每个阶段,我们根据传输优先级找到接触点,并执行可微物理优化以使当前形状变形。

图 7: CPDeform 迭代变形的过程

3. 实验

我们进行了多项实验来测试 CPDeform 在软体操作任务上的功效, 来回答两个主要问题:

  • 在涉及多个触点切换的多阶段任务中,CPDeform 能否完成这些任务通过迭代操作软体?
  • 假如我们在单阶段任务上限制只允许一个接触点 (one shot),我们的接触点发现方法 (CPDeform backbone) 的鲁棒性如何?


为了广泛评估我们的方法,我们提出了 PlasticineLab-M,扩展 PlasticineLab 到七个新的具有挑战性的多阶段软体操纵任务,并包含 PlasticineLab 中的多阶段环境 Pinch。我们在图 8 中展示了这八个多阶段任务。我们还使用 PlasticineLab 中剩余的单阶段任务来评估我们的接触点发现方法。对于多阶段环境,我们使用 Wasserstein-1 距离评判与目标的差异。对于单阶段环境,我们使用 IoU 指标与 PlasticineLab 进行公平一致的比较。

图 8: PlasticineLab-M 的任务示例

我们在表 1 中展示了定量结果,在图 9 中展示了定性结果。我们发现我们的方法能够完成这些复杂的任务,并且明显优于基线。我们发现通过发现的接触点,我们的方法能够迭代地构建和改进飞机的机头、机尾和机翼。在椅子上,我们发现我们的方法引导求解器首先创建一般座椅,然后改进扶手和椅背。在 Bottle 中,我们的方法首先在细化瓶子的侧面之前,将橡皮泥立方体的顶部向下推以创建颈部。对于 Move++,我们的方法能够通过选择来完成三个立方体的运输任务在每个阶段转移的最有利的对象。在 Rope++ 中,我们的方法首先移动绳索在精炼绳子的末端之前,形成大致的形状。在 Writer++ 中,我们的方法能够迭代引导微分物理求解器在橡皮泥立方体上写出 “ICLR” 字母。

图 9:多阶段任务环境中 CPdeform 和 PlasticineLab 的定性结果。

表 1:多阶段任务上平均 Wasserstein-1 距离和每种方法的标准差

为了进一步证明我们方法的有效性,在单阶段任务上,我们将 CPDeform backbone 所发现的一次性接触点和 PlasticineLab 中人工定义的接触点进行对比。从表 2 中我们可以看到,在大多数单阶段任务上,CPDeform 的性能优于或类似于 PlasticineLab 中人工定义的初始接触点。

表 2:单阶段任务上平均归一化增量 IoU 分数和两种方法的标准偏差。

4. 总述
在本文中,我们提出了一个新的框架 CPDeform,它将基于最优传输的接触点发现算法集成到可微物理求解器中。广泛的实验表明在单阶段任务上我们提出的接触发现方法性能优于或类似于人工定义的初始接触点。在使用独立的微分求解器解决不了的多阶段任务上,CPDeform 采用启发式搜索方法迭代解决任务。我们的工作证明了接触点在可微物理策略学习中的重要性和几何分析方法作为启发式的优势。未来工作的有趣方向包括推广发现通过学习各种形状的方法来获得有用的接触点,并应用类似的接触点发现原理用于灵巧的刚体操纵,或将其与其他规划方法进行结合。

相关文章
|
4月前
|
机器学习/深度学习 人工智能 数据挖掘
ICLR 49.9%论文疑有AI审稿
【5月更文挑战第20天】ICLR会议上一篇研究引发关注,推测近50%的论文可能由AI进行审稿,挑战传统审稿流程。研究者运用机器学习分析历史审稿数据,发现可能的AI审稿模式。该研究提出AI审稿可减轻审稿人负担,提高效率,但也面临证据不足、理解复杂学术概念限制及审稿行为多样性等问题。学术界需谨慎评估AI在审稿中的角色,以确保质量和公正性。[论文链接](https://arxiv.org/abs/2405.02150)
71 1
|
4月前
|
机器学习/深度学习 人工智能 算法
AI+组合优化 |机器学习顶会ICLR/ICML/NeurIPS'23最新进展-MIP求解篇(附原文源码)
本文梳理了ICLR 2023、ICML 2023、NeurIPS 2023有关机器学习+混合整数规划问题求解加速求解加速的研究成果,总共包含8篇文章。
421 0
|
机器学习/深度学习 人工智能 自然语言处理
AI顶会ICLR 2022 | WPipe 蚂蚁集团大规模 DNN 训练的流水线并行技术
AI顶会ICLR 2022 | WPipe 蚂蚁集团大规模 DNN 训练的流水线并行技术
735 0
AI顶会ICLR 2022 | WPipe 蚂蚁集团大规模 DNN 训练的流水线并行技术
|
机器学习/深度学习 人工智能 编解码
ICLR 2023 | 初探AI拼图模型预测蛋白质复合物结构
ICLR 2023 | 初探AI拼图模型预测蛋白质复合物结构
|
机器学习/深度学习 人工智能 自然语言处理
ICLR 2022 | 减少跨语言表示差异,字节跳动AI Lab通过流形混合增强跨语言迁移
ICLR 2022 | 减少跨语言表示差异,字节跳动AI Lab通过流形混合增强跨语言迁移
121 0
|
机器学习/深度学习 人工智能 算法
ICLR 2022|让绝艺上桌打麻将,腾讯AI Lab全新策略优化算法战胜人类冠军
ICLR 2022|让绝艺上桌打麻将,腾讯AI Lab全新策略优化算法战胜人类冠军
330 0
|
机器学习/深度学习 传感器 人工智能
AI从System 1迈向System 2重要一步,中科院自动化所探索物体动静态物理属性,入选AAAI和ICLR
AI从System 1迈向System 2重要一步,中科院自动化所探索物体动静态物理属性,入选AAAI和ICLR
128 0
|
机器学习/深度学习 人工智能 供应链
AI驱动运筹优化「光刻机」!中科大等提出分层序列模型,大幅提升数学规划求解效率|ICLR 2023
AI驱动运筹优化「光刻机」!中科大等提出分层序列模型,大幅提升数学规划求解效率|ICLR 2023
301 0
|
机器学习/深度学习 人工智能 前端开发
解读困扰ML50年的问题!ICLR 2021接受论文:Google AI全新视角理解「泛化」
许多数学工具可以帮助研究人员理解某些模型中的泛化。但在现实环境中,现有的大多数理论在应用于现代深层网络时都失败了,这些理论既空洞又无法预测。在ICLR 2021接受的「深度启动框架:优秀的在线学习者是优秀的离线概括器」中,Google AI Blog提出了一个新的框架,用于通过将广义化与在线优化领域联系来解决此问题。
174 0
解读困扰ML50年的问题!ICLR 2021接受论文:Google AI全新视角理解「泛化」