借助不同风格之间的图像转换,CMU 的研究者教会了机器人理解透明液体。
如果机器人可以倒液体,则可以帮助我们自动完成烹饪、将药品倒入药瓶或给植物浇水等任务。但是,透明液体在图像中很难被感知出来,完全透明的液体可以提供的唯一视觉信号是光线穿过液体的折射。此外,获得液体的深度测量同样不容易,因为液体会折射所投射的红外光。
以往的工作已经探索了机器人在各种环境下倒水,但都需要在环境或数据收集方法上做出重大妥协。透明液体细分的方法需要在训练期间加热液体,以在热成像仪观察下获得真值标签。
然而,为训练加热液体是一个单调乏味的过程,对可以轻松收集多少训练数据有限制。其他方法需要从多视角、背景、重量测量或液体运动等方面观察液体,这些施加在环境上的要求限制了这些方法的适用性。
近期,在 CMU 和圣母大学的一篇论文中,研究者提出了一种在透明容器中感知透明液体(如水)的方法。与以往方法相比,本研究提出的方法减轻了对操作域的限制。具体地,他们在单个图像上进行操作,不需要液体运动或多帧,也不需要在训练期间进行手动注释或加热液体。研究者使用一个生成模型来学习将有色液体的图像转换为透明液体的合成图像,这种做法可以用来训练透明的液体细分模型。
论文一作 Gautham Narasimhan 现为 CMU 机器人研究所的助理研究员,2020 年在 CMU 拿到了硕士学位。目前,他致力于研究用于机器人倒水任务的强化学习模型。该研究由 LG Electronics 和美国国家科学基金会提供资助,并于 5 月份发表在 IEEE 国际机器人和自动化会议上。该论文已被机器人领域国际顶会 ICRA 2022 接收。
- 论文地址:https://arxiv.org/pdf/2203.01538.pdf
- 项目主页:https://sites.google.com/view/transparentliquidpouring
研究中非常重要的是,研究者在透明和有色液体的未配对图像数据集上训练转换模型,也就是说,他们的方法不需要有色和透明图像之间的标签对应来学习有色到透明转换模型。这样可以实现自动和高效的数据集收集。由于很容易获得有色液体的细分标签,研究者可以直接使用一张有色液体图像的细分标签作为同一张图像的真值细分标签,只要它已经转换成了透明液体。
为了证明这种数据集转换方法在现实世界系统中的实用性,研究者构建了一个机器人倒水系统,它利用一个透明液体细分模型来完成倒水任务。在一个由机器人工作区中转换模型生成的透明液体合成图像的小型数据集上,他们对该细分模型进行训练。最后,研究者还进行了几个数据集扩增实验,以证明他们的方法有潜力训练可以泛化至多样化场景的透明液体细分模型。
研究者展示了机器人倒水的效果,比如倒了玻璃杯 75% 高度的水:
再比如倒了玻璃杯 50% 高度的水:
方法和实验概览
图像转换算法使用图像集合来训练 AI 将图像从一种风格转换成另一种风格,比如将一张照片转换成莫奈风格的绘画或者使一匹马的图像看起来像斑马。在本文中,研究者使用了一种对比学习方法来进行未配对的图像到图像转换(简称为 CUT)。
如下为有色液体图像转换成透明液体图像的详细流程图。他们利用论文 Section III-A 中描述的损失来训练一个生成器 G,它将有色液体 D_color 的图像转换为 D_transpatent 图像。
Narasimhan 的导师、CMU 机器人研究所助理教授 David Held 表示,在学习的训练阶段,我们需要某种方式来告诉算法哪些是正确和错误的答案。然而,标记数据是一个耗时的过程,尤其是在教机器人倒水时,人类可能需要在图像中标记出单个水滴。
David Held 还表示,正如我们可以训练一个将马的图像看起来像斑马的模型,我们同样能够训练一个将有色液体图像转换为透明液体图像的模型。这样,研究者可以使用该模型使机器人理解透明液体。下图为通过研究者训练的模型,实现了有色液体向透明液体的图像转换效果。图上为真实世界有色液体的图像,下图为生成的透明液体的图像。
透明液体细分是非常重要的一步,如下图所示,研究者使用生成器 G 将 D_color 的图像转换为透明图像,并通过背景减除从有色液体中生成伪真值的细分掩膜 M_i。最后,研究者使用标准的二进制交叉熵损失在这个合成数据集上训练一个透明液体细分模型 S。
机器人很难看到像水这样的透明液体,因为透明液体反射、折射和吸收光线的方式因环境而异。为了教显示器通过一杯水看到不同的背景,研究者在装满水的透明玻璃杯后播放 YouTube 视频。通过这种方式训练系统,使得机器人可以在现实世界的不同背景下倒水,无论它处于何处。
下图为针对新的(未见过)容器和背景的细分泛化。
Narasimhan 说,即使对人类来说,有时也很难准确地确定水和空气的边界。使用他们的方法,机器人能够将水倒进玻璃杯中的一定高度,如前文动图所示。
他还表示,未来依然有扩展这种方法的空间,添加不同的光线条件,让机器人挑战将水从一个容器倒进另一个,或者不只估计水的高度还有体积。