Google X华人博士发布机器人模拟器SimGAN,ICLR2021已发表!

简介: 深度学习都能模拟现实了?通过观察机器人的运行轨迹,连摩擦系数都能学出来!Google X的一位斯坦福华人博士最近在ICLR2021上发表了一篇文章,教你动态模拟现实!

工科的同学想必离不开各种各样的模拟器,模拟器使各种工程学科能够用最少的人力快速制作原型。

在机器人技术领域,物理模拟为机器人提供了一个安全而廉价的虚拟操场,机器人可以利用深强化学习(DRL)等技术获得物理技能。

然而,由于仿真中的手工衍生物理并不完全匹配真实世界,完全在仿真中训练的控制策略在真实硬件上测试时可能失败ーー这是一个被称为仿真到真实(sim-to-real)或域适应的问题。

基于知觉的任务(如抓取)的模拟与真实的差距已经用 RL-cycleGAN 和 RetinaGAN 解决了,但是由于机器人系统的动态性仍然存在差距。

RL-cycleGAN和RetinaGAN在新智元之前的推送《Google X教你用模拟器训练机器人,准确率超93%,ICRA2021已发表》中有介绍。

这让我们不禁要问,我们能从一些真实的机器人轨迹中学到更精确的物理模拟器吗?如果是这样,这样一个改进的模拟器可以用标准的 DRL 训练来改进机器人控制器,使其在现实世界中成功。

基于这个想法,Google 和 X 团队共同在ICRA2021上发表了一篇论文《SimGAN: 混合模拟器识别领域适应通过对抗性的强化学习》,文中提出把物理模拟器作为一个可学的组件,由 DRL 训练具有特殊的奖励功能,惩罚在模拟中产生的轨迹(即,随着时间的推移机器人的运动),少量轨迹之间的差异,收集真实的机器人运动轨迹。

50.jpg

本文作者超半数为华人,第一作者Yifeng Jiang,是斯坦福大学计算机科学专业的二年级博士生,由C. Karen Liu博士指导。
他在佐治亚理工学院获得了电子与计算机工程学士学位。在进入研究生院之前,在上海交通大学获得了学士学位,是密歇根大学上海交通大学联合研究所的成员。他的研究兴趣是机器人应用的计算机动画和物理模拟,以及统计技术如何在这些领域中发挥作用,除此之外对数值优化,人类认知和运动学习也很感兴趣。

51.jpg

文中使用生成对抗性网络(GANs)来提供这种奖励,并制定了一个混合模拟器,它结合了可学习的神经网络和分析物理方程,来平衡模型的表达性和物理正确性。在机器人运动任务上,该方法优于多个强基线,包括领域随机化。

一个可学习的混合模拟器传统的物理模拟器是一个程序,用来解决微分方程,在虚拟世界中模拟运动或相互作用的物体。

对于这项工作,有必要建立不同的物理模型来代表不同的环境——如果一个机器人在床垫上行走,床垫的变形需要考虑在内(例如,与有限元分析一起)。

然而,由于机器人在现实世界中可能遇到的场景的多样性,这种特定环境的建模技术将是冗长的(甚至是不可能的) ,这就是为什么采用基于机器学习的方法是有用的。

虽然模拟器可以完全从数据中学习,但如果训练数据不包括足够广泛的各种情况,那么学习的模拟器如果需要模拟未经训练的情况,就可能违反物理定律(即偏离现实世界的动力学)。

因此,在如此有限的模拟器中训练的机器人在现实世界中更有可能失败。

为了克服这一复杂性,文中构造了一个混合模拟器,结合了可学习的神经网络和物理方程。

具体地说,研究人员使用一个可学习的仿真参数函数来代替通常由人工定义的模拟器参数ーー接触参数(如摩擦系数和恢复系数)和电机参数(如电机增益) ,因为接触的未建模细节和电机动态是产生仿真间隙的主要原因。

与传统的模拟器将这些参数视为常数不同,在混合模拟器中,这些参数是状态相关的ーー它们可以根据机器人的状态而改变。

例如,电机在较高的速度下会变得较弱。这些典型的未建模物理现象可以使用与状态相关的模拟参数函数来捕获。

此外,虽然接触和电机参数通常难以识别和易于变化,由于磨损,我们的混合模拟器可以自动学习他们从数据。例如,模拟器不再需要手动指定机器人脚的参数,而是从训练数据中学习这些参数。

52.jpg

混合模拟器的另一部分由物理方程组成,确保模拟遵循物理学的基本定律,如能量守恒,使其更接近真实世界,从而减少模拟与真实世界的差距。

在之前的床垫例子中,可学习的混合模拟器能够模拟床垫的接触力。由于学习的接触参数是状态相关的,模拟器可以根据机器人脚相对于床垫的距离和速度来调节接触力,模拟可变形表面的刚度和阻尼的影响。

因此,我们不需要为可变形的表面专门设计一个解析的模型。

使用GAN模拟器学习成功地学习上面讨论的模拟参数函数将导致一个混合模拟器,可以产生类似真正的机器人的轨迹。

使这种学习成为可能的关键是为轨迹之间的相似性定义一个度量标准。

GAN最初设计用于生成具有相同分布或风格(style)的合成图像,只有少量真实图像,可用于生成与真实图像无法区分的合成轨迹。

GAN有两个主要部分,一个是学习生成新实例的生成器,另一个是判别器,评估新实例与训练数据的相似程度。

在这种情况下,可学习的混合模拟器作为 GAN 生成器,而 GAN 鉴别器提供相似性评分。


53.jpg

将模拟模型的参数与现实世界中收集到的数据进行拟合,这一过程称为系统辨识过程(SysID) ,已经成为许多工程领域中的常见做法。

例如,可变形表面的刚度参数可以通过测量表面在不同压力下的位移来确定。这个过程通常是手动的和繁琐的,但是使用 GANs 可以更有效率。例如,SysID 经常需要一个手工制作的度量标准来衡量模拟轨迹和真实轨迹之间的差异。对于 GANs,这样的度量是由鉴别器自动学习的。此外,为了计算差异度量,传统的 SysID 需要将每个模拟轨迹配对到使用相同控制策略生成的对应实际轨迹。

由于 GAN 鉴别器只采用一个轨迹作为输入,并计算在现实世界中chuxian的可能性,因此不需要这种一对一的配对。

使用强化学习学习模拟器和优化策略把所有的东西融合到一起,我们将模拟学习形式化为一个 RL 问题。神经网络从少量的现实轨迹中学习状态相关的接触和电机参数。对神经网络进行优化,使模拟轨迹与实际轨迹之间的误差最小。

需要注意的是,在一段较长的时间内尽量减少这种错误是很重要的ー一种能够准确预测更远的未来的模拟将导致更好的控制政策。RL 非常适合这一点,因为它随着时间的推移优化了累积的奖励,而不仅仅是优化了单步奖励。

在学习了混合模拟器并且变得更加准确之后,我们再次使用 RL 在模拟中改进机器人的控制策略。


54.jpg


结果表明,SimGan优于多个sota模型基线,包括领域随机化(DR)和直接细化目标域(FT)。

55.jpg


仿真与现实的差距是阻碍机器人利用强化学习能力的关键瓶颈之一。

通过学习一个模拟器来应对这个挑战,这个模拟器可以更忠实地模拟真实世界的动态,同时只使用少量的真实世界数据。可以成功地部署在此模拟器中改进的控制策略。为了达到这个目的,我们在经典物理模拟器的基础上增加了可学习的组件,并使用对抗性的强化学习语言来训练这个混合模拟器。

到目前为止,我们已经测试了它在运动任务中的应用,我们希望通过将它应用于其他机器人学习任务,如导航和操作,来构建这个通用框架。

相关文章
|
8月前
|
人工智能 机器人 人机交互
哥大华人开发人脸机器人,照镜子自主模仿人类表情超逼真
【4月更文挑战第3天】哥伦比亚大学研究人员开发了一款名为Emo的机器人,能观察并模仿人类面部表情,实现更自然的人机交互。Emo配备26个面部执行器和高分辨率摄像头,通过“自我建模”学习模仿表情,并能预测人类表情变化。这一创新有望改善人机理解和响应情绪的能力,应用于教育、医疗等领域,但也引发了关于情感依赖和伦理问题的讨论。
135 4
哥大华人开发人脸机器人,照镜子自主模仿人类表情超逼真
|
2天前
|
人工智能 算法 自动驾驶
Jim Fan全华人团队HOVER问世,1.5M小模型让机器人获潜意识!
在机器人技术领域,人形机器人的全身控制一直极具挑战。传统方法为不同任务(如导航、移动操作等)单独训练控制策略,限制了策略的可转移性。Jim Fan团队提出HOVER框架,通过全身运动模仿作为共同抽象,整合多种控制模式,实现无缝过渡,显著提升控制效率和灵活性。HOVER不仅为人形机器人应用带来巨大潜力,也为机器人技术发展提供新思路。论文地址:https://arxiv.org/abs/2410.21229
34 23
|
6月前
|
机器学习/深度学习 算法 机器人
相隔3000英里,用苹果头显遥控机器人!UCSD、MIT华人团队开源TeleVision
【7月更文挑战第19天】UCSD和MIT华人团队开发的TeleVision技术实现了远程操控机器人。借助AR/VR,操作者通过头显设备获得实时的机器人视角,并通过手势控制执行任务。系统支持多人协作,已在远距离实验中成功导航复杂环境。不过,高带宽需求和交互学习曲线是挑战。[论文链接](https://robot-tv.github.io/resources/television.pdf)**
90 14
|
6月前
|
机器学习/深度学习 监控 安全
相隔3000英里,用苹果头显遥控机器人!UCSD、MIT华人团队开源TeleVision
【7月更文挑战第20天】加州大学圣地亚哥分校(UCSD)与麻省理工学院(MIT)的华人团队开发出TeleVision系统,结合Apple AR/VR头显,实现超远程沉浸式机器人控制。💡该系统克服视频流延迟,精准手势识别难题,让操作者仿佛亲临现场指挥机器人行动。目前处于研究阶段,已展示基本任务执行能力。更多信息查阅[论文](https://robot-tv.github.io/resources/television.pdf)。🌐 --- **🏷️远程控制** **🏷️虚拟现实** **🏷️机器人技术** **🏷️华人科研** **🏷️科技创新**
56 4
|
机器学习/深度学习 算法 机器人
CMU发表新型灵巧机器人算法,准确学习日常家具的操纵方法
CMU发表新型灵巧机器人算法,准确学习日常家具的操纵方法
133 0
|
2月前
|
人工智能 自然语言处理 算法
具身智能高校实训解决方案 ----从AI大模型+机器人到通用具身智能
在具身智能的发展历程中,AI 大模型的出现成为了关键的推动力量。高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将 AI 大模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台。
204 64
|
13天前
|
机器学习/深度学习 人工智能 算法
人工智能与机器人的结合:智能化世界的未来
人工智能与机器人的结合:智能化世界的未来
104 32
|
19天前
|
人工智能 自然语言处理 机器人
机器人迈向ChatGPT时刻!清华团队首次发现具身智能Scaling Laws
清华大学研究团队在机器人操作领域发现了数据规模定律,通过大规模数据训练,机器人策略的泛化性能显著提升。研究揭示了环境和对象多样性的重要性,提出了高效的數據收集策略,使机器人在新环境中成功率达到约90%。这一发现有望推动机器人技术的发展,实现更广泛的应用。
72 26
|
2月前
|
算法 机器人 语音技术
由通义千问驱动的人形机器人具身智能Multi-Agent系统
申昊科技人形机器人小昊,集成通义千问多模态大模型的具身智能系统,旨在讲解销售、迎宾表演等场景。机器人通过语音、动作等方式与用户互动,利用云端大语言模型处理自然语言,结合视觉、听觉等多模态感知技术,实现流畅的人机对话、目标追踪、展厅讲解等功能。
238 4
由通义千问驱动的人形机器人具身智能Multi-Agent系统
|
2月前
|
自然语言处理 算法 机器人
智能电话销售机器人源码搭建部署系统电话机器人源码
智能电话销售机器人源码搭建部署系统电话机器人源码
31 4

热门文章

最新文章