一看就会!英伟达新研究教机器人仅通过观察人类行为完成任务

简介: NVIDIA的研究人员开发了第一个可以教机器人仅通过观察人类的行为来完成任务的深度学习系统。该方法利用合成数据来训练神经网络,是第一次在机器人上使用以图像为中心的域随机化方法。

来自NVIDIA的研究人员开发了一个基于深度学习的系统,该系统可以教机器人仅通过观察人类的行为来完成任务。该方法旨在加强人与机器人之间的交流,同时进一步研究如何使人类无缝地与机器人一起工作。这是第一个这样的系统,研究由Stan Birchfield和Jonathan Tremblay领导。

“要想让机器人在现实世界中执行有用的任务,必须要能很容易地将任务传达给机器人。这包括预期的结果以及任何关于达到该结果的最佳方法的提示。”研究人员在他们的研究报告中指出。“通过演示,用户可以将任务传达给机器人,并向机器人提供如何以最佳的方式执行任务的线索。”

研究人员使用NVIDIA TITAN X GPU训练了一系列神经网络来执行与感知、程序生成和程序执行相关的任务。结果显示,机器人能够通过观察现实世界的单个演示来学习任务

336b1d38b0151efd9be94f41fe19a4d06d846d26

该方法的工作方式:一个摄像机被用来捕获场景的实时视频流,并且通过两个神经网络实时地对场景中对象的位置和关系进行推断。由此产生的知觉被输入到另一个网络中,该网络生成一个解释如何重建这些感知的计划。 最后,一个执行网络读取该计划并为机器人生成动作,同时考虑到当前场景的状态,以确保对外部干扰的稳健性。

一旦机器人得到一个任务,它就会生成一个人类可读取的关于重新执行该任务所需步骤的描述。该描述让用户能够在机器人执行之前快速识别和纠正机器人对人类演示的解释中的问题。

实现这种能力的关键是利用合成数据来训练神经网络。目前训练神经网络的方法需要大量有标记的训练数据,这对这类系统来说是一个瓶颈。通过合成数据生成,不用太费力就可以生成几乎无限的标记训练数据。

这也是第一次在机器人上使用以图像为中心的域随机化方法。域随机化(domain randomization)是一种产生大量多样性的合成数据的技术,然后愚弄感知网络将真实界的数据看作是其训练数据的另一种变体。研究人员选择以图像为中心的方式处理数据,以确保网络不依赖于摄像机或环境。

研究人员说:“如描述所示,这个感知网络适用于任何固态的现实世界物体,这些物体可以通过其3D边界立方体(bounding cuboid)来模拟。”“尽管训练过程中从未观察到真实的图像,但感知网络能够在真实图像中可靠地检测到物体的bounding cuboid,即使在有严重的遮挡的情况下也是如此。”

在他们的演示中,研究团队用几个彩色积木和一辆玩具汽车训练目标检测器。系统被教授“块”(blocks)的物理关系,不管这些“块”是堆叠在一起还是彼此相邻放置。

24c9c00eb23bb26e4f4725b0cd88cef8d6a6cc84

在上面的演示视频中,人类操作员向机器人展示了一组立方块。系统然后推断一个适当的程序并按正确的顺序将立方块正确地放置好。因为它在执行过程中会考虑当前世界的状态,因此系统能够实时地从错误中恢复过来。

研究人员将在本周于澳大利亚布里斯班举行的机器人与自动化国际会议(ICRA)上发表他们的研究论文和工作。

该团队表示,他们将继续探索使用合成训练数据进行机器人操纵,以将他们的方法扩展到其他场景。


原文发布时间为:2018-05-23

本文作者:肖琴

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:一看就会!英伟达新研究教机器人仅通过观察人类行为完成任务

相关文章
|
3月前
|
传感器 人工智能 机器人
【01】人形机器人研究试验-被有些网友痛骂“工业垃圾”“人工智障”上春晚的人形AI机器人-宇树科技机器人到底怎么样??-本系列优雅草卓伊凡亲自尝试下人形机器人的制造-从0开始学习并且制作机器人-可以跟随卓伊凡
【01】人形机器人研究试验-被有些网友痛骂“工业垃圾”“人工智障”上春晚的人形AI机器人-宇树科技机器人到底怎么样??-本系列优雅草卓伊凡亲自尝试下人形机器人的制造-从0开始学习并且制作机器人-可以跟随卓伊凡
158 1
【01】人形机器人研究试验-被有些网友痛骂“工业垃圾”“人工智障”上春晚的人形AI机器人-宇树科技机器人到底怎么样??-本系列优雅草卓伊凡亲自尝试下人形机器人的制造-从0开始学习并且制作机器人-可以跟随卓伊凡
|
3月前
|
机器学习/深度学习 人工智能 算法
ToddlerBot:告别百万经费!6000刀就能造人形机器人,斯坦福开源全套方案普及机器人研究
ToddlerBot 是斯坦福大学推出的低成本开源人形机器人平台,支持强化学习、模仿学习和零样本模拟到现实转移,适用于运动操作研究和多场景应用。
192 3
ToddlerBot:告别百万经费!6000刀就能造人形机器人,斯坦福开源全套方案普及机器人研究
|
4月前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
160 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
4月前
|
人工智能 自动驾驶 安全
Cosmos:英伟达生成式世界基础模型平台,加速自动驾驶与机器人开发
Cosmos 是英伟达推出的生成式世界基础模型平台,旨在加速物理人工智能系统的发展,特别是在自动驾驶和机器人领域。
553 15
Cosmos:英伟达生成式世界基础模型平台,加速自动驾驶与机器人开发
|
3月前
|
存储 人工智能 Cloud Native
D1net阅闻|英伟达计划明年上半年推出人形机器人Jetson Thor
D1net阅闻|英伟达计划明年上半年推出人形机器人Jetson Thor
|
5月前
|
传感器 人工智能 自然语言处理
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
RDT(Robotics Diffusion Transformer)是由清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能够在无需人类操控的情况下自主完成复杂任务,如调酒和遛狗。
337 22
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
|
11月前
|
传感器 人工智能 算法
适应多形态多任务,最强开源机器人学习系统八爪鱼诞生
【6月更文挑战第6天】【八爪鱼开源机器人学习系统】由加州大学伯克利分校等机构研发,适用于多形态多任务,已在arXiv上发表。系统基于transformer,预训练于800k机器人轨迹数据集,能快速适应新环境,支持单臂、双机械臂等。特点是多形态适应、多任务处理、快速微调及开源可复现。实验显示其在9个平台有效,但仍需改进传感器处理和语言指令理解。论文链接:https://arxiv.org/pdf/2405.12213
218 1
|
9月前
|
人工智能 算法 机器人
机器人版的斯坦福小镇来了,专为具身智能研究打造
【8月更文挑战第12天】《GRUtopia:城市级具身智能仿真平台》新论文发布,介绍了一款由上海AI实验室主导的大规模3D城市模拟环境——GRUtopia。此平台包含十万级互动场景与大型语言模型驱动的NPC系统,旨在解决具身智能研究中的数据稀缺问题并提供全面的评估工具,为机器人技术的进步搭建重要桥梁。https://arxiv.org/pdf/2407.10943
328 60
|
8月前
|
人工智能 自然语言处理 机器人
谷歌将大模型集成在实体机器人中,能看、听、说执行57种任务
【9月更文挑战第17天】近年来,人工智能在多模态大模型领域取得显著进展。谷歌最新研发的Mobility VLA系统,将大模型与实体机器人结合,实现了视觉、语言和行动的融合,使机器人能理解并执行复杂多模态指令,如“我应该把这个放回哪里?”系统在真实环境测试中表现出色,但在计算资源、数据需求及伦理问题上仍面临挑战。相关论文发布于https://arxiv.org/abs/2407.07775。
158 9
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】自然语言处理(NLP)的突破,关注NLP在机器翻译、情感分析、聊天机器人等方面的最新研究成果和应用案例。
自然语言处理(NLP)作为人工智能的一个重要分支,近年来取得了显著的突破,特别在机器翻译、情感分析、聊天机器人等领域取得了显著的研究成果和广泛的应用。以下是对这些领域最新研究成果和应用案例的概述,并附带相应的代码实例。
508 1

热门文章

最新文章