一看就会!英伟达新研究教机器人仅通过观察人类行为完成任务

简介: NVIDIA的研究人员开发了第一个可以教机器人仅通过观察人类的行为来完成任务的深度学习系统。该方法利用合成数据来训练神经网络,是第一次在机器人上使用以图像为中心的域随机化方法。

来自NVIDIA的研究人员开发了一个基于深度学习的系统,该系统可以教机器人仅通过观察人类的行为来完成任务。该方法旨在加强人与机器人之间的交流,同时进一步研究如何使人类无缝地与机器人一起工作。这是第一个这样的系统,研究由Stan Birchfield和Jonathan Tremblay领导。

“要想让机器人在现实世界中执行有用的任务,必须要能很容易地将任务传达给机器人。这包括预期的结果以及任何关于达到该结果的最佳方法的提示。”研究人员在他们的研究报告中指出。“通过演示,用户可以将任务传达给机器人,并向机器人提供如何以最佳的方式执行任务的线索。”

研究人员使用NVIDIA TITAN X GPU训练了一系列神经网络来执行与感知、程序生成和程序执行相关的任务。结果显示,机器人能够通过观察现实世界的单个演示来学习任务

336b1d38b0151efd9be94f41fe19a4d06d846d26

该方法的工作方式:一个摄像机被用来捕获场景的实时视频流,并且通过两个神经网络实时地对场景中对象的位置和关系进行推断。由此产生的知觉被输入到另一个网络中,该网络生成一个解释如何重建这些感知的计划。 最后,一个执行网络读取该计划并为机器人生成动作,同时考虑到当前场景的状态,以确保对外部干扰的稳健性。

一旦机器人得到一个任务,它就会生成一个人类可读取的关于重新执行该任务所需步骤的描述。该描述让用户能够在机器人执行之前快速识别和纠正机器人对人类演示的解释中的问题。

实现这种能力的关键是利用合成数据来训练神经网络。目前训练神经网络的方法需要大量有标记的训练数据,这对这类系统来说是一个瓶颈。通过合成数据生成,不用太费力就可以生成几乎无限的标记训练数据。

这也是第一次在机器人上使用以图像为中心的域随机化方法。域随机化(domain randomization)是一种产生大量多样性的合成数据的技术,然后愚弄感知网络将真实界的数据看作是其训练数据的另一种变体。研究人员选择以图像为中心的方式处理数据,以确保网络不依赖于摄像机或环境。

研究人员说:“如描述所示,这个感知网络适用于任何固态的现实世界物体,这些物体可以通过其3D边界立方体(bounding cuboid)来模拟。”“尽管训练过程中从未观察到真实的图像,但感知网络能够在真实图像中可靠地检测到物体的bounding cuboid,即使在有严重的遮挡的情况下也是如此。”

在他们的演示中,研究团队用几个彩色积木和一辆玩具汽车训练目标检测器。系统被教授“块”(blocks)的物理关系,不管这些“块”是堆叠在一起还是彼此相邻放置。

24c9c00eb23bb26e4f4725b0cd88cef8d6a6cc84

在上面的演示视频中,人类操作员向机器人展示了一组立方块。系统然后推断一个适当的程序并按正确的顺序将立方块正确地放置好。因为它在执行过程中会考虑当前世界的状态,因此系统能够实时地从错误中恢复过来。

研究人员将在本周于澳大利亚布里斯班举行的机器人与自动化国际会议(ICRA)上发表他们的研究论文和工作。

该团队表示,他们将继续探索使用合成训练数据进行机器人操纵,以将他们的方法扩展到其他场景。


原文发布时间为:2018-05-23

本文作者:肖琴

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:一看就会!英伟达新研究教机器人仅通过观察人类行为完成任务

相关文章
|
5月前
|
传感器 人工智能 算法
适应多形态多任务,最强开源机器人学习系统八爪鱼诞生
【6月更文挑战第6天】【八爪鱼开源机器人学习系统】由加州大学伯克利分校等机构研发,适用于多形态多任务,已在arXiv上发表。系统基于transformer,预训练于800k机器人轨迹数据集,能快速适应新环境,支持单臂、双机械臂等。特点是多形态适应、多任务处理、快速微调及开源可复现。实验显示其在9个平台有效,但仍需改进传感器处理和语言指令理解。论文链接:https://arxiv.org/pdf/2405.12213
96 1
|
3月前
|
人工智能 算法 机器人
机器人版的斯坦福小镇来了,专为具身智能研究打造
【8月更文挑战第12天】《GRUtopia:城市级具身智能仿真平台》新论文发布,介绍了一款由上海AI实验室主导的大规模3D城市模拟环境——GRUtopia。此平台包含十万级互动场景与大型语言模型驱动的NPC系统,旨在解决具身智能研究中的数据稀缺问题并提供全面的评估工具,为机器人技术的进步搭建重要桥梁。https://arxiv.org/pdf/2407.10943
216 60
|
2月前
|
人工智能 自然语言处理 机器人
谷歌将大模型集成在实体机器人中,能看、听、说执行57种任务
【9月更文挑战第17天】近年来,人工智能在多模态大模型领域取得显著进展。谷歌最新研发的Mobility VLA系统,将大模型与实体机器人结合,实现了视觉、语言和行动的融合,使机器人能理解并执行复杂多模态指令,如“我应该把这个放回哪里?”系统在真实环境测试中表现出色,但在计算资源、数据需求及伦理问题上仍面临挑战。相关论文发布于https://arxiv.org/abs/2407.07775。
61 9
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】自然语言处理(NLP)的突破,关注NLP在机器翻译、情感分析、聊天机器人等方面的最新研究成果和应用案例。
自然语言处理(NLP)作为人工智能的一个重要分支,近年来取得了显著的突破,特别在机器翻译、情感分析、聊天机器人等领域取得了显著的研究成果和广泛的应用。以下是对这些领域最新研究成果和应用案例的概述,并附带相应的代码实例。
102 1
|
4月前
|
数据采集 传感器 监控
LabVIEW在机器人研究所中的应用
LabVIEW在机器人研究所中的应用
45 0
|
6月前
|
机器学习/深度学习 机器人
用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRM
【4月更文挑战第28天】浙江大学等研究团队提出的通用机器人模型GeRM,基于Transformer和Mixture-of-Experts(MoE)架构,能有效处理多种任务。通过离线强化学习,GeRM在99个子任务中展现出优越性能,优于单一专家网络策略,且具备高训练和推理效率。尽管需更多计算资源,但GeRM为多任务机器人技术带来了新突破,有望推动领域发展。[链接:https://arxiv.org/abs/2403.13358]
59 2
|
6月前
|
人工智能 机器人 芯片
英伟达最强 AI 芯片、人形机器人模型炸场!黄仁勋放言英语将成最强大编程语言
在2024年的GTC大会上,英伟达创始人黄仁勋揭幕了新一代AI芯片Blackwell,号称是史上最强AI芯片,目标是推动AI领域的重大进步。
|
6月前
|
人工智能 机器人 Go
人类发明及研究AI机器人是在作死吗?
生化武器、X战警,当时看电影时只是感觉电影很精彩,佩服导演的脑洞大,制作团队技术精湛。但自从 alpha go、chatGPT 越来越多的AI 场景被大众认知,越来越相信总有一天这个美丽的蓝色星球未来的主人会变成机器人,人类将不复存在。
89 3
|
6月前
|
机器学习/深度学习 人工智能 边缘计算
英伟达GTC 2024大会倒计时!黄仁勋将发布机器人领域最新突破性成果
美国加利福尼亚州圣克拉拉 —— NVIDIA 今日宣布,将于 3 月 18 日至 21 日在圣何塞会议中心举办 GTC 2024 大会。预计将有超 30 万人亲临现场或线上注册参会。
|
人工智能 自然语言处理 机器人
开箱即用的对话机器人解决方案,涵盖问答型对话、任务型对话和聊天型对话等多种场景,为您提供全方位的对话交互体验。
开箱即用的对话机器人解决方案,涵盖问答型对话、任务型对话和聊天型对话等多种场景,为您提供全方位的对话交互体验。
开箱即用的对话机器人解决方案,涵盖问答型对话、任务型对话和聊天型对话等多种场景,为您提供全方位的对话交互体验。

热门文章

最新文章