懒人福音!谷歌AI整理房间、收盘子、叠罗汉,样样拿手!

简介: 谷歌AI研究院的研究人员提出了 「Transporter Network」,用全新方式实现3D理解,可以让机械臂更好更快的进行操作。

微信图片_20220112144843.png


重新排列物体(比如整理书架上的书籍,移动餐桌上的餐具,或者推一堆咖啡豆)是机械臂一项基本技能,它可以让机器人与我们多样化、非结构化的世界进行身体互动。

 

尽管对于人们来说很容易,但是对于具身机器学习系统(embodied machine learning systems)来说,完成这些任务仍然是一个开放的研究挑战,因为它需要高水平和低水平兼备的感知推理。例如,当堆叠一堆书时,你可以考虑书应该堆放在哪里、以何种顺序,同时确保书的边缘彼此对齐形成一堆整齐的书。

 

微信图片_20220112144845.png


在机器学习的许多应用领域中,模型结构中的简单差异可以表现出大不相同的泛化特性。因此,人们可能会问,是否有某些深层网络结构支持重新排列问题的简单底层元素。

 

例如,卷积结构在计算机视觉中很常见,因为它具有平移不变性,即使图像发生移动也会产生相同的响应,而Transformer结构在语言处理中很常见,因为它们利用自注意力来捕捉长距离的上下文相关性。在机器人技术应用中,一个常见的结构是在学习模型中使用以对象为中心的表示,例如姿势、关键点或对象描述符( object descriptors ),但是这些表示需要额外的训练数据(通常是手动注释) ,并且很难描述复杂的场景,例如变形物(例如 playdough)、液体(蜂蜜)或成堆的东西(剁洋葱)。

 

最近,谷歌AI的研究人员提出了 Transporter Network,这是一个用于学习基于视觉的重排任务的简单模型结构。

 

Transporter Network 使用一种新颖的方法来实现3D 空间理解,避免了依赖于以对象为中心的表示,使得它们对基于视觉的操作更加通用,但是比基准的端到端的替代方法更有效率。因此,它适合快速和实用的训练真正的机器人。同时研究人员还发布了一个与 Ravens 一起的 Transporter Nets 的开源实现,这是基于十项视觉的操作任务的新的模拟基准套件。

 

Transporter Network:为机器操作重新排列视觉世界


Transporter Networks 背后的关键思想是:人们可以将重新排列问题表述为学习如何移动一块三维空间。

 

3D 空间并不依赖于对象的明确定义(这一定会在捕捉所有边缘情况方面遇到困难) ,而是对可以作为被重新排列的原子单元(atomic units)的更广泛的定义,它可以广泛地包含一个对象、一个对象的一部分或多个对象等。

 

Transporter Nets 通过捕捉3D视觉世界的深层表征来利用这种结构,然后将其部分覆盖在自身上,以想象各种可能的3D空间重排。然后,它选择在训练过程中看到的最匹配的重新排列方式(如来自专家演示的结果) ,并使用它们来参数化机器人的动作。

 

这个方式允许 Transporter Nets 泛化到看不见的对象,并使它们能够更好地利用数据中的几何对称性,以便它们能够外推到新的场景配置当中去。Transporter Nets 适用于机器人操作的各种各样的重新排列任务,扩展了早期的模型,比如基于启示(affordance-based)的操作和 TossingBot,它们只关注抓取和抛掷。

 

QQ图片20220112144720.png

点击查看原文链接

Transporter Nets 捕捉了视觉世界的深层表征,然后将其部分覆盖在自身上,想象各种可能的3D空间重组,以找到最好的一个,并通知机器人的行动。


Ravens Benchmark


为了在一致的环境中评估 Transporter Nets 的性能,以便与基线和消融进行公平的比较,谷歌研究人员开发了 Ravens,这是一个由10个基于视觉的重排任务组成的基准测试套件。

 

Ravens 提供了一个内置随机oracle的 Gym API 来评估模仿学习方法的样本效率。Ravens 避免了不能转化为实际设置的假设: 观察数据只包含 RGB-D 图像和摄像机参数; 动作是终端执行器姿态(与逆运动学转换到关节位置)。

 

对这10个任务的实验表明,Transporter Nets 比其他端到端方法的效率高出数量级的区别,并且只需100个演示就可以在许多任务上获得90% 以上的成功率,而基线方法很难用同样数量的数据进行泛化。

 

在实践中,这使得收集足够的演示成为在真实机器人上训练这些模型的一个更可行的选择。

 

微信图片_20220112144847.png


Highlights


这里给出10个例子演示,Transporter Nets 可以学习挑选和放置任务,如堆叠盘子;多模态任务,如对齐任何一个角落的一个盒子上的桌面标记,或建立一个金字塔的块。

QQ图片20220112145059.png


通过利用闭环的视觉反馈,Transporter Nets 有能力学习各种多步的连续任务,并进行适度的演示: 例如汉诺塔的移动磁盘,或组装在训练期间没有看到的新物体的成套工具等。

 

这些任务具有相当的“长视野”,这意味着为了解决任务,模型必须正确地排列许多单个选择的顺序,同时策略也倾向于学习紧急恢复行为(emergent recovery behaviors)。


微信图片_20220112144850.gif

 

关于这些结果的一个令人惊讶的事情是,除了感知之外,模型还开始学习类似于高级计划的行为。例如,要解决汉诺塔问题,模型必须选择磁盘移动的下一步,这需要基于当前可见磁盘及其位置识别状态。这些行为表明,对于所有内置的不变性,模型可以将其能力集中于学习操作中更高级的模式。

 

Transporter Nets 也可以学习使用任何由两个终端执行器定义的运动原语的任务,例如将成堆的小物体推入一个目标设置中,或者重新配置一个可变形的绳子来连接一个三边形的两个端点。这表明刚性空间位移可以作为非刚性位移的有用前提。

 

QQ图片20220112145104.png

 

结论


Transporter Nets 为基于视觉的操作学习提供了一种很有前途的方法,但也存在一定的局限性。例如,它们可能会受到噪声3D数据的影响,其次,只演示了稀疏的基于方向点的控制与运动原语,目前还不清楚如何超越空间行动空间的力量或基于扭矩的动作来扩展它们。

 

但是总的来说,目前研究人员对这个方向的工作感到兴奋,希望它能为讨论过的应用程序之外的扩展提供灵感。

 

详细讲解可以观看视频:


https://www.youtube.com/watch?v=8afHfReCfPo&feature=emb_logo


参考链接:

https://ai.googleblog.com/

相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
64 6
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
115 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
19天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
121 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
11天前
|
人工智能 自然语言处理 API
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
谷歌推出的Multimodal Live API是一个支持多模态交互、低延迟实时互动的AI接口,能够处理文本、音频和视频输入,提供自然流畅的对话体验,适用于多种应用场景。
59 3
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
|
26天前
|
机器学习/深度学习 数据中心 芯片
【AI系统】谷歌 TPU 历史发展
本文详细介绍了谷歌TPU的发展历程及其在AI领域的应用。TPU是谷歌为加速机器学习任务设计的专用集成电路,自2016年首次推出以来,经历了多次迭代升级,包括TPU v1、v2、v3、v4及Edge TPU等版本。文章分析了各代TPU的技术革新,如低精度计算、脉动阵列、专用硬件设计等,并探讨了TPU在数据中心和边缘计算中的实际应用效果,以及谷歌如何通过TPU推动移动计算体验的进步。
62 1
【AI系统】谷歌 TPU 历史发展
|
21天前
|
人工智能 自然语言处理 安全
谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
谷歌发布的Gemini 2.0标志着AI新时代的到来,被誉为“谷歌版贾维斯”。该系统在自然语言处理、图像识别及自主操控电脑等方面取得重大进展,尤其在多模态数据处理上表现出色,能更准确理解用户需求并执行复杂任务。尽管存在对AI自主操控可能带来的负面影响的担忧,谷歌强调Gemini 2.0旨在辅助而非替代人类工作,且已采取多项措施保障其安全性和可靠性。
26 5
|
25天前
|
机器学习/深度学习 人工智能 芯片
【AI系统】谷歌 TPU v3 POD 形态
TPU v3 是 TPU v2 的增强版,主要改进包括:MXU 数量翻倍至 4 个,时钟频率提升 30%,内存带宽扩大 30%,容量翻倍,芯片间带宽增加 30%,可连接节点数增至 4 倍。TPU v3 通过采用水冷系统,不仅提高了功率,还优化了温度管理,显著提升了计算能力和能效。TPU v3 Pod 由 1024 个 TPU v3 组成,算力达 100 PFLOPS,适用于大规模神经网络训练。
33 2
|
26天前
|
机器学习/深度学习 缓存 芯片
【AI系统】谷歌 TPU v1-脉动阵列
本文详细分析了谷歌TPU v1的架构与设计,重点介绍了其核心组件如DDR3 DRAM、矩阵乘法单元(MXU)、累加器及控制指令单元,特别是MXU中脉动阵列的工作机制。通过对比TPU v1与CPU、GPU在服务器环境中的表现,展示了TPU v1在提升神经网络计算吞吐量方面的显著优势,尤其是在低延迟和高能效方面。
51 3
|
25天前
|
机器学习/深度学习 人工智能 芯片
【AI系统】谷歌 TPU v4 与光路交换
TPU v4 是谷歌在 TPU v3 发布四年后推出的最新一代 AI 加速器,采用了 7nm 工艺,MXU 数量翻倍,内存容量和带宽显著提升。TPU v4 引入了 Sparse Core 以优化稀疏计算,首次采用了 3D Torus 互联方式,通过 Palomar 光路开关芯片减少系统延迟和功耗。TPU v4 Pod 实现了 1.126 Exaflops 的 BF16 峰值算力,展现了谷歌在大规模并行计算领域的突破。然而,TPU v4 也面临着系统成熟度低、拓扑僵硬和负载均衡问题等挑战。
62 0
|
25天前
|
机器学习/深度学习 存储 人工智能
【AI系统】谷歌 TPU v2 训练芯片
2017年,谷歌推出TPU v2,专为神经网络训练设计,标志着从推理转向训练的重大转变。TPU v2引入多项创新,包括Vector Memory、Vector Unit、MXU及HBM内存,以应对训练中数据并行、计算复杂度高等挑战。其高效互联技术构建了TPU v2超级计算机,显著提升大规模模型训练的效率和性能。
42 0