谷歌新论文:教机器人预测3D结构、然后抓取物体

简介:
本文来自AI新媒体量子位(QbitAI)

最近,Google的一组科研人员完成了一篇新论文:基于几何感知表征的抓取交互学习(Learning Grasping Interaction with Geometry-aware Representations),论文提出了一种几何感知编码器-解码器网络,利用几何感知表征来学习实现抓取交互。

这篇论文的作者包括:密歇根大学的前谷歌大脑实习生Xinchen Yan,谷歌大脑的Jasmine Hsu、James Davidson,Google X的Mohi Khansari、Yunfei Bai、以及谷歌、谷歌研究院的Arkanath Pathak、Abhinav Gupta。

具体效果如何呢?作者还提供了一个关于实验结果的简短演示视频:


以下,是论文主要内容的介绍:

论文摘要

学习与环境中的物体进行交互是一个涉及到感知、运动规划和控制的根本性AI问题。然而,由于存在高维状态空间、很难创建大规模数据集和很难关注到物体外观的多类变化信息(如几何结构、材质、纹理和照射度等),因此学习此类交互表征十分具有挑战性。

我们论证了物体3D几何结构是抓取交互的研究核心,并提出一种称为几何感知学习智能体(geometry-aware learning agent)的新概念。

本文的核心思想是通过3D几何学预测来约束和规范交互学习。

具体地说,本文把几何感知智能体的学习过程分为两个步骤:首先,智能体通过3D形态生成模型,从2D感知输入中学习构建当前场景的几何感知表征;然后,它通过内置的几何感知表征来学习预测抓取结果。这种几何感知表征方法利用一种新颖的无学习(learning-free)深度投影层,在几何学与交互的关联研究中起到了关键作用。

本文的主要贡献有三方面:(1)我们利用虚拟现实(VR)演示构建了一个具有丰富感知和交互标注的抓取数据集;(2)我们证明了,与基准模型相比,学习几何感知表征能得到一个鲁棒性更好的抓取结果预测效果;(3)我们也展示了这种几何感知表征学习方法在抓取规划中的优势。

实现方法

ad9b268fe46b6ffb2e2142a0fb936b287ade1fe1

 两阶段学习框架示意图

我们提出了一种两阶段的学习框架,分别执行3D形态预测和利用几何感知表征进行抓取结果预测。给定任何场景下的2D感知输入,都能生成相应的3D物体形状(如体积表征),这是本文所提出的几何感知智能体中一个非常重要的特性。更具体地说,

在本文构想中,几何感知表征可理解为:(1)一种在世界坐标系下以相机目标为中心的场景的占用网格表征方法,和(2)其对相机视角和距离具有不变性。

模型结构

7cb071a2cd851d9f48a0d2d795e791d089121cf2

 几何感知编码器-解码器网络示意图

本文所构建的几何感知编码器-解码器网络包含两个部分,分别是3D形态生成网络(生成功能)和抓取结果预测网络(预测功能)。其中,形态生成网络包含一个2D卷积形态编码器和一个3D反卷积形态解码器,再接上一个全局投影层;结果预测网络包含一个2D卷积状态编码器和一个带有额外局部形态投影层的全连接结果预测器。

实验

下图从直观层面和内在信息流两个角度简单介绍了3D形态预测的流程图。

0b731a7275ed554549f9fb5bec3cadaae0098497

 3D形态预测流程图

论文传送门:

https://arxiv.org/pdf/1708.07303.pdf

本文作者:王小新 
原文发布时间:2017-09-02
相关文章
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
PeterCat:一键创建开源项目 AI 问答机器人,自动抓取 GitHub 仓库信息、文档和 issue 等构建知识库
PeterCat 是一款开源的智能答疑机器人,能够自动抓取 GitHub 上的文档和 issue 构建知识库,提供对话式答疑服务,帮助开发者和社区维护者高效解决技术问题。
50 7
PeterCat:一键创建开源项目 AI 问答机器人,自动抓取 GitHub 仓库信息、文档和 issue 等构建知识库
|
18天前
|
机器学习/深度学习 人工智能 机器人
NeurIPS 2024:机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%
PIVOT-R是一种新型世界模型,专注于预测与任务相关的路点,以提高语言引导的机器人操作的性能和效率。该模型由路点感知世界模型(WAWM)和轻量级动作预测模块组成,辅以异步分层执行器(AHE),在SeaWave基准测试中表现优异,平均相对改进达19.45%,执行效率提高28倍。
56 26
|
4月前
|
人工智能 自然语言处理 机器人
谷歌将大模型集成在实体机器人中,能看、听、说执行57种任务
【9月更文挑战第17天】近年来,人工智能在多模态大模型领域取得显著进展。谷歌最新研发的Mobility VLA系统,将大模型与实体机器人结合,实现了视觉、语言和行动的融合,使机器人能理解并执行复杂多模态指令,如“我应该把这个放回哪里?”系统在真实环境测试中表现出色,但在计算资源、数据需求及伦理问题上仍面临挑战。相关论文发布于https://arxiv.org/abs/2407.07775。
85 9
|
6月前
|
Web App开发 机器人
小白一学就会的 小红书全自动写文发文机器人-抓取爆款笔记(一)
小白一学就会的 小红书全自动写文发文机器人-抓取爆款笔记(一)
198 4
|
8月前
|
机器学习/深度学习 算法 机器人
论文介绍:使用仿真和领域适应提高深度机器人抓取效率
【5月更文挑战第11天】研究人员提出结合仿真数据和领域适应技术提升深度机器人抓取效率。通过在仿真环境中生成多样化抓取数据并使用GraspGAN和DANN进行像素级和特征级适应,使模型能在现实世界中更好地泛化。实验表明,这种方法能减少现实数据需求,同时保持高抓取性能。尽管面临物理差异和成功率挑战,该研究为机器人抓取技术的进步提供了新途径。论文链接:https://arxiv.org/abs/1709.07857
91 5
|
8月前
|
机器学习/深度学习 机器人
LabVIEW对并行机器人结构进行建模仿真
LabVIEW对并行机器人结构进行建模仿真
56 0
|
机器学习/深度学习 传感器 编解码
路径规划算法:基于晶体结构对优化的机器人路径规划算法- 附matlab代码
路径规划算法:基于晶体结构对优化的机器人路径规划算法- 附matlab代码
|
8月前
|
存储 人工智能 机器人
通过 OpenAI 和 Langchain 构建 Arxiv 论文摘要 Twitter 机器人
通过 OpenAI 和 Langchain 构建 Arxiv 论文摘要 Twitter 机器人
170 0
|
机器学习/深度学习 机器人 计算机视觉
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类
|
2月前
|
人工智能 自然语言处理 算法
具身智能高校实训解决方案 ----从AI大模型+机器人到通用具身智能
在具身智能的发展历程中,AI 大模型的出现成为了关键的推动力量。高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将 AI 大模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台。
205 64

热门文章

最新文章