谷歌新论文:让机器人依靠视觉识别抓取特定物体

简介:
本文来自AI新媒体量子位(QbitAI)

近日,谷歌团队在arXiv上发布了新论文《End-to-End Learning of Semantic Grasping》,这篇文章由谷歌成员Eric Jang、Sudheendra Vijayanarasimhan、Julian Ibarz、Sergey Levine和Peter Pastor五人共同完成。

量子位选取论文中关键信息,编译整理分享给大家。

实验介绍

这篇论文首先讨论了机器人的语义抓取任务,即机器人借助单目图像抓取用户指定类别的相应物体。受视觉神经处理模型中双流假说的启发,研究人员提出了一种语义抓取框架,它允许用端对端的方式学习物体识别、分类并设计抓取路线。

 工作人员根据用户指定,将测试用的杂物分为16类


受双流假说的启发,研究人员将模型分为“腹流”和“背流”。

 背流(绿色)与腹流(紫色)源于视觉皮层的同一区域/维基百科


在这个模型中,腹流负责识别物体类别,背流同时解释正确抓取所需的几何图形关系。测试人员利用机器人自主数据采集能力获取了大量自监督数据集来训练背流,并用半监督学习中的标签传播算法训练腹流,同时佐以适当的人力监督。


 受双流假设的影响,将模型分为了腹流和背流

论文用实验方法展示了改进后的抓取系统方法。当然这不仅仅包含端对端内容,还包括用边界框检测的基线处理方法。不仅如此,还展示了用辅助数据、无语义抓取数据和无掌握操作以及语义标记图像共同训练的模型,这可能会大大提高语义抓取性能。

 实验所用的机器人手臂,具有两只手指和单目图像相机

实验结果

在本次实验中,通过让机器人在不同类别的物体中,抓取随机指定的五个物体来评估机器人的语义抓取能力。每次实验重复10次,抓取的物体包含一组30个训练对象和30个未经测试对象。研究人员通过基线比较证明各种架构在决策语义抓取模型中的作用。

 对比实验结果统计表

本实验的结果可总结为如下6点:

1)端对端的语义抓取优于传统的检测分类方法

2)双流语义分解预测优于单流模型

3)分离架构的理解能力胜过双支路架构

4)9层含attention的CNN表现胜过16层无attention的CNN

5)辅助语义数据能够增强双流架构的分类表现

6)反映物体分布的辅助语义数据提高了分类抓取的准确性

最后,附上论文地址:

https://arxiv.org/abs/1707.01932

【完】

本文作者:安妮
原文发布时间:2017-07-10 
相关文章
|
2月前
|
人工智能 自然语言处理 机器人
谷歌将大模型集成在实体机器人中,能看、听、说执行57种任务
【9月更文挑战第17天】近年来,人工智能在多模态大模型领域取得显著进展。谷歌最新研发的Mobility VLA系统,将大模型与实体机器人结合,实现了视觉、语言和行动的融合,使机器人能理解并执行复杂多模态指令,如“我应该把这个放回哪里?”系统在真实环境测试中表现出色,但在计算资源、数据需求及伦理问题上仍面临挑战。相关论文发布于https://arxiv.org/abs/2407.07775。
63 9
|
4月前
|
Web App开发 机器人
小白一学就会的 小红书全自动写文发文机器人-抓取爆款笔记(一)
小白一学就会的 小红书全自动写文发文机器人-抓取爆款笔记(一)
143 4
|
6月前
|
机器学习/深度学习 算法 机器人
论文介绍:使用仿真和领域适应提高深度机器人抓取效率
【5月更文挑战第11天】研究人员提出结合仿真数据和领域适应技术提升深度机器人抓取效率。通过在仿真环境中生成多样化抓取数据并使用GraspGAN和DANN进行像素级和特征级适应,使模型能在现实世界中更好地泛化。实验表明,这种方法能减少现实数据需求,同时保持高抓取性能。尽管面临物理差异和成功率挑战,该研究为机器人抓取技术的进步提供了新途径。论文链接:https://arxiv.org/abs/1709.07857
76 5
|
6月前
|
传感器 数据采集 人工智能
LabVIEW开发微控制器控制的并行机器人的实时视觉图像处理
LabVIEW开发微控制器控制的并行机器人的实时视觉图像处理
57 1
|
6月前
|
传感器 机器学习/深度学习 算法
植保机器人视觉传感器与图像采集
植保机器人视觉传感器与图像采集
88 3
|
6月前
|
传感器 机器学习/深度学习 算法
植保机器人作物识别与监测
植保机器人作物识别与监测
85 2
|
6月前
|
机器学习/深度学习 传感器 算法
植保机器人目标检测与识别
植保机器人目标检测与识别
50 1
|
6月前
|
传感器 机器学习/深度学习 算法
植保机器人环境感知视觉感知
植保机器人环境感知视觉感知
42 2
|
6月前
|
存储 人工智能 机器人
通过 OpenAI 和 Langchain 构建 Arxiv 论文摘要 Twitter 机器人
通过 OpenAI 和 Langchain 构建 Arxiv 论文摘要 Twitter 机器人
153 0
|
机器人 语音技术 Android开发
App Inventor 2 语音交互机器人Robot,使用讯飞语音识别引擎
App Inventor 2 语音识别及交互App。识别语言指令并控制机器人运动,主要用到语音识别器及文本朗读器组件,语音识别相关开发最佳入门。代码逻辑简单,App交互性及趣味性非常强~
247 0