机器人真·涨姿势了:比肩人类抓取能力,上海交大、非夕科技联合提出全新方法AnyGrasp

简介: 在近日召开的 ICRA (国际机器人与自动化会议)大会上,上海交大-非夕科技联合实验室展示了最新研究成果「AnyGrasp」(https://graspnet.net/anygrasp.html),第一次实现机器人对于任意场景的任意物体的通用高速抓取,在机械臂硬件构型、相机不作限制的情况下,让机器人拥有比肩人类抓取能力的可能。

基于视觉的机器人通用抓取,一直是学界和业界的关注重点,也是机器人智能领域亟待解决的问题之一。


针对物体抓取,业界通常需要先对物体进行三维建模,然后训练网络,在实际中先进行位姿检测,再进行抓取


image.png

此前对于简单场景简单物体的抓取,学术界也有研究涉猎。但是机器人日常面对的都是大量堆叠的、复杂的、没有见过的物体,同时场景呈现极度的杂乱性,还没有相关研究可直接面对任意复杂场景进行抓取。


我们能否期待一个通用算法,能像人类一样具备面向任意场景、任意物体的抓取能力?


譬如,当杯子被敲碎,每个碎片都是未曾出现过的,机器人可以将这些从未见过、更未被建模的碎片一片片捡起来:


image.png

同时,它还要能适应更多的不确定性。比如一堆来自新疆戈壁滩的玛瑙石,细小且局部复杂:


image.png

再比如在日常场景经常会遇到的会随机形变的柔性袋装零食或者布娃娃:


image.png

以及各种玩具、五金件、日常用品:


image.png

甚至人造的形状复杂的对抗样本 [1]


image.png

更极端的,如果光照情况不好,同时有探照灯的干扰,桌面还会变化,机器人能不能稳定地抓取?

image.png


在这些方面,尚且没有研究能达到稳定的抓取效果,甚至没有前期可论证的 DEMO。此前来自 UCB 的研究团队发表于《Science Robotics》的成果


DexNet4.0 [2],也只局限于低自由度的垂直抓取,同时需要搭配价值数万元的工业级高精度深度相机,计算一次耗时数十秒。


近日,上海交大-非夕科技联合实验室在 ICRA 大会上展示了最新研究成果


「AnyGrasp」,基于二指夹爪的通用物体抓取。这是第一次机器人对于任意场景的任意物体,有了比肩人类抓取的能力,无需物体 CAD 模型与检测的过程,对硬件构型、相机也没有限制。


仅需要一台 1500 元的 RealSense 深度相机,AnyGrasp 即可在数十毫秒的时间内,得到其观测视野内整个场景的数千个抓取姿态,且均为六自由度,以及一个额外的宽度预测。在五小时复杂堆叠场景的抓取中,单臂 MPPH(Mean Pick Per Hour, 单位小时内平均抓取次数)可达到 850+,为 DexNet4.0 的三倍多,这是该指标第一次在复杂场景抓取上接近人类水平(900-1200 MPPH)。

以下为搭载 AnyGrasp 的最新成果展示,在六轴机械臂上:


image.png

                                                                                                 点击查看原视频

在七轴机械臂上:

image.png

                                                                                                 点击查看原视频


在ICRA2021的展区内,搭载AnyGrasp的机器人更是走出了实验室,在现场直接对没见过的物体进行抓取,同时与参会观众进行互动,由现场观众自由发挥,用随身的物品、捏的橡皮泥对它进行考验,机器人都能进行稳定的抓取。


image.png


研究团队介绍,目前 AnyGrasp 有以下优势:

  • 普适性:对未曾见过、复杂场景中的任意物体均可抓取,包括刚体、可变形物体、无纹理的物体等;
  • 高速度:数十毫秒内即可生成数千个稳定的抓取姿态;
  • 稳定性:对背景、光照、桌面角度等不敏感;
  • 低成本:无需高精度工业相机,千元价位的深度相机(如 Intel RealSense)即可胜任。


技术层面上,AnyGrasp 的实现是基于研究团队提出的一个全新方法论,即真实感知与几何分析的孪生联结。真实感知与密集几何标注原本是矛盾的两方面,因为真实感知往往需要人工标注,而几何分析需依赖仿真环境,此前未曾有团队在这方面进行过尝试。


在 CVPR 2020 会议上,上海交大团队提出了 GraspNet-1Billion 数据集 [3],其中包含数万张单目摄像头采集的真实场景的 RGBD 图像,每张图片中包含由基于物理受力分析得到的数十万个抓取点,数据集中总共包含超过十亿有效抓取姿态。为了达到真实感知与几何分析的孪生联结目标,团队设计了一个半自动化的数据收集与标注方法,使得大规模地生成包含真实视觉感知与物理分析标签的数据成为可能。该数据集及相关代码目前已经开源。


基于 GraspNet-1Billion 数据集,团队开发了一套新的可抓取性(graspness)嵌入端到端三维神经网络结构,在单目点云上直接预测整个场景可行的抓取姿态,根据采样密度,抓取姿态可从数千到数万不等,整个过程仅需数十毫秒。基于全场景的密集的抓取姿态,后续任务可根据目标及运动约束选择合适的抓取位姿。


image.png


目前,AnyGrasp 还在持续开发与迭代中,后续研究团队计划构建抓取算法数据社区 ,并开放抓取任务在线测评。相关的学术数据集、SDK、学术算法库将在 www.graspnet.net 上开放。

相关文章
|
7月前
|
人工智能 关系型数据库 分布式数据库
沉浸式学习PostgreSQL|PolarDB 9: AI大模型+向量数据库, 提升AI通用机器人在专业领域的精准度, 完美诠释柏拉图提出的“知识是回忆而不是知觉”
越来越多的企业和个人希望能够利用LLM和生成式人工智能来构建专注于其特定领域的具备AI能力的产品。目前,大语言模型在处理通用问题方面表现较好,但由于训练语料和大模型的生成限制,对于垂直专业领域,则会存在知识深度和时效性不足的问题。在信息时代,由于企业的知识库更新频率越来越高,并且企业所拥有的垂直领域知识库(例如文档、图像、音视频等)往往是未公开或不可公开的。因此,对于企业而言,如果想在大语言模型的基础上构建属于特定垂直领域的AI产品,就需要不断将自身的知识库输入到大语言模型中进行训练。
865 0
|
4月前
|
传感器 人工智能 监控
农业科技和机器人结合
农业科技和机器人结合
42 1
|
4月前
|
传感器 机器学习/深度学习 算法
利用STM32实现自平衡机器人功能与方法
利用STM32实现自平衡机器人功能与方法
35 0
|
6月前
|
传感器 人工智能 算法
外骨骼机器人混战:程天科技做“深”,傅利叶智能做“广”
外骨骼机器人商用范围愈加广泛,产业发展不断提速。
48 0
|
10月前
|
机器人 Java
[java]飞书机器人签名校验GenSign方法
[java]飞书机器人签名校验GenSign方法
185 0
|
11月前
|
自动驾驶 安全 算法
【年终特辑】看见科技创新力量 洞见时代创业精神—智能制造—坎德拉:分体式机器人展示中国创新力量
【年终特辑】看见科技创新力量 洞见时代创业精神—智能制造—坎德拉:分体式机器人展示中国创新力量
169 0
|
11月前
|
机器学习/深度学习 存储 人工智能
【年终特辑】看见科技创新力量 洞见时代创业精神—教育—物灵科技:用无屏触控智能AI机器人技术助力家庭阅读与教育
【年终特辑】看见科技创新力量 洞见时代创业精神—教育—物灵科技:用无屏触控智能AI机器人技术助力家庭阅读与教育
274 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
与生成模型相比,为何机器人研究还在用几年前的老方法?
与生成模型相比,为何机器人研究还在用几年前的老方法?
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
与生成模型相比,为何机器人研究还在用几年前的老方法?(2)
与生成模型相比,为何机器人研究还在用几年前的老方法?
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
与生成模型相比,为何机器人研究还在用几年前的老方法?(1)
与生成模型相比,为何机器人研究还在用几年前的老方法?

热门文章

最新文章