给AI一个洗衣机,TA会做点啥?斯坦福+FB研究了972种形状,只为教机器人开门-阿里云开发者社区

开发者社区> -技术小助手-> 正文

给AI一个洗衣机,TA会做点啥?斯坦福+FB研究了972种形状,只为教机器人开门

简介: 给AI一个洗衣机,TA会做点啥?斯坦福+FB研究了972种形状,只为教机器人开门
+关注继续查看

让你打开一个滚筒洗衣机的门,你会怎么做?

这是人类在日常生活中与周围物体互动的简单场景之一,对人类来说,拉开一个洗衣机门是自然而然的行为。

人类能毫不费力地理解对每个物体可以采取什么举动,能够理解力的相互作用可能发生在哪里,以及我们需要做一个什么动作才能达到我们的目的。

给AI一个洗衣机呢?它会知道拉这个动作可以将这个洗衣机打开吗?

斯坦福和Facebook就专门成立了一个团队研究这个问题,在他们最近的一篇论文中,他们提取了对物体中可活动的部件进行推拉等行为的相关信息,并使用这些信息来训练一个人工智能模型。

他们开发的这个叫Where2Act的模型,通过对6种原始交互方法,涵盖972种形状,超过15种常见的室内物体类别进行了学习后,成功地学会了预测对新对象的可能有效的动作,甚至对没有学习过的物体也能准确判断。

论文链接:
https://arxiv.org/pdf/2101.02692.pdf

每个像素都要学习

要让AI学会和现实交互,首先要让AI理解什么是交互。

研究人员认为,与物体的长期交互就是短期“原子(点)”交互的序列,比如推和拉,就是在一个点上进行作用的序列。

这就简化了AI的工作范围,给定一个物体,AI可以先假设进行一个可能合理短期互动,这种交互可以被进一步分解为“在哪里”交互和“如何”交互。

例如,AI要判断拉动柜子上的哪个把手,以及应该平行于把手拉动还是垂直于把手拉动等。

确定“在哪里”交互就是要找到那个短期交互的“原子(点)”。

为此,研究人员开发了一个模型,当给定一个物体的深度或彩色图像时,对于每个像素,模型都通过无数次的尝试来学习,将达到效果的标记为成功。

"我们的方法允许AI通过与各种对象进行交互,并记录其操作的结果来学习这些结果——将那些导致理想状态变化的动作标记为成功,"研究人员表示。

通过学习,最后模型就可以对每个像素给出一个效果评分,以及动作建议和成功的可能性。

数据集也是模拟生成

尽管AI要学习的都是人类常见的动作,但正是因为太常见、太普通,类似的视频数据集很少。

为此,研究人员使用SAPIEN创建了一个模拟交互式环境,一个随机3D关节对象被选择并放置在场景的中心,而机器人手爪可以通过在指定位置和物体进行交互。

通过不断的交互,从而让机器人学习到什么如何交互才能产生成功的效果。

研究人员还采用混合数据采样策略,首先对大量离线随机交互轨迹进行采样以引导学习,然后基于网络预测自适应地对在线交互数据点进行采样以提高学习效率。

最后,训练好的AI终于学会了与现实世界交互,比如一个简单的开门和关门,在AI的理解中,就是:
开门=在高曲率区域(如门得边沿或者手柄)施加一个拉力大概率可以打开门
关门=在可推动的门的所有平面像素点施加一个拉力都可以关上门

费尽力气,只是开了个门?

就像让AI识别猫和狗一样,往往人类觉得轻而易举的事,AI反而觉得很难。

也正如图像识别一样,AI也是依靠日益提升的计算力通过对每个像素进行分析开始慢慢学会了和现实交互。

包括此前加州大学伯克利分校的研究人员开发的高效机器人操作框架(FERM),也是通过"基于像素"的强化学习来让机械手臂学会如何和现实世界交互。

研究人员表示,只通过10次演示,相当于15到50分钟的实际训练时间,一只机械臂就可以学会接触、挑选、移动和拉大型物体,或者翻转开关。

尽管现在AI在和现实交互的理解方面还只能做到移动物体、开关门等简单操作,但是这至少是AI向现实世界迈进的第一步。

未来是否能出现AGI,正是要看这些基础的研究能慢慢做到什么程度。

相关报道:
https://venturebeat.com/2020/12/16/new-framework-can-train-a-robotic-arm-on-6-grasping-tasks-in-less-than-an-hour/
https://venturebeat.com/2021/01/08/stanford-researchers-propose-ai-that-figures-out-how-to-use-real-world-objects/

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
「全球AI人才追踪调查」:美国的顶级AI研究者29%来自中国,驱逐人才无异于自绝后路
中国,已经成为全球人工智能研究者的最大输出源国家。美国人工智能领域的顶尖研究者中,有近三分之一来自中国。在麦克罗波洛智库分析师马特 · 希恩看来,美国政府近期一系列面向国际研究者的「驱逐政策」,最终削弱的将是美国自身的国际竞争力。
5 0
从英伟达A100 GPU说起,浅谈细粒度结构化稀疏
稀疏化是神经网络轻量化的重要手段,其中细粒度剪枝和结构化稀疏各有利弊。如何取二者之所长,实现更强大的模型压缩能力和端侧加速能力呢?本文将为大家介绍「细粒度结构化稀疏」。
5 0
靠谱,这是我见过最好的编程指南了!赶快收藏吧,错过大学就白上了!
靠谱,这是我见过最好的编程指南了!赶快收藏吧,错过大学就白上了!
2 0
【leetcode刷题】32.二进制中1的个数——Java版
⭐欢迎订阅《leetcode》专栏,每日一题,每天进步⭐ 把一个整数减去1,再和原整数做与运算,会把该整数最右边一个1变成0.那么一个整数的二进制有多少个1,就可以进行多少次这样的操作。 ——leetcode此题热评
3 0
摩尔线程正式加入龙蜥社区,国内开源生态再添芯力量
基于龙蜥社区的开放平台,摩尔线程可以为多个重点行业构建安全智能的行业解决方案。
5 0
ML训练成本降90%,被万家公司使用:进入中国的Amazon SageMaker你也能免费试试
那个为上万家公司提供机器学习服务的强大工具 Amazon SageMaker 终于进入中国了。
3 0
百度飞桨开发者已超190万,国内首个量子机器学习开发工具「量桨」面世
百度飞桨深度学习平台又有了大幅度的升级:飞桨企业版正式出炉,还有量子机器学习开发工具「量桨」发布。飞桨已成为国内首个,也是唯一支持量子机器学习的深度学习平台。
4 0
《面向云游戏的IaaS vGPU技术服务指南》重磅来袭!快来围观大佬经验之谈!
本文作者:阿里云-全球技术服务部-技术服务专家——李斯达(花名木仔,网名StatLee) 全文15127字,精读时长15分钟,如需转载,请联系笔者。
14 0
微信开发系列之二 - 在微信公众号里开发一个自动应答的图灵机器人
微信开发系列之二 - 在微信公众号里开发一个自动应答的图灵机器人
3 0
Vim,人类史上最好用的文本编辑器!从此以后你就是一个善良的极客!(1)
Vim,人类史上最好用的文本编辑器!从此以后你就是一个善良的极客!
2 0
1457
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载