为什么说具身智能是通往AGI值得探索的方向?上海交大教授卢策吾深度解读(1)

简介: 为什么说具身智能是通往AGI值得探索的方向?上海交大教授卢策吾深度解读

为什么说具身智能是通往AGI值得探索的方向?上海交大教授卢策吾深度解读

机器之心 2023-01-21 11:50 发表于黑龙江

机器之心报道编辑:张倩

1 月 11 日,上海交通大学教授卢策吾在机器之心 AI 科技年会上,发表了主题演讲 ——《具身智能》。 在演讲中,他主要介绍了具身智能概况、他们团队提出的 PIE 方案、具身智能与通用人工智能以及具身智能的脑认知。

以下为卢策吾在机器之心 AI 科技年会上的演讲内容,机器之心进行了不改变原意的编辑、整理:

大家好,我是来自上海交通大学的卢策吾,非常荣幸能够跟大家分享一些关于具身智能 (Embodied Intelligences) 的研究。

首先,具身智能是智能科学的一个基础问题。过去 5.4 亿年来,地球上所有的生物都是通过身体逐步产生智能的,所以具身智能是具有身体体验的智能,这点会非常本质地去推进关于智能的问题。

1950 年,图灵在他的论文 ——《Computing Machinery and Intelligence》[1] 中首次提出了具身智能的概念。在之后的几十年里,大家都觉得这是一个很重要的概念,但具身智能并没有取得很大的进展,因为当时的技术还不足以支撑其发展。到了今天,多学科的技术已经改变了这一局面,可以让我们去研究具身智能的一些本质问题。

我这次主要讲四个内容:「具身智能简介」、我们自己提出的「PIE 方案」、「具身智能与通用人工智能」以及「具身智能的脑认知」。

具身智能简介

从认知的角度来看,我们人类是第一人称(而非第三人称)视角的智能。我们用一个 1963 年的实验来讲解这个问题。下图有两只猫,一直猫被绑起来,只能看这个世界;另一只猫可以主动去走。被动的猫是一种旁观的智能,而主动的猫是具身的智能。到最后,这只旁观的猫失去了行走能力。

前者有点像我们现在给机器喂很多数据,属于第三人称的智能,比如我们给机器很多盒子,并且标注这就是盒子,然后机器就会觉得这种 pattern 是盒子。但其实,人类是怎么知道这是盒子的?是通过体验才知道的。

目前,具身智能已经成为国际学术前沿研究方向,包括美国国家科学基金会在内的机构都在推动具身智能的发展,各大国际学术会议也开始越来越多地关注具身智能相关工作,美国顶尖高校已经开始形成具身智能研究社区。举例来说,今年的 IROS(机器人领域顶级学术会议)将具身智能作为一个很重要的主题提了出来,谷歌公司比较有名的 Everyday Robot 已经能够将机器人和对话模型结合到一起(参见《谷歌让机器人充当大语言模型的手和眼,一个任务拆解成 16 个动作一气呵成》),形成一个更大的闭环。

我刚才提到,为什么具身智能提出了几十年了,直到最近几年才比较热门。这是因为它涉及到众多的学科,当时很多学科都不是很成熟。比如在视觉上,你看都看不清楚,要怎么去做?此外,当时的硬件、软件还有各种触觉传感器也不够成熟。而到了今天,各个学科都可以聚到一起来做这么一个宏大的系统。在这样的情况下,我们才有可能推动这个方向进一步发展。


在智能领域,我们有三个主义 —— 行为主义、符号主义和连接主义。我认为这三个主义在具身智能领域应该会有一个很好的结合点。因为,在具身智能中,我们首先需要掌握具身常识。这个环节可以用大模型来做,也可以用 base 来做,或者二者结合来做。这里面就涉及两种主义 —— 符号主义和连接主义。然后,这个具身智能体肯定需要不停地进化,就涉及行为主义。所以这三者会汇聚到一点来推进具身智能的发展。


其实,具身智能是一个很好的试验场。它涉及到跟自然语言、认知科学、计算机图形学、材料学、物理学等学科的融合。我认为,这些融合可能会催生一个新的结构体系,就像冯・诺依曼体系,在整个的计算机上跑。它整个计算的流是这种概念流的计算。当然,我们希望看到它在机器人上是通用的。它背后其实是一种智能,只是通过机器人这样一个形态去体现。


下面我介绍一下我们的工作,就是 PIE 方案,请大家批评指正。

PIE 方案

具身智能有哪些模块是一定跑不掉的?我们认为有 3 个模块 —— 具身感知(Perception)、具身想象(Imagination)和具身执行(Execution)。


为什么呢?因为我们看到这个事件,我们总是会想象它长什么样子,我们应该怎么去做,虽然很多时候这种想象不是很显式的,是下意识的。然后,我们会去执行,就会落实到实体上面。

下图是一个 Real-to-Sim、Sim-to-Real 的过程,对应着具身感知、具身想象和具身执行。下面一行是我们的几个工作:


具身感知

1、全概念感知

首先,我们具身智能的感知应该是什么样的?跟之前计算机视觉的感知有什么不一样?我们觉得它应该是一个全感知。全感知的意思就是,我们能够知道我们所操作的这个世界模型(world model)的各种各样的知识,跟操作相关的知识,包括外形、结构、语义,以及 48 个真实世界关节体类别等等。


举个电饭锅的例子。我们检测到这个电饭锅就结束了吗?其实不是,我们要知道它怎么拧动、怎么开的。我们能够通过视觉,在没有接触的时候就大概知道它是个什么样子。此外,我们还有新的任务,比如还要标注它的语义、知道它的外形以及猜它的物理属性。猜物理属性是很有可能的,因为它是能猜出来的。猜得对不对倒没关系,猜个大概就行。比如人类看到一个桶,我们也会估计它有多重,你能估计出大概范围,然后在这个范围内去微调与它相关的力或交互,我们下个工作会讲这个事情。


我们现在来检验我们的检测(感知)对不对。除了检测物体的某个部件(比如箱子的轴)在哪里之外,我们还需要检测能否在它上面完整地完成任务。比如我检测一个箱子,检测完了之后我能够在仿真里面顺利地打开它,证明我的检测(感知)是对的。


这是视觉部分我们检测的一些结果:


当然,我们也做了一个数据集:AKB-48。


接下来我们来讲讲具身交互感知。

2、具身交互感知

具身交互感知是什么呢?我们作交互的时候,其实除了视觉,还有触觉,还有各种内容交互的感觉。这些感觉其实也会带来新的感知。就像我们刚才讲的提一个桶或者打开微波炉,我们其实没办法从视觉上知道大概需要多少牛的力,所以其实很多时候我们对这个模型的估计是通过交互来获得的。


我们会通过一个 initial environment 来做这样的事情。比如说,我们给它一个盒子,或者说一个模型,这个模型会产生一个 URDF,就是一个机器人的描述模型。这个模型不是很准,就像人类去感知的时候。但是你可以去「拉」它,「拉」完之后你就会通过你的仿真,给出下一个模型是什么样子。接下来你还会进行点云的跟踪(点对点的跟踪)。跟踪完之后,这两个点云按道理说应该是一致的。如果不一致就有两个原因,第一是模型不对,第二是仿真的参数不对。当然,仿真参数不对最大的问题还是在于模型不对。我们就把这两个点云一减,计算它们的 loss,减完之后去优化它们的 loss,最小化这个 loss 就相当于逼着它去做对这个模型。


这里面用到了牛顿定律和数据驱动的结合。就像我刚才讲的,我们的视觉可能会有一些问题,包括估计物理参数的时候,但是这些物理参数是被牛顿定律所支配的,只是我们不知道这些参数。比如说我们推一个木块,它一定是符合牛顿定律的,但它的摩擦系数等参数我们是不知道的,只能靠肉眼估。估得不准没关系,我们在交互过程中会估得更准,这和人类激励是一致的。

接下来我们看看 real world experiment 效果怎么样。在这个实验里,我们先让机器人去扫描一个微波炉,扫描完之后让它去拉开微波炉的门。因为这个微波炉它之前没有见过,所以它的轴估计得不是很准,拉的动作也不太好。但是没关系,它已经迅速地学会了拉开微波炉所需的参数,所以后面就做得很好了。


接下来看这个学会之后的视频:


这个时候,机器人已经学会拉开微波炉的门,学会之后就可以在上面加技能了,比如把东西塞进去。这个项目是开源的,大家可以关注。

具身想象

感知的东西都有了之后,你肯定会在脑子里想我该怎么去做,这是一个具身想象的过程。


我们做了一个名为 RFUniverse 的仿真引擎,这个仿真引擎支持 7 种物体(比如关节可移动的、柔性的、透明的、流体的……)、87 种原子操作的仿真。这些操作相当于我们把物体录入之后,我们在仿真引擎里想象它大概应该怎么做。跟以往不同的一点是,我们已经有了这些物体的知识。它也支持强化学习、VR。这个项目也已经开源。




我们还成功探索了从看视频到机器人的行为。也就是说,我给你看 50 个场景,看完之后你就会在你的仿真引擎里去尝试类似的事情,尝试完之后再迁移到真机上。这项研究发表在 CoRL 2022 上。

另外,这套思路还可以放到人体的康复上面,去做医疗看护机器人。这项工作是我们康奈尔大学合作完成的,在 IROS 2022 上获得了最佳论文之一。


具身执行

接下来是一个更难的事情:我们想象完了之后怎么去做?大家觉得想完之后去做是不是挺简单的?其实不是,因为你的想象和真实操作是有差距的。而且我们又希望这个操作能自适应于各种事件的变化,这个难度就很大。

我们希望建一个元操作库,这样我们就能调用各种元操作来解决这个问题。在《Mother of all Manipulations:Grasping》这项工作中,我们从 Grasping 做起。给定一个点云,这个点云对应的动作会去抓取,你怎么去产生那些 grasp pose?


也就是说,这其实要探索的是从 x 到 y 的变换。



相关文章
|
6月前
|
人工智能 自然语言处理 测试技术
从高考到奥林匹克竞技场:大模型与人类智能的终极较量
【6月更文挑战第29天】上海交大等团队的OlympicArena测试评估了大模型在多学科认知推理任务上的能力,涵盖7个学科11,163个问题。最先进模型GPT-4的整体准确率为39.97%,数学和物理仅28.67%和29.71%,显示在复杂推理任务上的局限。尽管如此,模型在部分推理步骤中展现出潜力,但在空间推理和抽象符号理解上仍有挑战。[论文链接](https://arxiv.org/pdf/2406.12753)
41 1
|
人工智能 自动驾驶 机器人
这场WAIC高端闭门会,我们将深度探讨大模型与智能驾驶如何碰撞
这场WAIC高端闭门会,我们将深度探讨大模型与智能驾驶如何碰撞
136 1
这场WAIC高端闭门会,我们将深度探讨大模型与智能驾驶如何碰撞
|
机器学习/深度学习 人工智能 编解码
阿里云AI技术:让老照片焕发新生,让你仿佛穿越过去
本文分享了使用阿里云的PAI-DSW机器学习平台对老照片进行修复和上色的体验心得。特别强调了上色算法和图像超分算法的应用,这两个算法使得原本的黑白、模糊的老照片获得了生动的色彩和清晰的细节。通过SDWebUI的直观操作界面,整个修复和上色过程变得既简单又高效,为珍藏历史和回忆的人们提供了一个宝贵的工具。
阿里云AI技术:让老照片焕发新生,让你仿佛穿越过去
|
人工智能 算法 机器人
为什么说具身智能是通往AGI值得探索的方向?上海交大教授卢策吾深度解读(2)
为什么说具身智能是通往AGI值得探索的方向?上海交大教授卢策吾深度解读
336 0
|
机器学习/深度学习 人工智能 运维
|
机器学习/深度学习 人工智能 安全
如何去推开与AI共生的大门
AI 更像是一个在努力成长却不够成熟的孩子,它前进的步伐,取决于“原生家庭”指引的方向,也有无数的人在为AI的向阳而生而奋斗着。
750 0
如何去推开与AI共生的大门
|
机器学习/深度学习 人工智能 自动驾驶
轮胎后的大脑--斯坦福大学AI研究员正在教会汽车思考
Drive.ai将深度学习的人工智能算法应用都无人驾驶汽车领域,使未来汽车具有与人类/其他车辆无障碍沟通、自动识别并快速响应路况的能力。
3421 0
|
人工智能 机器人
不造AI杀人武器当然好,但牛津学者觉得马斯克们忽略了重点
牛津大学的学者Mariarosaria Taddeo (简称玛利亚) 说,他们忽略了一个重点。而且,把万众目光集中在“AI杀手”上,人们就更难注意到那个重点了。
1223 0
|
人工智能 C++
全球首场神经影像人机对决:AI战胜25位医界“最强大脑”!
昨天,备受关注的全球首场神经影像人机大战在国家会议中心举行,在脑肿瘤和脑血管影像判读比赛中,医疗AI最终以高出20%的准确率战胜25名人类医生。如果这款AI产品投入实用,核磁检查的出片速度将从现在的几天缩短至几分钟。
1845 0