
导读:AI 与机器人是一个交叉学科体系,AI 技术对于机器人领域的发展起到重要推动作用。因为语言模型的成功,人们认为不久之后机器人控制就能全部依靠自我学习,甚至实现端到端的全自学。但波士顿动力创始人马克·雷伯特坚信未来最好的解决方案会来自不同技术方法的交叉融合。
文/本文根据2024 T-EDGE 创新大会暨钛媒体财经年会上的对话整理
围绕“AI 与机器人” 发展的话题,人工智能研究所执行董事、波士顿动力公司(Boston Dynamics)创始人马克·雷伯特(Marc Raibert)毫无疑问是这个领域的权威,本文摘取了他最近一次在中国围绕机器人领域发展与 AI 赋能机器人应用等话题的分享内容。
雷伯特表示,AI 正在加速机器人技术发展,近两年,中国、美国、欧洲都有非常多的相关的技术进展。“如今正是涉足机器人领域的绝佳时机,” 然而,雷伯特也强调,相对于人类所做的任务,AI 大语言模型(LLM) 与人形机器人能做的任务之间,仍然会有非常大的差距。
在他看来,机器人未来有两种“智力(智能)”。一是身体如何运作的智能(动态智能),如何平衡自己。比如,人站着保持身体直立,因为大脑在通过感官控制身体。动态智能在帮助我们来运动的时候保持正常的机能,如判断其他人,周围的物体如何运动,来决定自己如何运动,这是机器人技术的重要组成部分,也是人类和动物工作方式的重要组成部分。还有另一种是认知智能,我们在头脑中进行思考,“脑中所想”,这是在我们的头脑中使用语言。
雷伯特认为,开发机器人首先需要“平衡”,两轮双足的倒退、爬坡、扔到空中等动作非常关键,所以开发机器人硬件和软件都是同等的重要,而 AI 能够帮助它来检测地形、障碍,能够让机器人来决定需要做出什么样的动作。
如今,雷伯特已成立人工智能研究所,使命是成为机器人技术领域的贝尔实验室。他表示:“我对机器人技术的兴奋主要不是因为出售它们赚了很多钱,而是要接受挑战,让这些机器人具有行为能力,智能开始达到人类的水平,就像攀登珠穆朗玛峰一样,会遇到很多挑战。”
“人形机器人中使用强化学习,让机器人能够更好的进行导航和控制,我也非常期待在这方面硬件上能有更多的进展。”雷伯特强调,我们需要用科学的方式来看待机器人融入现实世界。对于火热的中国人形机器人发展,他认为,双足人形机器人需要以实用方式进行落地,这是发展之道。
雷伯特表示,AI 与机器人已经是一个交叉性学科体系,AI 技术对于机器人领域的发展起到重要推动作用。如今, 人形机器人概念风靡全球,中国不仅占比很高,而且还有大量的机器人领域优秀人才。但是,如果考虑机器人的商业化,未来 2 到 5 年,人形机器人依然会主要做货物的搬运,进入家庭实现商业化还是非常困难。
他提到,我们可以让人形机器人走路像人类,跳舞像人类,看起来像人类,但它的执行机制、控制方式、感知系统、甚至道德和野心都与人类不一样。人形外形不等于人形内在,人们需要更清晰地思考自己的目标。所以,我们必须考虑机器人未来能发展成什么,机器人的发展就像是登珠峰一样(难)。”他预测,未来十年,全球可能会产生一类实用但非全功能的机器人,帮助人类做更多任务。
以下是马克·雷伯特围绕“AI 与机器人”话题的分享:
机器人与 AI,“和而不同”
机器人并不等同于 AI。最近我一直想用更宽泛的思路去定义什么是机器人、什么是 AI,但很多人会混为一谈。波士顿动力的许多机器人行为,很大程度上是所谓的传统控制方法的结果。这些传统控制方法是来自研究机器工作原理、机构运转、视觉系统工作方式的专家们设计和开发的。现在的控制变得越来越复杂,做机器人技术的人可能知道 MPC(Model Predictive Control,模型预测控制) 在这些演示中起了很大作用。但强化学习(Reinforcement Learning)也已近在眼前,我认为强化学习与传统技术专家相结合,将有助于机器人能力取得重大突破。
不过我也认为人们对“学习驱动”的方法存在过度乐观的倾向。许多人因为语言模型的成功,认为不久之后机器人控制就能全部依靠自我学习,甚至实现端到端的全自学。但我觉得结论还未定。在我的研究所,我们确实有一些人致力于这种完全端到端数据驱动的方法,同时也有一些人继续研究理论和传统方法。我坚信未来最好的解决方案会来自不同技术方法的交叉融合。
另一点是,这一切还要看时间尺度。在未来的某个时间点,也许学习型方法会全面占优。但如果想在当下,或者未来几年,甚至 5 到 7 年内,在产品中做出有用的东西,传统方法依然会发挥巨大作用。我甚至不太喜欢用“传统” 这个词来称呼这些方法,因为与过去两年的新趋势相比,它们才算“传统”。
我想越来越多的编程会借助这些(LLM)模型来完成。Spot(四足机器人)和一些人形机器人仿真工作也都在朝这个方向推进。我相信在某些动作上,我们能用这些方法达到传统 MPC 或控制方法无法实现的效果。但我仍然认为,这是一种知识和方法的混合。那些有控制理论背景并实际搭建过硬件的人才会是推动这一领域前进的重要因素。
我对纯学习领域的一点抱怨是:他们对行为标准的要求非常宽松,并非在做高性能又困难的任务,而是更关注“机器人在所给任务上的改善”而非“高水平完成有用的任务”。
如果想在未来 2 到 5 年内就想让机器人盈利,完成一个高性能的特定任务,那么不应该追求通用形态的机器人,而要针对性设计能出色完成特定任务的机器人。比如我们那个只用来搬运纸箱的机器人,它只能搬纸箱,却做得很好。有些人想,既然人类什么都能做,那么做个人形机器人也就能什么都做。也许将来有一天会实现,但还需要很长的路要走。
在美国有一种说法:“如果它看起来像鸭子,走路像鸭子,叫声像鸭子,那它就是鸭子。”可在机器人领域这并不适用。我们可以让人形机器人走路像人类,跳舞像人类,看起来像人类,但它的执行机制、控制方式、感知系统、甚至道德和野心都与人类不一样。人形外形不等于人形内在,人们需要更清晰地思考自己的目标。
我个人喜欢人形机器人,因为那是像攀登珠穆朗玛峰一样的挑战,但我并不是为了明年就赚钱才去做它们的。
走在自主运行与智能交互的进程中
现在出现了很多人形机器人公司,还有很多公司在做所谓的宠物机器人、陪伴机器人。有的人甚至想做可 以理解真实宠物意思的 AI,不管怎样,人们普遍觉得需要陪伴。宠物是一种陪伴方式,也许机器人也是一种。
不过说到商业化,我认为家庭是机器人应用最困难的场景,因为安全问题、家庭环境的非结构化、多样化、成本要求都很苛刻,在工厂和仓库里实现投入产出比要容易得多。
我当年与索尼合作 AIBO 时,在东京做过一个面对 AIBO 爱好者的演讲。台下很多人戴着 AIBO 吊坠,有 人甚至举办过 AIBO 婚礼。AIBO 形成了一种文化现象。
在工业机器人领域,许多人在追求让机器人从环境中自主学习,再利用这些数据自行完成任务。与语言模型从网络抓取文本数据不同,机器人需要对触觉、真实视觉进行数据收集,这种数据很难像文字那样轻易获得。现在已有一些公司专门为此采集这类数据。
我认为从完全由人类设计到完全由机器人自学,中间是一个环环相扣的过程。从过去直到现在,人类一直参与在这个回路中——由工程师通过机器人收集的数据来改进设计,真正的端到端全自学可能是最难的阶段。我认为在很长一段时间内,人类对机器的结构性设计依旧重要。也许终有一日某些问题能实现端到端自学,但那是比较久远的事情。
中国的机器人产业发展迅速,我确实看到市场上有非常多有智慧的人,他们非常认可这个领域。对于任何一家公司来讲,如果想要成功,就需要有人才储备。
我有时都觉得自己有点走运,我能从事自己热爱的工作,上班不仅不是负担,而且还有人付我工资。我认为对于任何一位能从事自己热爱领域的人来说,这都是再好不过的境况。
融合与平衡
随着对硬件和软件双方的深入理解,以及团队之间的紧密合作,AI “大脑”与机器人“身体”结合的进展会更快。
在早期模拟中,如果模拟开发者有硬件经验,模拟的效果和对软件的帮助就更大。如果只懂软件而不了解 硬件,成效就差点。我有些担心美国硅谷的软件派认为只要软件足够智能,随便什么硬件都行。我并不认同。即使现在软件能推动硬件发展,但终有一天硬件会再次成为瓶颈,到时钟摆又会回到硬件这边。
我想举一个自动驾驶汽车的例子,旧金山有一场自动驾驶汽车事故中有人死亡了,因为这个事故里有自动 驾驶汽车的参与,所以引起了很大的讨论。
我认为,驾驶汽车的是人,是人错误驾驶汽车的责任。 我觉得,自动驾驶汽车会比人类驾驶的汽车更为安全,就像机器人一样,机器人进工厂参与生产过程中,如果发生事故有人受伤,公众很可能会要求工厂不再使用机器人,但实际上机器人的参与可能会让大部分工人更安全。
AI 会解决很多问题,它解决问题的能力,要比它所带来问题的能力要强得多。我自己并不害怕 AI,但我知 道很多人都会很担心,很害怕 AI,我不知道这是教育的问题,还是传播的问题。
回到人形机器人进入家庭的时间表,我觉得家用场景可能是最后的场景,而且是有限的使用场景。10 年后 肯定会有某种有用的机器人家电出现,但它可能不会是全能的人形机器人。