提到优必选科技,对机器人感兴趣的读者想必都不陌生。自 2012 年创建以来,他们的机器人曾先后四次登上春晚,2018 年发布的智能教育机器人「悟空」还拿到了美国消费电子展创新奖等奖项。
登上春晚的优必选机器人。
优必选智能教育机器人悟空。
最近,这家公司又整出了新活儿。在 7 月 8 日开幕的 WAIC 2021 世界人工智能大会上,优必选科技发布了他们的全新一代大型仿人服务机器人——Walker X。这也是它连续第二次在 WAIC 获得「镇馆之宝」的荣誉。
Walker X 身高 1.30 米、体重 63 千克,不仅拥有出色的运动能力和稳定性,还能精准、安全地完成一系列日常工作。
在 WAIC 活动现场,它为我们展示了上楼梯、下斜坡、下象棋、柔顺力控按摩、视觉定位导航、快速行走、单腿平衡、不平整地面行走等多项技能。
除此之外,Walker X 还原生内置了超过 28 种情绪体系,支持喜怒哀乐等情绪表达及机器人状态展示。
对于健全的人类来说,上述活动几乎都像呼吸一样自然、简单,但要想把这些技能复制到机器人身上,难度是普通人难以想象的。目前,Walker X 已获得数百项授权专利,覆盖伺服关节、灵巧手、关键结构等硬件系统,以及步态规划、平衡控制、三维感知、定位导航、视觉检测等控制感知算法。
为了进一步了解 Walker 背后的技术,机器之心采访了优必选科技 CTO 熊友军博士。在采访中,他不仅介绍了 Walker X 的技术难点、落地情况,还聊了聊他们做仿人机器人的初衷以及相应的科研合作思路。
Walker X 的打造难在哪儿?
如何站稳、走稳?
要打造一款仿人机器人,良好的运动控制能力是最基本的。如果这方面做不好,机器人很容易在运动过程中摔倒。
与上一代 Walker 机器人相比,新一代 Walker X 可以走得更快、更稳,最大行走速度提升到 3 公里 / 小时,能适应斜坡、楼梯等结构化地形和地砖、厚地毯、草坪、碎石等不平整地面,还能背上 10 千克的重物或双手负载 3 千克重物行走。如果在行走或单腿站立时承受外部冲击,Walker X 也能保持平衡。这背后离不开步态规划与控制等能力的升级。
熊博士介绍说,为了实现 Walker X 的快速行走,他们通过虚拟本体激励轨迹、足腰协调类人步态、摆动腿运动轨迹优化等算法提高了它的平衡能力,伺服硬件的性能也得以充分发挥。
在不平整地面上行走则涉及全新的脚掌姿态控制算法。该算法可以让机器人的脚掌像人一样,在接触障碍物的瞬间具备柔性自适应能力,又能在脚掌完全接触地面后提供足够的支撑来保证机器人稳定。
此外,由于 Walker X 的定位是一款家用服务机器人,与人类相处时受到外部冲击也是在所难免。为了抵抗冲击,研究人员采用了全身动量控制方案来提高 Walker X 单腿站立时的稳定性,还采用了落足点调整、柔顺控制与姿态控制等多种策略和方法来确保其行走过程中的抗冲击能力。
如何感知外部环境?
要想在现实世界中不摔跤,光会走肯定是不够的,还得学会「看路」,即导航和避障。为了让 Walker X 具备这项能力,研发人员采用了 Coarse-to-fine 的多层规划算法和基于多目视觉传感器的三维立体视觉定位,前者可以帮助机器人自动选择全局最优路径,后者则支持 2.5D 避障,能以二维避障的算力获得三维避障的效果。
在躲避障碍之余,作为一款家用机器人,Walker 还得学会与人交互,比如在用户回家时确认用户身份,根据手势完成一些指令等。
身份确认有赖于人脸识别。熊博士介绍说,优必选科技的人脸识别结合了自研的跨风格人脸数据生成技术,还在训练过程中加入了类实际场景的模糊增强,使得提取的人脸特征更具表征性,其识别效果在 LFW、MegaFace 等公开数据集上处于领先地位。在此基础上,优必选科技还自研了基于深度学习的人脸质量评估、人脸姿态估计、人脸逆光检测等算法,提高了逆光、暗光等环境下的人脸识别可靠性。
手势的识别分为 1.5 米和 5 米两种距离范围,前者针对边缘端低算力设备,采用了模型压缩减裁、量化处理等技术,所需算力小;后者针对服务器端或有独显、集显的设备,识别距离远,小目标识别能力强,识别精度高。目前,Walker X 已经支持 18 类手势识别,包括 12 类单手手势和 6 类双手手势。比如说,Walker X 可以识别停止的手势,并能做出决策和反馈,中止正在进行中的动作。
如何帮人干活儿?
让机器人帮人干活儿一直是该领域研究者努力的方向和动力。在采访中,熊博士举了个帮人倒水的例子来解释其中的技术和难点。
在接到「倒水」的指令后,机器人首先需要「想」一下如何完成任务,比如先走到冰箱前打开冰箱门,然后拿出瓶装水、拧开瓶盖、把水倒入杯子。其中,这个「想」的过程就涉及任务规划,即对执行动作进行排序;走向冰箱的过程则涉及路径规划、导航、避障和运动控制。由此可见,上面提到的一系列技术其实都在为「干活」做铺垫。但除此之外,拿出瓶装水、拧开瓶盖等操作还涉及物体识别与检测、手眼协调等技术。
在物体识别与检测方面,算法不仅需要知道目标物体(此处是瓶装水)的类别,还需要知道其位置坐标,然后让机器人依据这些信息进行抓取等操作。通常来讲,服务机器人的物体识别算法需要识别数百类物体,而且类别之间的数量是极度不均衡的。因此,研究人员通过计算每一类物体的有效样本数量来解决类别之间的数量不均衡问题。此外,该算法还用了共存归一化指数函数来解决一个物体具有多个标签的难题。目前,Walker X 已经实现了百余种未建模日常物体在多种环境下的稳定识别。
在得到目标物体(瓶装水)的类别、坐标等信息后,机器人就要执行下一步的抓取、开瓶盖、倒水等操作了,这些动作都考验着它的手眼协调能力。以抓取为例,为了做好这个简单的工作,机器人需要知道最佳抓握点在哪里、每个关节要扭转多少度、所需的抓握力有多大、抓取过程中如何避开障碍物等。为了保证抓取的可靠性,研究人员采用了基于数据驱动的抓取规划范式,通过物理仿真环境生成未建模物体的抓取数据并训练抓取预测深度神经网络。目前,Walker X 已经实现了指定物体抓取、足腿移动抓取、全身协调抓取规划等针对仿人机器人特点开发的抓取功能。
如何表达情感?
如果说让机器人干活专注的是「机器」二字,那么情感方面的研究则更加关注机器人「人」的属性,用熊博士的话来说就是「希望机器人有更多的智能和亲和力,希望它跟人的交互更加亲切自然。」这就需要赋予机器人一定的情感交互能力。
Walker X 有一套全新升级的多模态交互系统,可以实现视、听、触、环境多通道感知。它还内置了原生 28 + 机器人情绪体系和四维灯语体系,可以主动与人交互,与用户建立共情。
一家公司如何 cover 那么多技术?
从 Walker X 的技术体系可以看出,机器人是一个技术的集大成者,仿人机器人更是机器人皇冠上的明珠中最亮的一颗。要想把每个方面都做好,单靠一个公司的力量可能是远远不够的。因此,优必选科技建立了一个全开放的软硬一体的科研合作平台。
「像 Walker 这种大型服务机器人研究内容非常广,技术难度也非常深。要想建立起一个生态,靠优必选科技一家进行封闭式的开发,我觉得可能不是一个最好的方式。所以现在我们用一种开放的方式,把我们公司在这个领域取得的一些成果放在平台上,面向全球的高校和科研人员开放,让大家共同去推动机器人的研发和进步。」熊博士在谈到开放平台建设的初衷时说道。
具体来说,这个平台的开放可以分为底层、中层和上层三个层面。底层主要涉及硬件的通讯协议,允许外部研究者在上面做一些开发。中层主要涉及控制算法,如运动控制、手眼协调、语音、视觉、操作系统等,需要各方一起丰富。上层主要涉及一些应用,提供各种 API 的接口,帮助用户在不改变底层的情况下开发各种细分场景下的机器人 APP。
基于这一平台,优必选科技已经与卡内基梅隆、清华、华中科技、华南理工等全球多所知名高校展开了合作,在运动控制、感知、双臂协作、情感交互等领域取得了一些研究成果。
在熊友军看来,这是一个双赢的结果,「现在国家也开始推广人工智能和机器人专业,但实际上很多学校和单位是缺乏科研平台的。而 Walker 本身就是一个很好的科研合作平台,能够推动整个行业的快速发展。」
为何执着于大型仿人服务机器人?
刚刚提到,仿人机器人是机器人皇冠上的明珠中最亮的一颗。那既然难度如此之高,优必选科技为何还执着于这一赛道呢?对此,熊友军给出了三个维度的考量。
第一个维度是机器人在各种应用场景中的环境适应能力。
优必选科技打造 Walker 的愿景是让机器人走进千家万户,因此,它必须尽可能适应为人打造的各种环境,比如楼梯、门把手、桌椅板凳、家用电器等,而不是反过来让人改造环境去适应机器人。与其他形态的机器人相比,仿人机器人在面对这一环境时要方便得多,能投放到健康养老、医疗卫生、科普教育、公共服务等各种需要跟人打交道的场景。此外,仿人机器人的外形和交互方式也更具亲和力,能够满足人类的情感交互需求。
第二个维度是公司战略需求。
对于优必选来说,研发前沿技术支撑公司其他产品的应用落地也是 Walker 研发的意义之一。从这个角度来讲,Walker 是优必选产品之树的「树干」,为公司其他产品(树枝)提供养分,现有的智能教育机器人悟空、Yanshee、Ebot、AMR 智能物流机器人、紫外线消毒机器人 ADIBOT 净巡士以及 2021 年登上春晚舞台的拓荒牛等产品都用到了 Walker 的相关研发成果。反过来,这些产品形成了市场和应用,也可以继续支撑 Walker 的进一步研发迭代。
优必选 AMR 智能物流机器人。
「优必选科技希望是用两条腿走路,一方面是技术的研发,一方面是商业化落地。技术的提升提高了这些产品的体验感、技术门槛和核心竞争力;反过来,这些产品又能在应用场景中给 Walker 提供反馈从而可以优化产品。这两方面是相辅相成的。」
第三个维度是国家战略需求。「从国家层面来说,仿人机器人是代表一个国家工业和科技水平的综合性科技产品,也是衡量国家科技创新能力、制造业实力以及智能服务水平的重要标志。」熊友军解释说。
为了实现这些愿景,Walker 机器人在五年之内经历了四次迭代,团队的科研、算法、工程、应用等能力都有了显著提升。未来,Walker 的迭代思路将集中在减重、提速以及提高认知能力等方面。
Walker 机器人的四次迭代。