Habitat Challenge 2022冠军方案:字节AI Lab提出融合传统和模仿学习的主动导航

简介: Habitat Challenge 2022冠军方案:字节AI Lab提出融合传统和模仿学习的主动导航

在刚刚结束的国际机器人 Habitat 物体目标导航挑战赛 (Habitat  ObjectNav Challenge 2022) 上,字节跳动 AI Lab-Research 团队提交的方法 ByteBOT 获得冠军。该方法结合了基于地图的传统方法以及端到端的深度模仿学习方法,集两种方法优势于一体,达到了当前最好的结果。


物体目标导航 (Object Navigation) 是智能机器人的基本任务之一。在此任务中,智能机器人在一个未知的新环境中主动探索并找到人指定的某类物体。物体目标导航任务面向未来家庭服务机器人的应用需求,当人们需要机器人完成某些任务时,例如拿一杯水,机器人需要先寻找并移动到水杯的位置,进而帮人们取到水杯。


Habitat Challenge 挑战赛由 Meta AI 等机构联合举办,是物体目标导航领域的知名赛事之一,已连续举办4届, 此前夺冠队伍出自 CMU、UC Berkerly、Facebook 等知名机构。2022 年的最新一届比赛共有 54 支参赛队参加,字节跳动 AI Lab-Research 团队的研究者针对现有方法的不足,提出了一种全新的物体目标导航框架。该框架巧妙地将模仿学习与传统方法结合,在关键指标 SPL 中大幅度超过了其他参赛队伍的结果。


Test-Standard 榜单


Test-Challenge 榜单



研究动机


目前,物体目标导航方法可以大致分为两大类:端到端的方法;基于地图的方法。


  • 端到端的方法提取输入传感器数据的特征,再送入一个深度学习模型中得到 action,此类方法一般基于强化学习或模仿学习(如图1Map-less methods);
  • 基于地图的方法一般会构建显式或隐式地图,然后通过强化学习等方法在地图上选取一个目标点,最后规划路径并得到 action(如图1Map-based method)。


图1 端到端的方法 (上) 和基于地图的方法(下)流程示意图


在经过大量实验对比两类方法后,研究者们发现这两类方法各有优劣:端到端的方法不需要构建环境的地图,因此更加简洁,且不同场景的泛化能力更强。但由于网络需要学习编码环境的空间信息,依赖大量的训练数据,且难以同时学习一些简单的行为,比如在目标物体附近停下。而基于地图的方法使用栅格来存储特征或语义,具有显式空间信息,因此这类行为的学习门槛较低。但它非常依赖准确的定位结果,而且在一些如楼梯等环境中,需要人工设计感知和路径规划策略。


基于上述结论,字节跳动 AI Lab 的研究者们希望将两类方法的优势结合起来。然而这两类方法的算法流程差异很大,难以直接组合;此外也很难设计出一种策略直接融合两种方法的输出。因此研究者设计了一种简单但有效的策略,使两类方法根据机器人的状态交替进行主动探索和物体搜索,从而将各自的优势最大程度地发挥出来。


竞赛方法


算法主要有两个分支组成:基于概率地图的分支和端到端的分支。算法的输入是第一视角的 RGB-D 图像和机器人位姿,以及需要寻找的目标物体类别,输出是下一步动作 action。首先对 RGB 图像进行实例分割,并将其与其他原始输入数据一起传给两个分支。两个分支分别输出各自的 action,并由一个切换策略决定最终输出的 action。


图 2  算法流程示意图


基于概率地图的分支


基于概率地图的分支借鉴了 Semantic linking map[2] 的思想,并对作者原来发表在 IROS 机器人顶会的论文 [3] 方法进行了简化。该分支根据输入的实例分割结果、深度图和机器人位姿,一方面构建 2D 语义地图;另一方面基于预先学习的物体间关联概率,对一张概率地图进行更新。


概率地图的更新方式包括以下几种:当检测到目标物体但没有足够把握时(置信概率 confidence score 低于阈值),此时应该继续靠近观察,因此概率地图上相应区域的概率值应该提高(如图 3 上方所示);同理,如果检测到和目标物体有关联的物体(例如桌子和椅子放在一起的概率比较高),则相应区域的概率值也会提高(如图 3 下方所示)。算法通过选择概率最高的区域作为目标点,鼓励机器人靠近潜在目标物体以及关联物体进一步观察,直到找到置信概率高于阈值的目标物体。


图 3  概率地图更新方式示意图


端到端的分支


端到端分支的输入包括 RGB-D 图像、实例分割结果、机器人位姿,以及目标物体类别,并直接输出  action。端到端分支的主要作用是引导机器人像人类一样寻找物体,因此采用了 Habitat-Web[4] 方法的模型和训练流程。该方法基于模仿学习,通过在训练集中收集人类寻找物体的示例样本训练网络。


切换策略


切换策略主要根据概率地图和路径规划的结果,在概率地图分支和端到端分支输出的两个 action 中选择一个作为最终输出。当概率地图中没有概率大于阈值的栅格,机器人需要对环境进行探索;当地图上无法规划出可行路径时,此时机器人可能处于一些特殊环境(如楼梯),这两种情况下会采用端到端分支,使机器人具备足够的环境适应能力。其他情况则选择概率地图分支,充分发挥其在寻找目标物体方面的优势。


该切换策略的效果如视频所示,机器人一般情况下利用端到端分支高效地探索环境,一旦发现了可能的目标物体或关联物体,则切换到概率地图分支靠近观察,如果目标物体的置信概率大于阈值,则在目标物体处停下;否则该区域的概率值会不断降低,直到没有概率大于阈值的栅格,机器人重新切换回端到端继续探索。


,时长00:41

从视频中可以看出,这种方法兼具了端到端方法和基于地图的方法的优势。两个分支各司其职,端到端方法主要负责探索环境;概率地图分支负责靠近感兴趣区域进行观察。因此该方法不仅能够在复杂场景探索(如楼梯),还降低了端到端分支的训练要求。


总结


针对物体主动目标导航任务,字节跳动 AI Lab-Research 团队提出了一种结合经典概率地图与现代模仿学习的框架。该框架是对传统方法与端到端方法相结合的一次成功的尝试。在 Habitat 竞赛中,字节跳动 AI Lab-Research 团队提出的方法大幅度超出了第二名及其他参赛队伍的结果,证明了算法的先进性。通过将传统方法引入目前主流的 Embodied AI 端到端方法,来进一步弥补端到端方法的一些不足,从而使得智能机器人在帮助人、服务人的道路上更进一步。


参考文献


[1] Yadav, Karmesh, et al. "Habitat-Matterport 3D Semantics Dataset." arXiv preprint arXiv:2210.05633 (2022).

[2] Zeng, Zhen, Adrian Röfer, and Odest Chadwicke Jenkins. "Semantic linking maps for active visual object search." 2020 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2020.

[3] Minzhao Zhu, Binglei Zhao, and Tao Kong. "Navigating to Objects in Unseen Environments by Distance Prediction." arXiv preprint arXiv:2202.03735 (2022).

[4] Ramrakhya, Ram, et al. "Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstrations at Scale." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

相关文章
|
1天前
|
机器学习/深度学习 人工智能 算法
构建未来:AI在持续学习系统中的进化
【5月更文挑战第26天】 随着人工智能(AI)技术的飞速发展,AI系统正变得越来越复杂,其学习能力也日益增强。本文深入探讨了AI在学习过程中的关键机制,包括深度学习、强化学习和迁移学习等,并分析了这些技术如何使AI系统能够不断适应新的数据和环境。此外,文章还讨论了持续学习对于AI未来的重大意义,以及它如何推动AI走向更加智能化和自主化的未来。
6 1
|
2天前
|
人工智能 边缘计算 安全
边缘计算与AI的融合:未来智能系统的关键
【5月更文挑战第24天】随着人工智能(AI)和物联网(IoT)技术的迅猛发展,数据的产生和处理需求呈指数级增长。边缘计算作为一种新兴的分布式计算范式,旨在通过在数据生成的源头即边缘设备上进行数据处理,来降低延迟、提高效率并保护隐私。本文探讨了边缘计算与AI技术结合的必要性,分析了其在实现智能化系统方面的优势,并讨论了在融合过程中面临的挑战及潜在的解决方案。
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:AI驱动的自适应学习系统
【5月更文挑战第22天】 随着人工智能技术的迅猛发展,教育领域正在经历一场由数据驱动的革新。本文将探讨AI技术在构建自适应学习系统中的关键作用,分析其如何通过个性化教学方案提高学习效率,并预测未来发展趋势。我们将深入研究机器学习算法如何识别学习者的需求,实时调整教学内容和难度,以及AI如何帮助教师和学生在教育过程中实现更好的互动和反馈。
25 0
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:AI在持续学习系统中的创新应用
【5月更文挑战第21天】 随着人工智能(AI)技术的不断进步,机器学习模型正变得更加复杂和高效。然而,这些模型往往需要大量的数据和计算资源来训练,并且一旦部署,就很难适应新的数据或环境。为了解决这个问题,研究人员正在开发新的AI技术,使得机器能够进行持续学习。本文将探讨这种新兴的AI技术,并讨论其在各种领域的应用潜力。
|
6天前
|
机器学习/深度学习 人工智能 算法
构建未来:AI在持续学习系统中的进化
【5月更文挑战第20天】 随着人工智能(AI)技术的迅猛发展,机器学习模型正变得越来越复杂。然而,真正的智能不仅仅在于处理大量数据和解决特定问题,而在于不断学习和适应新环境。本文将探讨AI如何通过持续学习系统进化,以实现更加智能化的未来。我们将分析最新的研究进展,包括神经网络的自适应调整、增强学习的新策略以及元学习框架的开发。通过这些技术,AI能够更好地理解复杂的模式,并在不断变化的环境中保持其性能。文章还将讨论实施这些系统所面临的挑战,以及可能的解决方案。
11 0
|
7天前
|
机器学习/深度学习 人工智能 运维
构建高效自动化运维系统:DevOps与AI的融合
【5月更文挑战第19天】 在数字化转型的浪潮中,企业IT运维面临着日益复杂的挑战。传统的手动运维方式已经无法满足快速迭代和高可靠性的需求。本文探讨了如何通过结合DevOps理念和人工智能(AI)技术,构建一个高效的自动化运维系统。文章首先回顾了DevOps的核心原则及其在自动化运维中的应用,接着分析了AI如何增强故障预测、智能决策和自动化流程的能力。最后,提出了一个综合DevOps与AI技术的自动化运维框架,并讨论了其在实际部署中的优势和潜在挑战。
|
8天前
|
人工智能 自然语言处理 搜索推荐
如何利用AI技术改善学生的学习体验?
【5月更文挑战第19天】如何利用AI技术改善学生的学习体验?
17 1
|
11天前
|
存储 机器学习/深度学习 人工智能
新一代数据库技术:融合AI的智能数据管理系统
传统数据库管理系统在数据存储和查询方面已经取得了巨大的成就,但随着数据量的不断增长和应用场景的多样化,传统数据库已经难以满足日益增长的需求。本文将介绍一种新一代数据库技术,即融合了人工智能技术的智能数据管理系统。通过结合AI的强大能力,这种系统能够实现更高效的数据管理、更智能的数据分析和更精准的数据预测,为用户带来全新的数据管理体验。
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:AI在持续学习系统中的创新应用
【5月更文挑战第11天】 随着人工智能(AI)技术的飞速发展,其在教育领域的应用日益增多。特别是在持续学习系统(Lifelong Learning Systems, LLS)中,AI技术正开启着个性化和适应性教学的新篇章。本文聚焦于AI在LLS中的创新应用,探讨了机器学习、自然语言处理和认知建模等关键技术如何共同作用于构建智能化的学习环境。文章旨在分析当前AI技术在持续学习领域的最新进展,并展望其对未来教育模式的影响。
|
11天前
|
机器学习/深度学习 人工智能 自动驾驶
构建未来:AI在持续学习系统中的创新应用
【5月更文挑战第11天】 在人工智能的迅猛发展浪潮中,一个不断进化的分支便是AI在持续学习系统中的应用。本文旨在探讨AI技术如何革新持续学习系统,并分析其在不同领域的创新实践。文章首先界定了持续学习系统的概念,随后深入解析了深度学习、强化学习以及转移学习等关键技术在其中的作用。通过案例分析,展示了这些技术如何在医疗诊断、自动驾驶及个性化教育中发挥至关重要的角色。最终,讨论了面临的挑战与未来的发展趋势,为读者提供了一个关于AI在持续学习领域未来可能展开的蓝图。
29 1

热门文章

最新文章