ICRA 2022最佳论文出炉:美团无人机团队获唯一最佳导航论文奖

简介: ICRA 2022最佳论文出炉:美团无人机团队获唯一最佳导航论文奖
在刚刚结束的 ICRA 2022 上,来自美团无人机团队的研究人员拿到了导航领域的年度最佳论文。


国际机器人技术与自动化会议 ICRA 2022 于 5 月 23 日至 5 月 27 日在美举办,这是 Robotics(机器人学)领域最顶级的国际会议之一。今年大会共收到 3344 份投稿,其中的 3263 份进入了审稿阶段,1428 篇被接收,接收率为 43.1%。

在这 1428 篇论文中,大会还根据导航、自动化等细分赛道特点,评选了 13 篇杰出论文作为相关领域年度最佳研究成果进行表彰。值得一提的是,美团无人机团队一篇关于视觉里程计的研究获得了大会导航领域的年度最佳论文(Outstanding Navigation Paper),这也是今年唯一一篇第一作者和第一单位均来自中国境内科技公司和高校的获奖论文。


全部奖项链接:https://www.icra2022.org/program/awards

在这篇论文中,作者提出了一种使用点和线的高效的直接视觉里程计(visual odometry,VO)算法—— EDPLVO 。他们证明了,2D 线上的 3D 像素点由 2D 线端点的逆深度决定,这使得将光度误差扩展到线变得可行。与该团队之前的算法 DPLVO 相比,新算法大大减少了优化中的变量数量,而且充分利用了共线性。在此基础上,他们还引入了一个两步优化方法来加快优化速度,并证明了算法的收敛性。 


论文链接:https://www.cs.cmu.edu/~kaess/pub/Zhou22icra.pdf

实验结果表明,该算法的性能优于目前最先进的直接 VO 算法。这项技术将在以无人机、自动配送车为代表的机器人自主导航以及 AR/VR 等领域进行广泛应用。
SLAM、VSLAM、VO 是什么?

将一个机器人放入未知环境中的未知位置,是否有办法让机器人一边移动一边逐步描绘出此环境完全的地图,毫无障碍地行进到房间各个可进入的角落呢?这就是所谓的 SLAM(同时定位与地图构建)问题。这里的「机器人」不仅包括传统意义上的机器人,也包括无人机、自动配送车等。因此,SLAM 在自动驾驶、无人配送等领域有着广泛的应用。

如果按照传感器种类来划分,SLAM 可以分为激光 SLAM、视觉 SLAM(VSLAM,传感器主要为相机)等大类。随着计算机视觉的迅速发展,视觉 SLAM 因为信息量大、适用范围广、硬件成本低等优点受到广泛关注,成为许多机器人和计算机视觉应用的基础模块。

VSLAM 的架构通常包括视觉里程计、后端优化、回环检测、建图等模块。其中视觉里程计通过移动物体(如车辆、人、机器人)上搭载的单个或多个相机拍摄的连续图像作为输入,从而增量式地估计物体自身的运动状态。视觉里程计在某些特殊场景下是非常重要且必须的,如无法使用车轮里程计的环境下(如无人机)。

从视觉里程计的原理我们可以看出,由于要处理大量图像,它的资源消耗不容小觑。而在计算资源有限,同时又需要进行实时姿态估计的嵌入式设备中,这一问题会变得更加棘手。

美团的新算法解决了什么问题?

如今,深度学习技术在各种计算机视觉任务中的表现都优于传统方法。在视觉里程计方面,基于学习的方法近年来取得了重大进展。然而,由于这些方法需要强大的 GPU,它们很难在嵌入式系统上做到实时应用,传统的 VSLAM 和 VO 系统仍然是更加合适的选择。

这些传统方法一般分为两类:基于特征的(间接)方法和直接法。基于特征的方法在过去的很长一段时间都是这一领域的主流。但与此同时,最新研究表明,直接法也能表现出很高的准确性和稳健性,即使在低纹理场景下,而这种场景对基于特征的方法来说非常具有挑战性。因此,美团的研究人员将重点放在了直接 VO 方法上。

直接法通常采用具有足够大梯度的像素,通常包括线上的角和点。如图 2(a)所示,在许多人造场景中,线上的点比角多得多。通过光流跟踪角是可以的,但用同样的方法跟踪线上的点却有一些问题,因为线上存在一维模糊性(one-dimensional ambiguity)。如图 2(b)所示,放弃共线约束可能导致深度估计不够精确。虽然之前的研究者已经探索过用线来克服这个问题(比如《DPLVO: Direct Point-Line Monocular Visual Odometry》[2] 和《 Direct monocular odometry using points and lines》[11]),但这些方法通常会显著增加优化中的计算负荷。

于是,美团的研究人员就开始考虑一个问题:能否在不增加计算负荷的情况下利用共线性?

为此,他们在之前工作(DPLVO [2])的基础上进行了进一步的研究。并提出了一种新的算法——EDPLVO。


文章的主要贡献如下:

他们将光度误差扩展到了线。原来的光度误差只针对点定义,很难应用到线。与 DPLVO 中简单地将共线约束引入成本函数不同,他们提出了一种参数化 3D 共线点的新方法,从而使得将光度误差扩展到线变得可行。具体来说,他们证明了 2D 线上任意点的 3D 点由 2D 线两个端点的逆深度决定。该属性可以显著减少变量的数量。同时,该方法在优化过程中严格满足共线约束,这提高了准确率。


他们引入了一个两步骤方法来限制由于在优化中引入长期线关联而导致的计算复杂度。在每次迭代中,他们首先使用固定的逆深度和关键帧姿态来拟合 3D 线。然后,他们使用新的线参数来调节逆深度和关键帧姿态的优化结果。由此产生的两个优化问题很容易解决。研究者证明了该方法总是可以收敛的。


作者提出的算法所生成的点云和线。

实验结果表明,与现有的 VO 算法相比,新算法大大减少了优化的计算量,得到的结果更加准确。在 TUM monoVO dataset 数据集上,在后端优化中,采用论文中提出的直线光度一致性误差 + 两步优化法,比采用点光度一致性误差 + 共线约束 (DPLVO) 提速 44%。




美团的技术背后藏着怎样的业务蓝图?

值得一提的是,在本届 ICRA 中,美团无人机团队另有一篇关于视觉定位技术的论文也被大会收录,新技术旨在帮助无人机等机器人提升执行任务时的精准度和稳定性。根据实验测算,新技术优于目前最先进的 VIO 算法,可以帮助无人机在纯视觉飞行时提升近 3 成的定位精度,大幅提升了飞行安全性。

在美团无人机业务负责人看来,美团在无人机领域的研发布局,大多是基于场景需要驱动的,同时近年来业务场景得以快速落地也离不开技术层面突破助力。

据了解,美团于 2017 年启动了无人机配送服务的探索,目标是打造一个综合飞行器、地面承接装置及航线管理后台系统为一体的城市低空物流网络。目前,美团已经初步完成了飞行器(FP400 系列机型)、自动化机场及无人机智能调度系统的研发工作,其中 90% 以上部件为纯自研。2021 年初,美团无人机在深圳完成了首个面向真实用户的订单配送任务。

美团无人机目前的应用场景主要是在城市环境下满足消费者短途的即时配送需求,比如为紧急药品需求、生鲜需求等提供 3 公里 15 分钟达的标准服务,所以日常配送工作就具有高频短途等特点。截至 2022 年 5 月底,美团无人机已在深圳落地 10 个社区,4 个商圈,服务覆盖近 8000 户居民,完成面向真实用户的订单超 5.4 万单,并在北京、深圳等地测试机场完成了超过 40 万架次的飞行测试,配送飞行总时长 1 万小时以上。此外,自 5 月 20 日起,美团无人机开始在杭州进行常态化核酸样本运输,截至 5 月 25 日配送了近 20 万人次的核酸样本。

,时长01:37

当然长期来看,技术成果接连涌现,一定程度可以反应出这家专注「零售 + 科技」的公司,对于以无人机为代表的机器人赛道的中长期思考。毫无疑问,机器人已成为其最关键的技术主赛道。

美团创始人王兴此前在接受采访时也曾分享过相关思考,「对美团而言,公司所从事的业务不只是移动比特,还有大量移动原子的工作。Robotics 正是连接原子世界与比特世界最重要的纽带之一」。因此,在过去的几年里,美团一直在通过自研、投资、联合研发等方式持续布局 Robotics 赛道。从自动配送车、无人机等移动机器人到移动机械手形态的炒菜机器人、物流机器人,再到以软件系统存在的智能客服、商业大脑等,美团正在建立起能够满足家庭服务、餐饮到店、末端配送、智慧零售等不同应用场景真实需求的 Robotics 产品矩阵。

场景驱动技术,技术反哺场景,两者在美团形成了优势互补现象,美团也由此正在形成自己独有的技术体系。

参考链接:https://blog.csdn.net/wb790238030/article/details/90770801https://xw.qq.com/cmsid/20220329A0BAS000

相关文章
|
Oracle Ubuntu Java
Ubuntu安装JDK
一. Ubuntu 安装JDK的两种方式 1. 通过apt安装. 2. 通过官网下载安装包安装. 这里推荐第1种,因为可以通过 apt-get upgrade 方式方便获得jdk的升级 二. 通过apt安装(jdk有很多版本, 这里介绍两种: openjdk和oracle的JDK) 1.
71150 4
|
SQL 前端开发 Java
Java的学习路线(非常完整)
Java的学习路线(非常完整)
8716 3
Java的学习路线(非常完整)
|
9月前
|
机器学习/深度学习 人工智能 算法
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。
254 4
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Vue3开关(Switch)
这是一个可高度定制的开关组件,支持设置选中与未选中时的内容、值、大小、加载状态、禁用状态及点击波纹颜色等属性。组件提供了多种尺寸选择,并允许自定义图标与样式,适用于多种场景下的开关功能实现。[在线预览](https://themusecatcher.github.io/vue-amazing-ui/guide/components/switch.html)展示了其丰富的配置选项和实际效果。
273 4
Vue3开关(Switch)
|
12月前
|
监控 网络协议 数据库连接
Python3 监控端口:使用 socket 库
Python3 监控端口:使用 socket 库
177 1
|
机器人 测试技术 Python
作为测试人员,RobotFramework框架真的是必须掌握的吗?
本文探讨了Robot Framework(RF)作为自动化测试框架的重要性,指出虽然RF具有易用性和灵活性,但并非测试人员必须掌握的工具,因为存在许多可替代的自动化测试解决方案。
242 0
作为测试人员,RobotFramework框架真的是必须掌握的吗?
|
机器学习/深度学习 存储 运维
ICML 2024:清华提出时间序列大模型:面向通用时序分析的生成式Transformer
【8月更文挑战第7天】在2024年ICML大会上,清华大学团队推出“时间序列大模型(LTSM)”——Timer,一种处理大规模时间序列数据的生成式Transformer。该模型通过预训练学习通用特征,支持多种任务如预测与异常检测。Timer采用统一的数据格式S3处理异构序列,并在数据稀缺场景下展现出色性能。尽管如此,模型泛化能力与计算效率仍有待优化。论文详情参见:https://arxiv.org/abs/2402.02368。
2373 4
|
人工智能 Kubernetes 持续交付
Kubernetes环境下基于微服务架构的容器化AI应用部署与管理最佳实践
【8月更文第19天】随着AI技术的快速发展,越来越多的企业开始将AI应用部署到生产环境。然而,AI应用往往包含大量的组件和服务,这使得其部署和管理变得非常复杂。微服务架构和容器化技术(如Docker)结合Kubernetes集群管理,为解决这些问题提供了强大的工具。本文将介绍如何在Kubernetes环境中部署和管理基于微服务架构的容器化AI应用。
780 0
|
XML Java 程序员
Java一分钟之-AOP:面向切面编程
【6月更文挑战第13天】Java中的AOP允许程序员定义切面,将日志、事务等通用功能与业务逻辑解耦。切面包括通知(Advice,如前置、后置等)和切入点(Pointcut,定义执行点)。Spring框架通过代理和@AspectJ注解支持AOP。常见问题包括代理对象理解错误、切入点表达式错误、环绕通知处理不当和配置遗漏。理解和实践中,AOP能提升代码可维护性和可扩展性。
454 5
|
机器学习/深度学习 人工智能 自然语言处理
智能笔下的学术:AI在学术写作中的革新应用
【7月更文第31天】随着人工智能技术的发展,AI工具已经成为学术界不可或缺的一部分。它们不仅能够帮助研究人员提高工作效率,还能提升论文的质量。本文将介绍一些流行的AI学术写作工具,并探讨它们如何重塑学术研究的过程。
1343 0