2022最新综述!稀疏数据下的深度图补全(深度学习/非引导/RGB引导)(下)

简介: 获取正确的像素级场景深度在各种任务中发挥着重要作用,如场景理解、自动驾驶、机器人导航、同时定位和建图、智能农业和增强现实。因此,这是过去几十年来研究的一个长期目标。获得场景深度的一种成本有效的方法是使用单目深度估计算法,从单个图像直接估计场景深度。

训练模型的学习目标



由于深度补全和单目深度估计具有相同的目标输出,即预测密集深度图,因此它们共享相同的学习目标,例如深度损失、表面法线损失和光度损失,常见的loss如下所示:


640.png


数据集和评估指标



在本节中,将详细介绍以前工作中常用的基准数据集,还全面调查了相关数据集,以供参考。


数据集


KITTI depth completion dataset :KITTI数据集是一个广泛使用的大型户外数据集,包含93000多张半密集深度图以及相应的原始稀疏激光雷达扫描和RGB图像。训练、验证和测试集分别有86000、7000和1000个样本,图像和深度图的全分辨率可达1216×352,比大多数现有RGBD数据集都大。原始激光雷达扫描由Velodyne HDL-64E捕获。为了获得半密集地面真实深度图,Uhrig等人[109]使用半全局匹配(SGM)纯化了原始数据,并通过累积11次激光扫描来加密稀疏深度图。应该注意的是,在实施以前的方法时,可以不同地使用基本事实。原始稀疏深度图的密度仅为约5%(如图13(b)所示),而KITTI基准提供的半密集真实度可达到约30%(如图13C所示)。大多数先前的工作采用更密集的gt来实现其方法,而一些无监督方法[118]、[119]、[120]、[121]、[129]假设只有原始稀疏深度图可用,在这种情况下,深度一致性仅适用于那些5%有效像素!

640.png


NYU-v2 :NYU-v2 数据集由464个室内场景组成,其中408000张RGBD图像由Microsoft Kinect拍摄,原始分辨率为640×480。尽管原始RGBD数据仅适用于深度增强方法,但先前的深度补全研究通过随机选择200个(图14(b))或500个深度点(图14)(c))作为稀疏输入来实现其方法。在这两种情况下,总有效像素都小于1%。在NYU-v2数据集上评估的大多数方法都是RGB引导的。对于在此数据集上评估的方法,无监督方法只能将深度一致性应用于合成稀疏深度输入中的有效深度点。相比之下,[12]、[13]、[77]等监督方法通常使用由官方修复工具箱预先加密的密集像素地面真实深度图。

640.png


VOID[120]:VOID数据集包含使用Intel RealSense D435i相机从室内和室外场景采集的56个序列,其中48个序列(约47000帧)用于训练,其余8个序列用于测试。每个帧的分辨率为640×480,每个序列有三个不同的密度级别,分别为1500、500和150点。该数据集用于评估[93]、[118]、[119]、[120]、[121]中的方法。DenseLivox[133]:DenseLivox数据集是使用比KITTI更便宜的Livox LiDAR采集的,该LiDAR具有更密集的深度图(密度为88.3%)。DenseLivox还提供了一些额外的数据,如绑定遮挡和正常。该数据集用于评估[133]中的方法。


Evaluation Metrics


640.png


640.png


实验


640.png640.png


深度补全的一些问题与研究方向



Depth Mixing Problem


深度混合问题,也称为深度涂抹问题,是由于难以正确识别物体边界附近的像素,通常会导致边缘模糊和伪影。为了缓解这个问题,[51]通过将深度图划分为一组具有固定深度范围的bins,将深度完成公式化为一个热编码问题。Imran等人[52]分离遮挡边界区域中的前景和背景深度,并分别对其进行建模。NLSPN[86]使网络学习非局部相对邻居,从而可以在迭代传播期间分离像素,实现这种分离过程的一种更简单的方法是利用K最近算法[9],[126],[140]。此外,在深度补全后添加了边界一致性网络,以鼓励预测更清晰的边界[47],[105]。然而,这个问题对于深度估计任务来说仍然是困难的,需要持续研究。


缺陷的GT


另一个问题是真实深度标签存在缺陷,首先,与语义分割不同,由于深度传感器的限制,现有的真实世界数据集都不能提供像素级的真实情况。尽管许多现有方法都是以监督的方式训练的,但大多数像素都不能得到充分的监督。其次,由于遮挡、动态对象等引起的异常值,半密集注释并不完全可靠。为了克服稀疏性问题,一些研究人员[76]、[100]转向自监督框架来缓解真实深度的不足。为了解决第二个问题,Zhu等人[144]通过将不确定性估计纳入深度补全网络来处理异常值。此外,一些工作[1]、[134]利用合成数据集进行模型训练。然而,真实世界和合成数据之间的领域差距阻碍了这些方法的广泛应用。尽管先前的研究做出了上述努力,但如何排除不可靠深度的影响仍然是一个悬而未决的问题,而且仍有很大的改进空间。


Lightweight Networks


大多数以前的方法具有复杂的网络结构和大量的参数,此外,他们中的许多人采取两阶段的粗到精预测。因此,这些方法是耗时的,并且需要大量使用硬件资源。然而,对于自动驾驶和机器人导航等应用,计算资源有限,需要实时推理。尽管一些先前的研究[2]、[105]、[112]、[126]部分考虑了实时推理问题,但它们的性能较差,此外,网络设计本质上是经验性的。随着单目深度估计的进展,可以进一步应用几种技术,例如应用知识蒸馏[40]、网络压缩[117]和神经架构搜索[50]。在不牺牲太多准确性的情况下,开发具有快速推理速度的轻量级方法对于现实世界的部署具有巨大的潜力,因此,这是未来工作中有价值和实用的研究点。


无监督/自监督框架


如前所述,无监督学习框架是在缺乏密集的GT情况下常用的解决方案。与监督方法相比,当前无/自监督方法的精度仍然较低,因为它们仅将深度一致性应用于稀疏输入中的有效深度点,并且无法利用监督方法所使用的GT深度点。另一方面,只有当预测的深度图足够接近地GT时,光度损失才会有效。然而,由于光度损失特别容易受到噪声、移动对象和无纹理区域的影响,这仍然是一个挑战,因此无监督方法还有很大的改进空间。由于这类方法对动态对象、远距离区域等不鲁棒,因此可以通过利用更有效的网络结构来执行辅助任务(例如姿态估计和异常值去除)来实现改进。


Domain Adaptation


当前的基准数据集面临缺乏可靠深度点的挑战,此外,在有限的场景中,在理想的照明条件下捕获数据。因此,使用这种类型的数据训练的模型不能保证在不同的工作条件和领域中进行泛化。因此,在模拟环境中操纵深度网络是合理的,我们不仅可以获得每像素的GT实况,还可以通过大量不同的场景获得可变的照明或天气条件。此外,它鼓励开发在现实世界中难以实现的更先进的方法,挑战是如何将模型从模拟环境转移到真实场景。一些工作探索了深度完成的域自适应方法[1],[71]。然而,这个探索不足的问题仍然未知,值得进一步探索。


对不同传感器的鲁棒性


现有方法仅适用于特定传感器,例如,最常用的KITTI数据集由64线激光雷达捕获。不能保证以前的方法可以应用于较低扫描线传感器,例如32线、16线和1线激光雷达。如[72]、[76]、[93]、[131]所示,从64线传感器到较低扫描线传感器,性能下降显著。因此,保持较低扫描线传感器的相同精度水平具有挑战性。这一探索不足的问题在实际应用中也很实用,因为高扫描线传感器比低扫描线传感器更昂贵。因此,确保各种低扫描线传感器的基于学习的方法的准确性也是一个重要而有价值的研究课题。


基于Transformer的网络结构


最近,视觉transformer(ViT)引起了广泛关注,并不断为许多感知任务引入新的最新结果,包括分类[18]、语义分割[101]、目标检测[139]和单目深度估计[4]。与CNN不同,ViT接收一组图像补丁作为输入,并使用自我关注进行局部和全局特征交互。它可能为深度补全带来新的范式转变,其中可能存在更有效的多模态数据融合和处理输入稀疏性的新策略。


参考



[1] Deep Depth Completion from Extremely Sparse Data: A Survey


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
3月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:智能数据隐私保护
使用Python实现深度学习模型:智能数据隐私保护 【10月更文挑战第3天】
191 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的魔法:如何用神经网络解锁数据的奥秘
在人工智能的璀璨星空中,深度学习犹如一颗最亮的星,它以其强大的数据处理能力,改变了我们对世界的认知方式。本文将深入浅出地介绍深度学习的核心概念、工作原理及其在不同领域的应用实例,让读者能够理解并欣赏到深度学习技术背后的奇妙和强大之处。
53 3
|
5月前
|
机器学习/深度学习 缓存 数据处理
《零基础实践深度学习》2.3.3 校验数据有效性 基于飞桨Dataset和DataLoader API完成数据处理
这篇文章详细介绍了在深度学习任务中进行数据处理的步骤,包括数据校验、封装数据读取与处理函数、使用飞桨Dataset和DataLoader API完成数据加载,以及数据增强/增广的方法和实践,旨在确保数据的有效性和提高模型训练效果。
|
5月前
|
机器学习/深度学习 传感器 自然语言处理
深度学习的魔法:如何用神经网络解锁数据的秘密
在这个数字信息爆炸的时代,深度学习技术如同一把钥匙,揭开了数据隐藏的层层秘密。本文将深入浅出地探讨深度学习的核心概念、关键技术和实际应用,带领读者领略这一领域的奥秘与魅力。通过生动的比喻和直观的解释,我们将一起走进神经网络的世界,看看这些由数据驱动的“大脑”是如何学习和成长的。无论你是科技爱好者还是行业新手,这篇文章都将为你打开一扇通往未来的大门。
|
4月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:智能数据隐私保护
使用Python实现深度学习模型:智能数据隐私保护
97 1
|
4月前
|
机器学习/深度学习 数据采集 计算机视觉
深度学习之缺失数据的图像修复
基于深度学习的缺失数据图像修复是一种通过深度学习技术填补图像中缺失或损坏部分的过程。这种技术在图像处理领域具有重要意义,能够改善图像的视觉质量,并在许多实际应用中发挥作用,如图像恢复、视频编辑和图像生成等。
86 4
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习与神经网络:探索复杂数据的表示
【9月更文挑战第26天】深度学习作为人工智能领域的明珠,通过神经网络自动从大数据中提取高级特征,实现分类、回归等任务。本文介绍深度学习的基础、张量表示、非线性变换、反向传播及梯度下降算法,并探讨其在计算机视觉、自然语言处理等领域的应用与挑战。未来,深度学习将更加智能化,揭示数据背后的奥秘。
|
4月前
|
机器学习/深度学习 自然语言处理 计算机视觉
深度学习之文本引导的图像编辑
基于深度学习的文本引导的图像编辑(Text-Guided Image Editing)是一种通过自然语言文本指令对图像进行编辑或修改的技术。
78 8
|
3月前
|
机器学习/深度学习 自然语言处理
【绝技揭秘】模型微调与RAG神技合璧——看深度学习高手如何玩转数据,缔造预测传奇!
【10月更文挑战第5天】随着深度学习的发展,预训练模型因泛化能力和高效训练而备受关注。直接应用预训练模型常难达最佳效果,需进行微调以适应特定任务。本文介绍模型微调方法,并通过Hugging Face的Transformers库演示BERT微调过程。同时,文章探讨了检索增强生成(RAG)技术,该技术结合检索和生成模型,在开放域问答中表现出色。通过实际案例展示了RAG的工作原理及优势,提供了微调和RAG应用的深入理解。
106 0
|
5月前
|
机器学习/深度学习 自然语言处理 数据处理
深度学习的数据增强
基于深度学习的数据增强技术旨在通过生成或变换现有数据,来提高模型的泛化能力和鲁棒性。数据增强在图像、文本、语音等各种类型的数据处理中都起着至关重要的作用。
60 1