Title: Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth Estimation in Dynamic Scenes
Paper: https://arxiv.org/pdf/2304.08993.pdf
Code: https://github.com/ruili3/dynamic-multiframe-depth
导读
多帧深度估计依赖静态场景下的多视角一致性获得高精度结果。然而,在室外场景中,由于存在各类违反静态假设的运动区域,导致多帧方法在动态区域的精度显著降低。本文提出了一个适用于动态场景的多帧深度估计网络,其通过提出的跨线索注意力机制Cross-cue attention, 有效结合并进一步提升多帧/单帧深度线索的优势,在无需引入任何动态区域分割情况下, 实现显著优于单/多帧方法动态区域深度估计效果。
动机
以往多帧深度估计方法采用“分割动态区域+单帧估计补偿”的思路解决动态区域深度估计难题。然而
方法对动态区域分割结果高度敏感,分割精度引入了额外的不确定性
动态区域精度往往受限于单帧估计效果,难以实现基于单帧的显著提升
论文基于此探索了以下问题:
能否在不引入动态区域分割的情况下,实现显著优于多帧/单帧精度的动态深度结果?
单帧/多帧线索的表现(从左至右:深度图,误差图,重建点云)
如上图所示,通过进一步分析单帧/多帧线索在动态场景中的表现,论文发现,单帧线索能更好捕捉动态物体的外形,但静态场景的精度不足;而多帧方法静态精度很高,但动态区域场景结构存在明显变形。两个线索的互补特性展示了相互提升的潜力:
多帧静态结构信息可增强单帧整体精度,进而引领单帧动态区域精度的进一步提升
单帧动态结构信息可用于增强多帧动态区域精度,最终输出高精度的动态场景深度
为实现这一目标,本文提出跨线索的融合模块Cross-cue Fusion module,无需显式分割即可实现两个深度线索的有效融合。
方法
单/多帧代价体构造
跨线索融合模块
跨线索注意力机制
动态区域(红点)的单帧内部结构信息($R_{\text {mono}}$)和多帧内部结构信息($R_{\text {mono}}$)可视化
CCA在跨线索增强中的区域选择特性
单帧线索(第2列)所传递的信息集中于动态区域周边,表明网络可学习单帧线索在动态区域的有用信息,进而传递至多帧线索
而多帧线索(第3列)所传递的信息分布于较广的静态区域,表明网络可学习多帧线索在静态区域的有用信息,进而传递至单帧线索
CCA在不同深度线索下信息传递的区域选择特性,表明了其在无需动态区域分割条件下进行高精度深度估计的潜力,从而避免了引入额外的分割机制。
实验结果
KITTI结果
如上所示,论文在KITTI Odometry数据集开展比较并分别展示多帧动态场景整体精度和动态区域精度。本方法动态误差相较以往最优方法显著降低超过 21%(Abs.Rel 0.141 $\rightarrow $ 0.111),同时达到了最优的全局深度估计精度。可视化结果表明,方法可显著降低动态区域深度估计误差,并可重建更符合的动态物体结构的三维点云。
跨数据集泛化性比较
DDAD数据集上的泛化性评估
将KITTI训练的模型在DDAD数据集进行测试,实验结果表明,论文可实现与当前最优方法同等的整体泛化精度,同时在动态物体精度上达到优于当前先进方法的泛化性能。
相对单帧的能力提升&可扩展性评估
动态物体相对单帧估计提升以及模型可扩展性评估
在以往方法中,单帧估计精度是制约动态区域效果的重要因素。论文展示了不同方法相对于其各自单帧网络在动态物体区域的性能提升。论文在动态区域估计误差比其单帧分支估计误差降低21.81 21.8121.81%,显著优于其他方法(上表1~3行)。同时,在应用更优单帧估计网络的情况下,论文实现了基于更优单帧性能的同等幅度提升(上表3-4行),展示了其灵活性及可扩展性。
总结
本论文提出了一种新的动态场景多帧深度估计方法。通过更好对单/多帧深度线索进行融合并相互提升,实现了在无需运动分割情况下的高精度动态区域深度估计。实验证明,方法实现更优整体/动态区域深度估计效果同时,具有良好的泛化性和可扩展性。