CVPR2023 | 无需动态区域分割!多帧深度估计新进展:跨线索注意力机制提升动态区域精度

简介: CVPR2023 | 无需动态区域分割!多帧深度估计新进展:跨线索注意力机制提升动态区域精度

f585070bb1ad0850cfdd766b93148f48.png


Title: Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth Estimation in Dynamic Scenes


Paper: https://arxiv.org/pdf/2304.08993.pdf


Code: https://github.com/ruili3/dynamic-multiframe-depth


导读


多帧深度估计依赖静态场景下的多视角一致性获得高精度结果。然而,在室外场景中,由于存在各类违反静态假设的运动区域,导致多帧方法在动态区域的精度显著降低。本文提出了一个适用于动态场景的多帧深度估计网络,其通过提出的跨线索注意力机制Cross-cue attention, 有效结合并进一步提升多帧/单帧深度线索的优势,在无需引入任何动态区域分割情况下, 实现显著优于单/多帧方法动态区域深度估计效果。


动机


以往多帧深度估计方法采用“分割动态区域+单帧估计补偿”的思路解决动态区域深度估计难题。然而


方法对动态区域分割结果高度敏感,分割精度引入了额外的不确定性

动态区域精度往往受限于单帧估计效果,难以实现基于单帧的显著提升

论文基于此探索了以下问题:


能否在不引入动态区域分割的情况下,实现显著优于多帧/单帧精度的动态深度结果?


单帧/多帧线索的表现(从左至右:深度图,误差图,重建点云)

如上图所示,通过进一步分析单帧/多帧线索在动态场景中的表现,论文发现,单帧线索能更好捕捉动态物体的外形,但静态场景的精度不足;而多帧方法静态精度很高,但动态区域场景结构存在明显变形。两个线索的互补特性展示了相互提升的潜力:


多帧静态结构信息可增强单帧整体精度,进而引领单帧动态区域精度的进一步提升

单帧动态结构信息可用于增强多帧动态区域精度,最终输出高精度的动态场景深度

为实现这一目标,本文提出跨线索的融合模块Cross-cue Fusion module,无需显式分割即可实现两个深度线索的有效融合。


方法


image.png

单/多帧代价体构造


image.png


跨线索融合模块


image.png


跨线索注意力机制


image.png

动态区域(红点)的单帧内部结构信息($R_{\text {mono}}$)和多帧内部结构信息($R_{\text {mono}}$)可视化


CCA在跨线索增强中的区域选择特性


image.png


单帧线索(第2列)所传递的信息集中于动态区域周边,表明网络可学习单帧线索在动态区域的有用信息,进而传递至多帧线索

而多帧线索(第3列)所传递的信息分布于较广的静态区域,表明网络可学习多帧线索在静态区域的有用信息,进而传递至单帧线索

CCA在不同深度线索下信息传递的区域选择特性,表明了其在无需动态区域分割条件下进行高精度深度估计的潜力,从而避免了引入额外的分割机制。

实验结果

KITTI结果

如上所示,论文在KITTI Odometry数据集开展比较并分别展示多帧动态场景整体精度和动态区域精度。本方法动态误差相较以往最优方法显著降低超过 21%(Abs.Rel 0.141 $\rightarrow $ 0.111),同时达到了最优的全局深度估计精度。可视化结果表明,方法可显著降低动态区域深度估计误差,并可重建更符合的动态物体结构的三维点云。


跨数据集泛化性比较


DDAD数据集上的泛化性评估

将KITTI训练的模型在DDAD数据集进行测试,实验结果表明,论文可实现与当前最优方法同等的整体泛化精度,同时在动态物体精度上达到优于当前先进方法的泛化性能。


相对单帧的能力提升&可扩展性评估


动态物体相对单帧估计提升以及模型可扩展性评估

在以往方法中,单帧估计精度是制约动态区域效果的重要因素。论文展示了不同方法相对于其各自单帧网络在动态物体区域的性能提升。论文在动态区域估计误差比其单帧分支估计误差降低21.81 21.8121.81%,显著优于其他方法(上表1~3行)。同时,在应用更优单帧估计网络的情况下,论文实现了基于更优单帧性能的同等幅度提升(上表3-4行),展示了其灵活性及可扩展性。


总结


本论文提出了一种新的动态场景多帧深度估计方法。通过更好对单/多帧深度线索进行融合并相互提升,实现了在无需运动分割情况下的高精度动态区域深度估计。实验证明,方法实现更优整体/动态区域深度估计效果同时,具有良好的泛化性和可扩展性。


目录
相关文章
|
8月前
|
机器学习/深度学习 编解码 计算机视觉
|
编解码 算法 数据可视化
【多重信号分类】超分辨率测向方法——依赖于将观测空间分解为噪声子空间和源/信号子空间的方法具有高分辨率(HR)并产生准确的估计(Matlab代码实现)
【多重信号分类】超分辨率测向方法——依赖于将观测空间分解为噪声子空间和源/信号子空间的方法具有高分辨率(HR)并产生准确的估计(Matlab代码实现)
123 0
|
存储 传感器 编解码
苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割
苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割
135 0
|
8月前
|
机器学习/深度学习 计算机视觉
YOLOv5改进 | 2023 | SCConv空间和通道重构卷积(精细化检测,又轻量又提点)
YOLOv5改进 | 2023 | SCConv空间和通道重构卷积(精细化检测,又轻量又提点)
240 1
|
8月前
|
机器学习/深度学习 计算机视觉
YOLOv8改进 | 2023 | SCConv空间和通道重构卷积(精细化检测,又轻量又提点)
YOLOv8改进 | 2023 | SCConv空间和通道重构卷积(精细化检测,又轻量又提点)
254 0
|
机器学习/深度学习 传感器 算法
【图像重建】在线全息图的迭代双图像自由重建附matlab代码
【图像重建】在线全息图的迭代双图像自由重建附matlab代码
|
人工智能 计算机视觉
CVPR 2019|APCNet:基于全局引导的局部匹配度自适应金字塔上下文网络
不同物体可能有相似的特征,如木桌和椅子有相似的纹理,会造成歧义
182 0
CVPR 2019|APCNet:基于全局引导的局部匹配度自适应金字塔上下文网络
|
机器学习/深度学习 编解码 计算机视觉
真的这么丝滑吗?Hinton组提出基于大型全景掩码的实例分割框架,图像视频场景丝滑切换
真的这么丝滑吗?Hinton组提出基于大型全景掩码的实例分割框架,图像视频场景丝滑切换
|
机器学习/深度学习 算法 测试技术
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节(1)
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
312 0

热门文章

最新文章

下一篇
开通oss服务