CVPR2023 | 无需动态区域分割!多帧深度估计新进展:跨线索注意力机制提升动态区域精度

简介: CVPR2023 | 无需动态区域分割!多帧深度估计新进展:跨线索注意力机制提升动态区域精度

f585070bb1ad0850cfdd766b93148f48.png


Title: Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth Estimation in Dynamic Scenes


Paper: https://arxiv.org/pdf/2304.08993.pdf


Code: https://github.com/ruili3/dynamic-multiframe-depth


导读


多帧深度估计依赖静态场景下的多视角一致性获得高精度结果。然而,在室外场景中,由于存在各类违反静态假设的运动区域,导致多帧方法在动态区域的精度显著降低。本文提出了一个适用于动态场景的多帧深度估计网络,其通过提出的跨线索注意力机制Cross-cue attention, 有效结合并进一步提升多帧/单帧深度线索的优势,在无需引入任何动态区域分割情况下, 实现显著优于单/多帧方法动态区域深度估计效果。


动机


以往多帧深度估计方法采用“分割动态区域+单帧估计补偿”的思路解决动态区域深度估计难题。然而


方法对动态区域分割结果高度敏感,分割精度引入了额外的不确定性

动态区域精度往往受限于单帧估计效果,难以实现基于单帧的显著提升

论文基于此探索了以下问题:


能否在不引入动态区域分割的情况下,实现显著优于多帧/单帧精度的动态深度结果?


单帧/多帧线索的表现(从左至右:深度图,误差图,重建点云)

如上图所示,通过进一步分析单帧/多帧线索在动态场景中的表现,论文发现,单帧线索能更好捕捉动态物体的外形,但静态场景的精度不足;而多帧方法静态精度很高,但动态区域场景结构存在明显变形。两个线索的互补特性展示了相互提升的潜力:


多帧静态结构信息可增强单帧整体精度,进而引领单帧动态区域精度的进一步提升

单帧动态结构信息可用于增强多帧动态区域精度,最终输出高精度的动态场景深度

为实现这一目标,本文提出跨线索的融合模块Cross-cue Fusion module,无需显式分割即可实现两个深度线索的有效融合。


方法


image.png

单/多帧代价体构造


image.png


跨线索融合模块


image.png


跨线索注意力机制


image.png

动态区域(红点)的单帧内部结构信息($R_{\text {mono}}$)和多帧内部结构信息($R_{\text {mono}}$)可视化


CCA在跨线索增强中的区域选择特性


image.png


单帧线索(第2列)所传递的信息集中于动态区域周边,表明网络可学习单帧线索在动态区域的有用信息,进而传递至多帧线索

而多帧线索(第3列)所传递的信息分布于较广的静态区域,表明网络可学习多帧线索在静态区域的有用信息,进而传递至单帧线索

CCA在不同深度线索下信息传递的区域选择特性,表明了其在无需动态区域分割条件下进行高精度深度估计的潜力,从而避免了引入额外的分割机制。

实验结果

KITTI结果

如上所示,论文在KITTI Odometry数据集开展比较并分别展示多帧动态场景整体精度和动态区域精度。本方法动态误差相较以往最优方法显著降低超过 21%(Abs.Rel 0.141 $\rightarrow $ 0.111),同时达到了最优的全局深度估计精度。可视化结果表明,方法可显著降低动态区域深度估计误差,并可重建更符合的动态物体结构的三维点云。


跨数据集泛化性比较


DDAD数据集上的泛化性评估

将KITTI训练的模型在DDAD数据集进行测试,实验结果表明,论文可实现与当前最优方法同等的整体泛化精度,同时在动态物体精度上达到优于当前先进方法的泛化性能。


相对单帧的能力提升&可扩展性评估


动态物体相对单帧估计提升以及模型可扩展性评估

在以往方法中,单帧估计精度是制约动态区域效果的重要因素。论文展示了不同方法相对于其各自单帧网络在动态物体区域的性能提升。论文在动态区域估计误差比其单帧分支估计误差降低21.81 21.8121.81%,显著优于其他方法(上表1~3行)。同时,在应用更优单帧估计网络的情况下,论文实现了基于更优单帧性能的同等幅度提升(上表3-4行),展示了其灵活性及可扩展性。


总结


本论文提出了一种新的动态场景多帧深度估计方法。通过更好对单/多帧深度线索进行融合并相互提升,实现了在无需运动分割情况下的高精度动态区域深度估计。实验证明,方法实现更优整体/动态区域深度估计效果同时,具有良好的泛化性和可扩展性。


目录
相关文章
|
6月前
|
算法
【MFAC】基于全格式动态线性化的无模型自适应控制
【MFAC】基于全格式动态线性化的无模型自适应控制
|
3月前
Sora视频重建与创新路线问题之模型视频的短期时间上下文以预测未来帧,如何处理
Sora视频重建与创新路线问题之模型视频的短期时间上下文以预测未来帧,如何处理
|
4月前
|
机器学习/深度学习 搜索推荐 知识图谱
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
【7月更文挑战第22天】北大港大联手打造SelfGNN,一种结合图神经网络与自监督学习的推荐系统,专攻信息过载及数据噪声难题。SelfGNN通过短期图捕获实时用户兴趣,利用自增强学习提升模型鲁棒性,实现多时间尺度动态行为建模,大幅优化推荐准确度与时效性。经四大真实数据集测试,SelfGNN在准确性和抗噪能力上超越现有模型。尽管如此,高计算复杂度及对图构建质量的依赖仍是待克服挑战。[详细论文](https://arxiv.org/abs/2405.20878)。
80 5
|
4月前
|
机器学习/深度学习 人工智能 计算机视觉
【YOLOv8改进 - 注意力机制】HCF-Net 之 MDCR:多稀释通道细化器模块 ,以不同的稀释率捕捉各种感受野大小的空间特征 | 小目标
HCF-Net是针对红外小目标检测的深度学习模型,采用U-Net改进架构,包含PPA、DASI和MDCR模块。PPA利用多分支特征提取增强小目标表示,DASI实现自适应通道融合,MDCR通过多扩张率深度可分离卷积细化空间特征。实验显示,HCF-Net在SIRST数据集上表现出色,超越其他方法。代码和论文可在给出的链接获取。
|
6月前
|
计算机视觉
YOLOv5改进 | 2023检测头篇 | 利用AFPN增加小目标检测层(让小目标无所遁形)
YOLOv5改进 | 2023检测头篇 | 利用AFPN增加小目标检测层(让小目标无所遁形)
287 0
|
6月前
|
机器学习/深度学习 编解码 计算机视觉
|
编解码 算法 数据可视化
【多重信号分类】超分辨率测向方法——依赖于将观测空间分解为噪声子空间和源/信号子空间的方法具有高分辨率(HR)并产生准确的估计(Matlab代码实现)
【多重信号分类】超分辨率测向方法——依赖于将观测空间分解为噪声子空间和源/信号子空间的方法具有高分辨率(HR)并产生准确的估计(Matlab代码实现)
110 0
|
6月前
|
机器学习/深度学习 计算机视觉
YOLOv5改进 | 2023 | SCConv空间和通道重构卷积(精细化检测,又轻量又提点)
YOLOv5改进 | 2023 | SCConv空间和通道重构卷积(精细化检测,又轻量又提点)
207 1
|
6月前
|
机器学习/深度学习 计算机视觉
YOLOv8改进 | 2023 | SCConv空间和通道重构卷积(精细化检测,又轻量又提点)
YOLOv8改进 | 2023 | SCConv空间和通道重构卷积(精细化检测,又轻量又提点)
223 0
|
6月前
|
计算机视觉
YOLOv8改进 | 2023检测头篇 | 利用AFPN增加小目标检测层(让小目标无所遁形)
YOLOv8改进 | 2023检测头篇 | 利用AFPN增加小目标检测层(让小目标无所遁形)
388 0