ECCV 2022|DynamicDepth:动态场景下的多帧自监督深度估计

简介: 在DOMD进行crop-粘贴的操作之后,图片中已不存在动态物体,但是新的问题又出现了,那就是遮挡区域,如下图的输入部分,我们可以看到crop后的部分区域是黑色的,因为该部分实际被遮挡了,因此本文在构建cost volume的时候需要考虑到被遮挡的情况。如上图所示,被遮挡部分的特征被临近部分的数据所填充,这样可以促进训练的梯度流向附近的non-occluded区域。

🏆前言:本文别名DynamicDepth (github),如本文的名字所示,本文着重处理的就是动态场景下的多帧自监督深度估计问题。因为MVS在动态场景下会失效,所以在动态区域的多帧深度并不可靠。现在的已有方法例如ManyDepth,利用teacher-student网络结构,让多帧部分的网络在不可信区域向单帧部分的网络学习,但是所谓不可信区域的判断准则仅仅是依靠多帧深度和单帧深度的差异来计算的,不一定准确。所以DynamicDepth提出的核心论点就是显示地构建动态区域的优化。


dfcbc1ab9ac07117067cc5cf16215724.png


会议/期刊:2022ECCV


论文题目:《Disentangling Object Motion and Occlusion for Unsupervised Multi-frame Monocular Depth》

论文链接:Disentangling Object Motion and Occlusion for Unsupervised Multi-frame Monocular Depth

开源代码:AutoAILab/DynamicDepth(github.com)

YouTube:[ECCV 2022] Disentangling Object Motion and Occlusion for Unsupervised Multi-frame Monocular Depth - YouTube


解决的问题


先前的工作都是存在以下缺陷:


  • 针对运动物体,都是在损失函数水平上解决不匹配问题,而不能利用运动物体的帧间关系推导出几何关系
  • 并未解决物体运动引起的遮挡问题
  • 运动方向估计网络(我认为是指光流法)增加模型复杂性,不适用于柔性目标


29a47666e275c0542b40f77b08ca8d5d.png


基本流程


8bc74b22e8cbf072f20bb690682c5bd8.png


1.首先使用一个深度先验估计网络(Depth Prior Net)输出深度图 image.png,姿态估计网络(Pose Net)输出帧间运动关系

2.将2个结果输入DOMD模块中,解决物体运动引起的不匹配问题,得到运动物体被解耦的帧 image.png

3.image.png、It会进入到遮挡感知模块,用于解决遮挡问题,得到预测出的深度图 D t 在训练的时候,动态物体周期一致损失将使得深度图先验 D t 和深度图预测结果image.png互相提高


实施细节


动态物体解耦(DOMD)


首先我们来回顾一下动态场景会对多帧深度学习造成什么样的影响?


如下图所示,在MVS的静态假设下,我们认为被拍摄的物体没有移动。从 t 时刻和 t−1 时刻观察该物体,他们的位置都在W(两条线相交于一点),因此他们在图象上的对应区域是 C t 和 C t − 1 。但是在实际场景中,物体已经从W t − 1 移动到 W t ,在图像上匹配的区域应该是 image.png和 C t


71822a57b3da7adca1a458f53ac77c73.png


用动画来表示:


e803d51865284de2a3c7d4d878c702a6.gif


为了避免这种匹配错误,本文提出的DOMD模块先利用预训练的分割网络分割出人,车等动态区域,得到分割掩码 ( S t − 1 , S t ) ,和两帧图片 ( I t − 1 , I t )作为输入,生成解耦后的图片image.png

image.png


具体来说,我们首先使用单帧深度先验网络 θ D P N来预测初始深度先验image.png  ,image.png用于将 C t

重投影到image.pngimage.png表示 t-1 时刻相机看 W t点的像素块。最后,得到image.png  。该过程用公式可以表达如下,p i t − 1 表示映射关系:


image.png


这个过程有点像crop-粘贴的操作,其结果是,t时刻帧不再有动态物体


该过程如下所示:


adeea856bc2eefe032246063893e310b.gif


遮挡感知成本量


0c1885580eb02619b29229b79b03fd86.png


在DOMD进行crop-粘贴的操作之后,图片中已不存在动态物体,但是新的问题又出现了,那就是遮挡区域,如下图的输入部分,我们可以看到crop后的部分区域是黑色的,因为该部分实际被遮挡了,因此本文在构建cost volume的时候需要考虑到被遮挡的情况。如上图所示,被遮挡部分的特征被临近部分的数据所填充,这样可以促进训练的梯度流向附近的non-occluded区域。


cost values的公式计算:


image.png


训练细节


我们使用帧 i t − 1 , i t , i t + 1  进行训练,使用i t + 1 ,i t进行测试。本文的所有动态对象都是由预训练好的语义分割模型EffcientPS得到


总结


24bbad088d4aadd8018fd859802b4759.png


由上图可知,DynamicDepth相比于之前的工作,其深度预测更准确,特别是在Cityscapes上,原因是该数据集包含更多动态对象。


具体来说,其贡献可以总结为以下几点:


  • 提出了一种新的动态物体运动解耦(DOMD)模块,该模块利用初始深度先验和分割网络来解决最终深度预测中的物体运动不匹配问题
  • 设计了一种针对运动物体周期性的训练方案(Dynamic Object Cycle Consistent training scheme),相辅相成提高先验深度估计和最终深度估计
  • 我们设计了一个遮挡感知损失缓解DOMD解耦后运动目标的遮挡问题


但Dynamic依然存在的问题是:利用了预训练的分割网络,导致预测的深度结果和分割网络的性能密切相关

参考资料


单目多帧自监督深度估计(2021-2022)研究进展 - 知乎 (zhihu.com)

相关文章
|
传感器 机器学习/深度学习 编解码
最新综述!基于视觉的自动驾驶环境感知(单目、双目和RGB-D)
目相机使用来自单个视点的图像数据作为输入来估计对象深度,相比之下,立体视觉是基于视差和匹配不同视图的特征点,深度学习的应用也进一步提高了准确性。此外,SLAM可以建立道路环境模型,从而帮助车辆感知周围环境并完成任务。本文介绍并比较了各种目标检测和识别方法,然后解释了深度估计的发展,并比较了基于单目、立体和RGB-D传感器的各种方法,接下来回顾并比较了SLAM的各种方法。最后总结了当前存在的问题,并提出了视觉技术的未来发展趋势。
最新综述!基于视觉的自动驾驶环境感知(单目、双目和RGB-D)
|
缓存 开发工具 git
【git】解决:remote: Permission to xxxx/xxxx.git denied to xxxx
【git】解决:remote: Permission to xxxx/xxxx.git denied to xxxx
1260 0
|
3月前
|
移动开发 Cloud Native 安全
Java:跨平台之魂,企业级开发的磐石
Java:跨平台之魂,企业级开发的磐石
Linux中将文件解压到指定目录
Linux中将文件解压到指定目录
1044 19
|
机器学习/深度学习 存储 边缘计算
深度学习之稀疏训练
基于深度学习的稀疏训练(Sparse Training)是一种在训练过程中直接构建和优化稀疏模型的技术,旨在减少深度神经网络中的冗余计算和存储需求,提高训练效率和推理速度,同时保持模型性能。
984 1
|
机器学习/深度学习 自然语言处理 机器人
编码器-解码器(Encoder-Decoder)结构
编码器-解码器(Encoder-Decoder)结构
1838 5
|
编解码 前端开发 开发者
深入探讨前端开发中的响应式设计与跨平台兼容性
在当今移动互联网时代,前端开发中的响应式设计和跨平台兼容性显得尤为重要。本文将深入探讨如何通过技术手段实现页面布局的自适应,并介绍一些常用的跨平台兼容性解决方案,帮助开发者更好地应对多样化的设备和浏览器环境。
|
存储 缓存 算法
ffmpeg 音视频同步进阶 剖析:ffmpeg音视频同步中特殊情况处理策略
ffmpeg 音视频同步进阶 剖析:ffmpeg音视频同步中特殊情况处理策略
625 0
|
机器学习/深度学习 算法 定位技术
CVPR 2017|SfMLearner:单目视频中深度和姿态估计的无监督算法
将相邻帧(包括当前帧、上一帧、下一帧)输入Pose CNN,得到旋转矩阵R和平移矩阵T,预测相机的位姿变化
437 0