没有3D卷积的3D重建方法,A100上重建一帧仅需70ms

简介: 没有3D卷积的3D重建方法,A100上重建一帧仅需70ms
来自 Niantic 和 UCL 等机构的研究者使用精心设计和训练的 2D 网络,实现了高质量的深度估计和 3D 重建。


从姿态图像重建 3D 室内场景通常分为两个阶段:图像深度估计,然后是深度合并(depth merging)和表面重建(surface reconstruction)。最近,多项研究提出了一系列直接在最终 3D 体积特征空间中执行重建的方法。虽然这些方法已经获得出令人印象深刻的重建结果,但它们依赖于昂贵的 3D 卷积层,限制其在资源受限环境中的应用。

现在,来自 Niantic 和 UCL 等机构的研究者尝试重新使用传统方法,并专注于高质量的多视图深度预测,最终使用简单现成的深度融合方法实现了高精度的 3D 重建。



该研究利用强大的图像先验以及平面扫描特征量和几何损失,精心设计了一个 2D CNN。所提方法 SimpleRecon 在深度估计方面取得了显著领先的结果,并且允许在线实时低内存重建。

如下图所示,SimpleRecon 的重建速度非常快,每帧仅用约 70ms。


SimpleRecon 和其他方法的比较结果如下:



方法

深度估计模型位于单目深度估计与平面扫描 MVS 的交点,研究者用 cost volume(代价体积)来增加深度预测编码器 - 解码器架构,如图 2 所示。图像编码器从参考图像和源图像中提取匹配特征,以输入到 cost volume。使用 2D 卷积编码器 - 解码器网络来处理 cost volume 的输出,此外研究者还使用单独的预训练图像编码器提取的图像级特征进行增强。


该研究的关键是将现有的元数据与典型的深度图像特征一起注入到 cost volume 中,以允许网络访问有用的信息,如几何和相对相机姿态信息。图 3 详细地显示了 feature volume 构造。通过整合这些之前未开发的信息,该研究的模型能够在深度预测方面显著优于之前的方法,而无需昂贵的 4D cost volume 成本、复杂的时间融合以及高斯过程。


该研究使用 PyTorch 来实现,并使用 EfficientNetV2 S 作为主干,其具有类似于 UNet++ 的解码器,此外,他们还使用 ResNet18 的前 2 个块进行匹配特征提取,优化器为 AdamW ,在两块 40GB A100 GPU 上耗时 36 小时完成。

网络架构设计

网络是基于 2D 卷积编码器 - 解码器架构实现的。在构建这种网络时,研究发现有一些重要的设计选择可以显著提高深度预测准确率,主要包括:

基线 cost volume 融合:虽然基于 RNN 的时间融合方法经常被使用,但它们显著增加了系统的复杂性。相反,该研究使得 cost volume 融合尽可能简单,并发现简单地将参考视图和每个源视图之间的点积匹配成本相加,可以得到与 SOTA 深度估计相竞争的结果。

图像编码器和特征匹配编码器:先前研究表明,图像编码器对深度估计非常重要,无论是在单目和多视图估计中。例如 DeepVideoMVS 使用 MnasNet 作为图像编码器,其具有相对较低的延迟。该研究建议使用很小但更强大的 EfficientNetv2 S 编码器,虽然这样做的代价是增加了参数量,并降低了 10% 的执行速度,但它大大提高了深度估计的准确率。

融合多尺度图像特征到 cost volume 编码器:在基于 2D CNN 的深度立体和多视角立体中,图像特征通常与单尺度上的 cost volume 输出相结合。最近,DeepVideoMVS 提出在多尺度上拼接深度图像特征,在所有分辨率上增加图像编码器和 cost volume 编码器之间的跳跃连接。这对基于 LSTM 的融合网络很有帮助,该研究发现这对他们的架构也同样重要。

实验

该研究在 3D 场景重建数据集 ScanNetv2 上训练和评估了所提方法。下表 1 使用 Eigen 等人 (2014) 提出的指标来评估几个网络模型的深度预测性能。


令人惊讶的是,该研究所提模型不使用 3D 卷积,在深度预测指标上却优于所有基线模型。此外,不使用元数据编码的基线模型也比以前的方法表现更好,这表明精心设计和训练的 2D 网络足以进行高质量的深度估计。下图 4 和图 5 显示了深度和法线的定性结果。



该研究使用 TransformerFusion 建立的标准协议进行 3D 重建评估,结果如下表 2 所示。


对于在线和交互式 3D 重建应用,减少传感器延迟是至关重要的。下表 3 展示了给定一个新的 RGB 帧,各个模型对每帧的集成计算时间。


为了验证该研究所提方法中各个组件的有效性,研究者进行了消融实验,结果如下表 4 所示。


感兴趣的读者可以阅读论文原文,了解更多研究细节。

相关文章
|
机器学习/深度学习 存储 编解码
Open3d系列 | 3. Open3d实现点云上采样、点云聚类、点云分割以及点云重建
Open3d系列 | 3. Open3d实现点云上采样、点云聚类、点云分割以及点云重建
9547 0
Open3d系列 | 3. Open3d实现点云上采样、点云聚类、点云分割以及点云重建
|
22天前
|
自然语言处理 数据可视化 API
优化采样参数提升大语言模型响应质量:深入分析温度、top_p、top_k和min_p的随机解码策略
本文详细解析了大语言模型(LLM)的采样策略及其关键参数,如温度和top_p。LLM基于输入提示生成下一个标记的概率分布,通过采样策略选择标记并附回输入,形成循环。文章介绍了对数概率(logprobs)、贪婪解码、温度参数调整、top-k与top-p采样等概念,并探讨了min-p采样这一新方法。通过调整这些参数,可以优化LLM输出的质量和创造性。最后,文章提供了实验性尝试的建议,帮助读者在特定任务中找到最佳参数配置。本文使用VLLM作为推理引擎,展示了Phi-3.5-mini-instruct模型的应用实例。
33 6
|
2月前
|
PyTorch 测试技术 算法框架/工具
【YOLOv8改进 - 卷积Conv】SPConv:去除特征图中的冗余,大幅减少参数数量 | 小目标
YOLO目标检测专栏探讨了模型优化,提出SPConv,一种新卷积操作,减少特征冗余,提升效率。SPConv将特征分为代表性和不确定部分,分别处理,再融合。实验显示,SPConv在速度和准确性上超越现有基准,减少FLOPs和参数。论文和PyTorch代码已公开。更多详情及实战案例见CSDN博客链接。
|
4月前
|
机器学习/深度学习 编解码 算法
SwinFIR:用快速傅里叶卷积重建SwinIR和改进的图像超分辨率训练
SwinFIR:用快速傅里叶卷积重建SwinIR和改进的图像超分辨率训练
173 1
|
4月前
|
传感器 移动开发 测试技术
通过卷积公式学习声速重建的成像模型
【1月更文挑战第1篇】通过卷积公式学习声速重建的成像模型
65 2
|
4月前
YOLOv8改进 | SAConv可切换空洞卷积(附修改后的C2f+Bottleneck)
YOLOv8改进 | SAConv可切换空洞卷积(附修改后的C2f+Bottleneck)
279 0
|
4月前
|
传感器 数据采集 编解码
基于EinScan-S的编码结构光方法空间三维模型重建
基于EinScan-S的编码结构光方法空间三维模型重建
|
机器学习/深度学习 传感器 算法
【视频处理】通过调用图像来重建新影片及计算颜色通道的平均灰度值,并检测帧与前一帧之间的差异(Matlab代码实现)
【视频处理】通过调用图像来重建新影片及计算颜色通道的平均灰度值,并检测帧与前一帧之间的差异(Matlab代码实现)
|
机器学习/深度学习 编解码 算法
【图像重建】基于OMP,CoSaMP,IHT,IRLS,GBP,SP和ROMP实现图像感知重建附matlab代码
【图像重建】基于OMP,CoSaMP,IHT,IRLS,GBP,SP和ROMP实现图像感知重建附matlab代码
|
存储 编解码 算法
使用迭代最近点算法组合多个点云以重建三维场景
使用迭代最近点算法组合多个点云以重建三维场景。
250 0