每日学术速递4.25

简介: 场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Long-Term Photometric Consistent Novel View Synthesis with Diffusion Models


206d315319782f93bc93f647be9aa196.png

标题:具有扩散模型的长期光度一致的新视图合成

作者:Jason J. Yu, Fereshteh Forghani, Konstantinos G. Derpanis, Marcus A. Brubaker

文章链接:https://arxiv.org/abs/2304.10700

项目代码:https://yorkucvil.github.io/Photoconsistent-NVS/

1c032c8d2e522ec32edb8bfd854461bc.png

43ca8d07721d923e3489bae527d2ace9.png

55b09115c45f9e3796f168e8461a7a3e.png

1d5446b7f748853a40da4733aa8c8c58.png

摘要:

       从单个输入图像合成新的视图是一项具有挑战性的任务,其目标是从可能被大运动分开的所需相机姿势生成场景的新视图。由于场景内(即遮挡)和视野外的未观察到的元素,这种合成任务的高度不确定性使得使用生成模型来捕获各种可能的输出很有吸引力。在本文中,我们提出了一种新颖的生成模型,该模型能够生成与指定相机轨迹一致的一系列逼真图像,以及单个起始图像。我们的方法以基于自回归条件扩散的模型为中心,该模型能够以几何一致的方式内插可见场景元素,并外推视图中未观察到的区域。调节仅限于捕获单个相机视图的图像和新相机视图的(相对)姿势。为了测量一系列生成视图的一致性,我们引入了一个新的度量标准,即阈值对称对极距离 (TSED),以测量序列中一致帧对的数量。虽然先前的方法已被证明可以在成对的视图中产生高质量的图像和一致的语义,但我们根据我们的指标凭经验表明它们通常与所需的相机姿势不一致。相比之下,我们证明我们的方法可以产生逼真的图像和视图一致的图像。

2.VisFusion: Visibility-aware Online 3D Scene Reconstruction from Videos(CVPR 2023)

8ade250acd5fd0601b27b28b6db8c71e.png

标题:VisFusion:基于视频的可见性在线 3D 场景重建

作者:Huiyu Gao, Wei Mao, Miaomiao Liu

文章链接:https://arxiv.org/abs/2304.10687

项目代码:https://github.com/huiyu-gao/VisFusion

3c3beb279cd8b730f2472fd3658d4523.png

cc501ac7f040172de992e5bf85d58af4.png

8190315c7da147ca23ba90698745e50a.png

e80bdf036dcc2dd35ffd3b059ff63f49.png

b2b1689feae1a1b0e1a34cc266ab8e1d.png

摘要:

       我们提出了 VisFusion,这是一种基于姿势单眼视频的可见性感知在线 3D 场景重建方法。特别是,我们的目标是从体积特征重建场景。与以前的重建方法不同,它从输入视图中聚合每个体素的特征而不考虑其可见性,我们的目标是通过从每个图像对中的投影特征计算出的相似性矩阵明确推断其可见性来改进特征融合。继之前的工作之后,我们的模型是一个由粗到细的管道,包括体积稀疏化过程。与他们使用固定占用阈值全局稀疏体素的作品不同,我们沿着每条视觉射线对局部特征量执行稀疏化,以每条射线至少保留一个体素以获得更多细节。然后将稀疏局部体积与全局体积融合以进行在线重建。我们进一步建议通过跨尺度学习其残差以从粗到细的方式预测 TSDF,从而获得更好的 TSDF 预测。基准测试的实验结果表明,我们的方法可以在更多场景细节的情况下实现卓越的性能。

3.Factored Neural Representation for Scene Understanding

08d834581bb5e6a1ba953869819446e9.png

标题:用于场景理解的分解神经表示

作者:Yu-Shiang Wong, Niloy J. Mitra

文章链接:https://arxiv.org/abs/2304.10950

项目代码:https://yushiangw.github.io/factorednerf/

4c2b5eaa865c40f621ab6cc88acf7241.png

aaf8cfaed2b88ceb1549f7091b94e7ce.png

5b84cbc4a4b26bfff7941ea8561c2314.png

5ba748b7f6f1d57f8db9d5e8157f04e9.png

03ca21a811836e4767b3b7f89c22f588.png

摘要:

       场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。神经表征的出现,尤其是神经隐式表征和辐射场,开启了端到端优化以共同捕捉几何、外观和物体运动的可能性。然而,当前的方法产生全局场景编码,假设多视图捕获在场景中有有限的或没有运动,并且不便于在新颖的视图合成之外进行简单的操作。在这项工作中,我们引入了一个分解的神经场景表示,它可以直接从单目 RGB-D 视频中学习,以生成对象级神经表示,并带有对象运动(例如,刚性轨迹)和/或变形(例如,非刚性运动)。我们针对合成数据和真实数据的一组神经方法评估我们的方法,以证明表示是有效的、可解释的和可编辑的(例如,改变对象轨迹)。

目录
相关文章
|
存储 NoSQL 应用服务中间件
如何高效存储海量GPS数据
GPS数据使用越来越广,但如何高性能存储海量GPS数据仍然具有挑战,本文会介绍一种非常适合存储GPS数据的存储系统:阿里云NoSQL数据库TableStore,同时会介绍多个不同场景的技术方案。
23878 0
|
关系型数据库 MySQL Docker
docker 安装 mysql 5.7
docker 安装 mysql 5.7
5581 0
|
安全 数据可视化 网络安全
Grafana文件读取漏洞(CVE-2021-43798)
Grafana文件读取漏洞(CVE-2021-43798)
649 0
|
人工智能 运维 Serverless
Serverless GPU:助力 AI 推理加速
近年来,AI 技术发展迅猛,企业纷纷寻求将 AI 能力转化为商业价值,然而,在部署 AI 模型推理服务时,却遭遇成本高昂、弹性不足及运维复杂等挑战。本文将探讨云原生 Serverless GPU 如何从根本上解决这些问题,以实现 AI 技术的高效落地。
1041 42
|
机器学习/深度学习 人工智能 算法
【DSW Gallery】PAI-DSW快速入门
PAI-DSW是一款为AI开发者量身定制的云端机器学习交互式开发IDE,随时随地开启Notebook快速读取数据、开发算法、训练及部署模型。本文介绍如何快速上手PAI-DSW。
【DSW Gallery】PAI-DSW快速入门
|
JavaScript 前端开发
Vue3+ElementPlus+Axios实现从后端请求数据并渲染
Vue3+ElementPlus+Axios实现从后端请求数据并渲染
3264 0
|
Linux API 开发者
元象大模型开源30款量化版本 加速低成本部署丨附教程
元象大模型一次性发布30款量化版本,全开源,无条件免费商用。
|
Java 数据库连接 数据库
Spring Boot之Mybatis Plus:简化持久层开发的利器
本篇详细介绍了如何在Spring Boot应用中使用MyBatis Plus,一个用于简化持久层开发的工具。读者可以轻松实现CRUD操作,从而提高开发效率。展示了使用MyBatis Plus进行数据库操作的具体步骤。
1036 5
Spring Boot之Mybatis Plus:简化持久层开发的利器
|
SQL
openGauss并行查询测试(二)
openGauss并行查询测试
1234 0