每日学术速递4.28

简介: 神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.StepFormer: Self-supervised Step Discovery and Localization in Instructional Videos(CVPR 2023)


e54c260110b515224035b1256e231501.png


标题:StepFormer:教学视频中的自我监督步骤发现和定位

作者:Nikita Dvornik, Isma Hadji, Ran Zhang, Konstantinos G. Derpanis, Animesh Garg, Richard P. Wildes, Allan D. Jepson

文章链接:https://arxiv.org/abs/2304.13265

55b09a381e3803ee33a95054f7ba22f4.png

b30a8da689e8e07c57ba7d1e714e13fb.png

034cb820d0829b693935d94c4926c51b.png

0f199eb4a678dec6025259ee12a9140e.png

14e13915aca93b7b7121133f48bd39b3.png

摘要:

       教学视频是从人类演示中学习程序任务的重要资源。然而,此类视频中的说明步骤通常很短且稀疏,大部分视频与过程无关。这激发了对此类视频中的指令步骤进行时间定位的需要,即称为关键步骤定位的任务。传统的关键步骤定位方法需要视频级别的人工注释,因此无法扩展到大型数据集。在这项工作中,我们在没有人工监督的情况下解决了这个问题,并引入了 StepFormer,这是一种自我监督的模型,可以发现和定位视频中的指令步骤。StepFormer 是一种转换器解码器,它通过可学习的查询处理视频,并生成一系列插槽来捕获视频中的关键步骤。我们在大型教学视频数据集上训练我们的系统,使用它们自动生成的字幕作为唯一的监督来源。特别是,我们使用过滤掉不相关短语的顺序感知损失函数,通过一系列文本叙述来监督我们的系统。我们表明,我们的模型在三个具有挑战性的基准测试中大大优于所有以前的无监督和弱监督的步骤检测和定位方法。此外,我们的模型展示了解决零样本多步定位的涌现属性,并且在该任务中优于所有相关基线。

2.Patch-based 3D Natural Scene Generation from a Single Example(CVPR 2023)

01e3b012aba9185acf0913705c5aac45.png

标题:从单个示例生成基于补丁的 3D 自然场景

作者:Weiyu Li, Xuelin Chen, Jue Wang, Baoquan Chen

文章链接:https://arxiv.org/abs/2304.12670

项目代码:http://weiyuli.xyz/Sin3DGen/

67581ea942418782c6499cfc9a2f428d.png

d48e68636e5fc13f0a66ad7dd0c4a9bf.png

6b2ef5a7ae0a0aeea5993c6c8ae1a1f1.png

a3106de5b472f1d684fff61c1d6f0d04.png


摘要:

       我们针对通常独特且复杂的一般自然场景的 3D 生成模型。缺乏必要的训练数据量,以及在存在不同场景特征的情况下进行临时设计的困难,使现有设置变得难以处理。受经典的基于补丁的图像模型的启发,我们提倡在补丁级别合成 3D 场景,给出一个例子。这项工作的核心是重要的算法设计 w.r.t 场景表示和生成补丁最近邻模块,解决了将基于经典 2D 补丁的框架提升到 3D 生成所带来的独特挑战。这些设计选择,在集体层面上,有助于形成一个稳健、有效和高效的模型,该模型可以生成具有逼真的几何结构和视觉外观的高质量一般自然场景,数量和种类繁多,如各种示例所证明的那样场景。

3.Super-NeRF: View-consistent Detail Generation for NeRF super-resolution(TPAMI 2023)

2cf2e9458bc107f1e17ff4138298b1c4.png

标题:Super-NeRF:NeRF 超分辨率的视图一致细节生成

作者:Yuqi Han, Tao Yu, Xiaohang Yu, Yuwang Wang, Qionghai Dai

文章链接:https://arxiv.org/abs/2304.13518

fc84650562f7af6b1cb531e2eaaf7203.png

39942d1c5fe4f791604e61779c356198.png

952d3307ee77cb7e30fb77d91409a196.png

d94eaa884153b1e196b4dae64c39ff8e.png


摘要:

       神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用,NeRF 超分辨率是生成 3D 场景的高分辨率隐式表示的有效方法,具有巨大的潜在应用。到目前为止,这样一个重要的课题仍未得到充分探索。在本文中,我们提出了一种名为 Super-NeRF 的 NeRF 超分辨率方法,仅从低分辨率输入生成高分辨率 NeRF。给定多视图低分辨率图像,Super-NeRF 构建了一个一致性控制超分辨率模块,为 NeRF 生成视图一致的高分辨率细节。具体来说,为每个低分辨率输入图像引入可优化的潜在代码,以控制 2D 超分辨率图像收敛到视图一致的输出。每个低分辨率图像的潜在代码都与目标 Super-NeRF 表示协同优化,以充分利用 NeRF 构造中固有的视图一致性约束。我们验证了 Super-NeRF 在合成、真实世界和 AI 生成的 NeRF 数据集上的有效性。Super-NeRF 在高分辨率细节生成和跨视图一致性方面实现了最先进的 NeRF 超分辨率性能。

目录
相关文章
|
人工智能 监控 机器人
【Valgrind】如何使用Valgrind监控内存
【Valgrind】如何使用Valgrind监控内存
|
安全 Java
【面试】Java集合中List,Set以及Map等集合体系详解
【面试】Java集合中List,Set以及Map等集合体系详解
185 0
fetch上传文件报错的问题(multipart: NextPart: EOF)
技术栈 后台: gin(golang) 前端: react+antd+dva 问题 前端这边使用fetch发送http请求的时候,后端解析formData报错: multipart: NextPart: EOF 分析问题 原因是上传文件太小了Content-Length数量太小了,尝试将headers里这字段的value变大,发现实际的请求依然是较小值。
Java中使用HttpRequest获取用户真实IP地址端口
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_34173549/article/details/81357594 import javax.
2073 0
|
2月前
|
数据采集 存储 JSON
使用Python获取1688商品详情的教程
本教程介绍如何使用Python爬取1688商品详情信息,涵盖环境配置、代码编写、数据处理及合法合规注意事项,助你快速掌握商品数据抓取与保存技巧。
|
弹性计算 算法 应用服务中间件
nginx配置访问密码,实现用户输入用户名密码才能访
如果我们在 nginx 下搭建了一些站点,但是由于站点内容或者流量的关系,我们并不想让所有人都能正常访问,那么我们可以设置访问认证。只有让用户输入正确的用户名和密码才能正常访问。效果如下:
3485 0
|
Kubernetes 监控 负载均衡
10个最佳的Kubernetes工具
Kubernetes生态工具整理
1515 0
10个最佳的Kubernetes工具
|
存储 分布式计算 分布式数据库
大数据技术原理与应用 期末复习 知识点全总结(林子雨版
大数据技术原理与应用 期末复习 知识点全总结(林子雨版
3201 1
|
计算机视觉 Python
将图像处理为灰度图和二值化图
【7月更文挑战第28天】将图像处理为灰度图和二值化图。
338 3
|
Python Windows
Anaconda最新版详细安装教程
Anaconda最新版详细安装教程
656 0