CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.StepFormer: Self-supervised Step Discovery and Localization in Instructional Videos(CVPR 2023)
标题:StepFormer:教学视频中的自我监督步骤发现和定位
作者:Nikita Dvornik, Isma Hadji, Ran Zhang, Konstantinos G. Derpanis, Animesh Garg, Richard P. Wildes, Allan D. Jepson
文章链接:https://arxiv.org/abs/2304.13265
摘要:
教学视频是从人类演示中学习程序任务的重要资源。然而,此类视频中的说明步骤通常很短且稀疏,大部分视频与过程无关。这激发了对此类视频中的指令步骤进行时间定位的需要,即称为关键步骤定位的任务。传统的关键步骤定位方法需要视频级别的人工注释,因此无法扩展到大型数据集。在这项工作中,我们在没有人工监督的情况下解决了这个问题,并引入了 StepFormer,这是一种自我监督的模型,可以发现和定位视频中的指令步骤。StepFormer 是一种转换器解码器,它通过可学习的查询处理视频,并生成一系列插槽来捕获视频中的关键步骤。我们在大型教学视频数据集上训练我们的系统,使用它们自动生成的字幕作为唯一的监督来源。特别是,我们使用过滤掉不相关短语的顺序感知损失函数,通过一系列文本叙述来监督我们的系统。我们表明,我们的模型在三个具有挑战性的基准测试中大大优于所有以前的无监督和弱监督的步骤检测和定位方法。此外,我们的模型展示了解决零样本多步定位的涌现属性,并且在该任务中优于所有相关基线。
2.Patch-based 3D Natural Scene Generation from a Single Example(CVPR 2023)
标题:从单个示例生成基于补丁的 3D 自然场景
作者:Weiyu Li, Xuelin Chen, Jue Wang, Baoquan Chen
文章链接:https://arxiv.org/abs/2304.12670
项目代码:http://weiyuli.xyz/Sin3DGen/
摘要:
我们针对通常独特且复杂的一般自然场景的 3D 生成模型。缺乏必要的训练数据量,以及在存在不同场景特征的情况下进行临时设计的困难,使现有设置变得难以处理。受经典的基于补丁的图像模型的启发,我们提倡在补丁级别合成 3D 场景,给出一个例子。这项工作的核心是重要的算法设计 w.r.t 场景表示和生成补丁最近邻模块,解决了将基于经典 2D 补丁的框架提升到 3D 生成所带来的独特挑战。这些设计选择,在集体层面上,有助于形成一个稳健、有效和高效的模型,该模型可以生成具有逼真的几何结构和视觉外观的高质量一般自然场景,数量和种类繁多,如各种示例所证明的那样场景。
3.Super-NeRF: View-consistent Detail Generation for NeRF super-resolution(TPAMI 2023)
标题:Super-NeRF:NeRF 超分辨率的视图一致细节生成
作者:Yuqi Han, Tao Yu, Xiaohang Yu, Yuwang Wang, Qionghai Dai
文章链接:https://arxiv.org/abs/2304.13518
摘要:
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用,NeRF 超分辨率是生成 3D 场景的高分辨率隐式表示的有效方法,具有巨大的潜在应用。到目前为止,这样一个重要的课题仍未得到充分探索。在本文中,我们提出了一种名为 Super-NeRF 的 NeRF 超分辨率方法,仅从低分辨率输入生成高分辨率 NeRF。给定多视图低分辨率图像,Super-NeRF 构建了一个一致性控制超分辨率模块,为 NeRF 生成视图一致的高分辨率细节。具体来说,为每个低分辨率输入图像引入可优化的潜在代码,以控制 2D 超分辨率图像收敛到视图一致的输出。每个低分辨率图像的潜在代码都与目标 Super-NeRF 表示协同优化,以充分利用 NeRF 构造中固有的视图一致性约束。我们验证了 Super-NeRF 在合成、真实世界和 AI 生成的 NeRF 数据集上的有效性。Super-NeRF 在高分辨率细节生成和跨视图一致性方面实现了最先进的 NeRF 超分辨率性能。