每日学术速递4.28

简介: 神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.StepFormer: Self-supervised Step Discovery and Localization in Instructional Videos(CVPR 2023)


e54c260110b515224035b1256e231501.png


标题:StepFormer:教学视频中的自我监督步骤发现和定位

作者:Nikita Dvornik, Isma Hadji, Ran Zhang, Konstantinos G. Derpanis, Animesh Garg, Richard P. Wildes, Allan D. Jepson

文章链接:https://arxiv.org/abs/2304.13265

55b09a381e3803ee33a95054f7ba22f4.png

b30a8da689e8e07c57ba7d1e714e13fb.png

034cb820d0829b693935d94c4926c51b.png

0f199eb4a678dec6025259ee12a9140e.png

14e13915aca93b7b7121133f48bd39b3.png

摘要:

       教学视频是从人类演示中学习程序任务的重要资源。然而,此类视频中的说明步骤通常很短且稀疏,大部分视频与过程无关。这激发了对此类视频中的指令步骤进行时间定位的需要,即称为关键步骤定位的任务。传统的关键步骤定位方法需要视频级别的人工注释,因此无法扩展到大型数据集。在这项工作中,我们在没有人工监督的情况下解决了这个问题,并引入了 StepFormer,这是一种自我监督的模型,可以发现和定位视频中的指令步骤。StepFormer 是一种转换器解码器,它通过可学习的查询处理视频,并生成一系列插槽来捕获视频中的关键步骤。我们在大型教学视频数据集上训练我们的系统,使用它们自动生成的字幕作为唯一的监督来源。特别是,我们使用过滤掉不相关短语的顺序感知损失函数,通过一系列文本叙述来监督我们的系统。我们表明,我们的模型在三个具有挑战性的基准测试中大大优于所有以前的无监督和弱监督的步骤检测和定位方法。此外,我们的模型展示了解决零样本多步定位的涌现属性,并且在该任务中优于所有相关基线。

2.Patch-based 3D Natural Scene Generation from a Single Example(CVPR 2023)

01e3b012aba9185acf0913705c5aac45.png

标题:从单个示例生成基于补丁的 3D 自然场景

作者:Weiyu Li, Xuelin Chen, Jue Wang, Baoquan Chen

文章链接:https://arxiv.org/abs/2304.12670

项目代码:http://weiyuli.xyz/Sin3DGen/

67581ea942418782c6499cfc9a2f428d.png

d48e68636e5fc13f0a66ad7dd0c4a9bf.png

6b2ef5a7ae0a0aeea5993c6c8ae1a1f1.png

a3106de5b472f1d684fff61c1d6f0d04.png


摘要:

       我们针对通常独特且复杂的一般自然场景的 3D 生成模型。缺乏必要的训练数据量,以及在存在不同场景特征的情况下进行临时设计的困难,使现有设置变得难以处理。受经典的基于补丁的图像模型的启发,我们提倡在补丁级别合成 3D 场景,给出一个例子。这项工作的核心是重要的算法设计 w.r.t 场景表示和生成补丁最近邻模块,解决了将基于经典 2D 补丁的框架提升到 3D 生成所带来的独特挑战。这些设计选择,在集体层面上,有助于形成一个稳健、有效和高效的模型,该模型可以生成具有逼真的几何结构和视觉外观的高质量一般自然场景,数量和种类繁多,如各种示例所证明的那样场景。

3.Super-NeRF: View-consistent Detail Generation for NeRF super-resolution(TPAMI 2023)

2cf2e9458bc107f1e17ff4138298b1c4.png

标题:Super-NeRF:NeRF 超分辨率的视图一致细节生成

作者:Yuqi Han, Tao Yu, Xiaohang Yu, Yuwang Wang, Qionghai Dai

文章链接:https://arxiv.org/abs/2304.13518

fc84650562f7af6b1cb531e2eaaf7203.png

39942d1c5fe4f791604e61779c356198.png

952d3307ee77cb7e30fb77d91409a196.png

d94eaa884153b1e196b4dae64c39ff8e.png


摘要:

       神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用,NeRF 超分辨率是生成 3D 场景的高分辨率隐式表示的有效方法,具有巨大的潜在应用。到目前为止,这样一个重要的课题仍未得到充分探索。在本文中,我们提出了一种名为 Super-NeRF 的 NeRF 超分辨率方法,仅从低分辨率输入生成高分辨率 NeRF。给定多视图低分辨率图像,Super-NeRF 构建了一个一致性控制超分辨率模块,为 NeRF 生成视图一致的高分辨率细节。具体来说,为每个低分辨率输入图像引入可优化的潜在代码,以控制 2D 超分辨率图像收敛到视图一致的输出。每个低分辨率图像的潜在代码都与目标 Super-NeRF 表示协同优化,以充分利用 NeRF 构造中固有的视图一致性约束。我们验证了 Super-NeRF 在合成、真实世界和 AI 生成的 NeRF 数据集上的有效性。Super-NeRF 在高分辨率细节生成和跨视图一致性方面实现了最先进的 NeRF 超分辨率性能。

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
147 0
每日学术速递4.3
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
111 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递4.14
我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。
146 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
155 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
152 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.17
扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子
133 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.10
雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。
121 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.22
在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。
116 0
|
机器学习/深度学习 机器人
每日学术速递2.23
本文探讨了动态系统中的离散形态对称性,这是生物学和机器人系统的主要特征。当系统的形态具有一个或多个对称平面时,它表现出形态对称性,描述了身体部位的重复和平衡分布。这些形态对称性意味着系统的动力学是对称的(或近似对称的),这进而在最优控制策略和所有与系统动态演化相关的本体感知和外感知测量中印记了对称性。
74 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
146 0