每日学术速递4.28

简介: 神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.StepFormer: Self-supervised Step Discovery and Localization in Instructional Videos(CVPR 2023)


e54c260110b515224035b1256e231501.png


标题:StepFormer:教学视频中的自我监督步骤发现和定位

作者:Nikita Dvornik, Isma Hadji, Ran Zhang, Konstantinos G. Derpanis, Animesh Garg, Richard P. Wildes, Allan D. Jepson

文章链接:https://arxiv.org/abs/2304.13265

55b09a381e3803ee33a95054f7ba22f4.png

b30a8da689e8e07c57ba7d1e714e13fb.png

034cb820d0829b693935d94c4926c51b.png

0f199eb4a678dec6025259ee12a9140e.png

14e13915aca93b7b7121133f48bd39b3.png

摘要:

       教学视频是从人类演示中学习程序任务的重要资源。然而,此类视频中的说明步骤通常很短且稀疏,大部分视频与过程无关。这激发了对此类视频中的指令步骤进行时间定位的需要,即称为关键步骤定位的任务。传统的关键步骤定位方法需要视频级别的人工注释,因此无法扩展到大型数据集。在这项工作中,我们在没有人工监督的情况下解决了这个问题,并引入了 StepFormer,这是一种自我监督的模型,可以发现和定位视频中的指令步骤。StepFormer 是一种转换器解码器,它通过可学习的查询处理视频,并生成一系列插槽来捕获视频中的关键步骤。我们在大型教学视频数据集上训练我们的系统,使用它们自动生成的字幕作为唯一的监督来源。特别是,我们使用过滤掉不相关短语的顺序感知损失函数,通过一系列文本叙述来监督我们的系统。我们表明,我们的模型在三个具有挑战性的基准测试中大大优于所有以前的无监督和弱监督的步骤检测和定位方法。此外,我们的模型展示了解决零样本多步定位的涌现属性,并且在该任务中优于所有相关基线。

2.Patch-based 3D Natural Scene Generation from a Single Example(CVPR 2023)

01e3b012aba9185acf0913705c5aac45.png

标题:从单个示例生成基于补丁的 3D 自然场景

作者:Weiyu Li, Xuelin Chen, Jue Wang, Baoquan Chen

文章链接:https://arxiv.org/abs/2304.12670

项目代码:http://weiyuli.xyz/Sin3DGen/

67581ea942418782c6499cfc9a2f428d.png

d48e68636e5fc13f0a66ad7dd0c4a9bf.png

6b2ef5a7ae0a0aeea5993c6c8ae1a1f1.png

a3106de5b472f1d684fff61c1d6f0d04.png


摘要:

       我们针对通常独特且复杂的一般自然场景的 3D 生成模型。缺乏必要的训练数据量,以及在存在不同场景特征的情况下进行临时设计的困难,使现有设置变得难以处理。受经典的基于补丁的图像模型的启发,我们提倡在补丁级别合成 3D 场景,给出一个例子。这项工作的核心是重要的算法设计 w.r.t 场景表示和生成补丁最近邻模块,解决了将基于经典 2D 补丁的框架提升到 3D 生成所带来的独特挑战。这些设计选择,在集体层面上,有助于形成一个稳健、有效和高效的模型,该模型可以生成具有逼真的几何结构和视觉外观的高质量一般自然场景,数量和种类繁多,如各种示例所证明的那样场景。

3.Super-NeRF: View-consistent Detail Generation for NeRF super-resolution(TPAMI 2023)

2cf2e9458bc107f1e17ff4138298b1c4.png

标题:Super-NeRF:NeRF 超分辨率的视图一致细节生成

作者:Yuqi Han, Tao Yu, Xiaohang Yu, Yuwang Wang, Qionghai Dai

文章链接:https://arxiv.org/abs/2304.13518

fc84650562f7af6b1cb531e2eaaf7203.png

39942d1c5fe4f791604e61779c356198.png

952d3307ee77cb7e30fb77d91409a196.png

d94eaa884153b1e196b4dae64c39ff8e.png


摘要:

       神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用,NeRF 超分辨率是生成 3D 场景的高分辨率隐式表示的有效方法,具有巨大的潜在应用。到目前为止,这样一个重要的课题仍未得到充分探索。在本文中,我们提出了一种名为 Super-NeRF 的 NeRF 超分辨率方法,仅从低分辨率输入生成高分辨率 NeRF。给定多视图低分辨率图像,Super-NeRF 构建了一个一致性控制超分辨率模块,为 NeRF 生成视图一致的高分辨率细节。具体来说,为每个低分辨率输入图像引入可优化的潜在代码,以控制 2D 超分辨率图像收敛到视图一致的输出。每个低分辨率图像的潜在代码都与目标 Super-NeRF 表示协同优化,以充分利用 NeRF 构造中固有的视图一致性约束。我们验证了 Super-NeRF 在合成、真实世界和 AI 生成的 NeRF 数据集上的有效性。Super-NeRF 在高分辨率细节生成和跨视图一致性方面实现了最先进的 NeRF 超分辨率性能。

目录
相关文章
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
151 0
每日学术速递3.20
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.29
在这项工作中,我们介绍了 CC3D,这是一种条件生成模型,它合成以 2D 语义场景布局为条件的复杂 3D 场景,使用单视图图像进行训练。与将适用性限制在对齐的单个对象的大多数现有 3D GAN 不同,我们专注于通过对 3D 场景的组合性质进行建模来生成具有多个对象的复杂场景。
145 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递4.2
传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。
139 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递4.6
大型语言模型 (LLM)(如 GPT-3 和 ChatGPT)的成功导致开发了许多具有成本效益且易于访问的替代方案,这些替代方案是通过使用特定于任务的数据(例如,ChatDoctor)微调开放访问 LLM 创建的) 或指令数据(例如,Alpaca)。在各种微调方法中,基于适配器的参数高效微调(PEFT)无疑是最吸引人的话题之一
141 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
133 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.22
在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。
112 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
147 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
75 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.17
怪异、不寻常和离奇的图像激起观察者的好奇心,因为它们挑战常识。例如,在 2022 年世界杯期间发布的一张图片描绘了著名足球明星莱昂内尔·梅西和克里斯蒂亚诺·罗纳尔多下棋,这调皮地违反了我们对他们的比赛应该在足球场上进行的预期。人类可以轻松识别和解读这些非常规图像,但 AI 模型也能做到吗?我们介绍了 WHOOPS!,这是一个新的视觉常识数据集和基准。
132 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
166 0