每日学术速递4.2

简介: 传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.DiffCollage: Parallel Generation of Large Content with Diffusion Models(CVPR 2023)


c06734d9dcca1e14556fe934f6fd056e.png


标题:DiffCollage:使用扩散模型并行生成大内容

作者:Qinsheng Zhang, Jiaming Song, Xun Huang, Yongxin Chen, Ming-Yu Liu

文章链接:https://arxiv.org/abs/2303.17076

项目代码:https://research.nvidia.com/labs/dir/diffcollage/

b994430c05818a8c491291e6b25b9431.png

5d361419548445420eac857994878755.png

5ddefdeeff7ce7d0d5a70c1471b05be1.png

8e32febe9b96f16fcf89f1f6a9a05dc4.png

摘要:

       我们提出了 DiffCollage,这是一种组合扩散模型,它可以通过利用在生成大内容片段上训练的扩散模型来生成大内容。我们的方法基于因子图表示,其中每个因子节点代表内容的一部分,变量节点代表它们的重叠。这种表示允许我们聚合来自在各个节点上定义的扩散模型的中间输出,以并行生成任意大小和形状的内容,而无需诉诸自回归生成过程。我们将 DiffCollage 应用于各种任务,包括无限图像生成、全景图像生成和长时间文本引导运动生成。与强自回归基线进行比较的大量实验结果验证了我们方法的有效性。

2.NeILF++: Inter-Reflectable Light Fields for Geometry and Material Estimation

ca49326fbc663c8c4d8dc3984e78c7b0.png

标题:NeILF++:用于几何和材料估计的相互反射光场

作者:Jiayu Jiao, Yu-Ming Tang, Kun-Yu Lin, Yipeng Gao, Jinhua Ma, YaoWei Wang, Wei-Shi Zheng

文章链接:https://arxiv.org/abs/2303.17147

项目代码:https://yoyo000.github.io/NeILF_pp/

4f1d1ac082e89cb3e802eefe46b8927f.png

cbc135e4889e0d39cf87c0bb8221082b.png

0b5c6d898394042eaabbc219e57c94c6.png

0494275cd0a1d3915a47d909fcff30cf.png

摘要:

       我们提出了一种新颖的可微分渲染框架,用于从多视图图像估计联合几何、材料和照明。与假设简化的环境地图或共置手电筒的先前方法相比,在这项工作中,我们将静态场景的照明制定为一个神经入射光场 (NeILF) 和一个出射神经辐射场 (NeRF)。所提出方法的关键见解是通过基于物理的渲染和表面之间的相互反射将入射光场和出射光场结合起来,从而可以从基于物理的图像观察中分离出场景几何、材料和照明。方式。所提出的入射光和相互反射框架可以很容易地应用于其他 NeRF 系统。我们表明,我们的方法不仅可以将出射辐射分解为入射光和表面材料,而且还可以作为表面细化模块,进一步改善神经表面的重建细节。我们在几个数据集上证明,所提出的方法能够在几何重建质量、材料估计精度和新视图渲染的保真度方面取得最先进的结果。

3.Streaming Video Model(CVPR 2023)

3688adf4b5423e1381d70737e86e4146.png

标题:流媒体视频模型

作者:Yucheng Zhao, Chong Luo, Chuanxin Tang, Dongdong Chen, Noel Codella, Zheng-Jun Zha

文章链接:https://arxiv.org/abs/2303.17228

项目代码:https://github.com/yuzhms/Streaming-Video-Model

a972cfa7d442d2a0c95d9eff1ffc27ac.png

725d299b2d024083d5458b6c8df0292d.png

摘要:

       传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。然后将帧特征输入到任务相关的时间解码器中,以获得基于序列的任务的时空特征。 S-ViT 的效率和功效通过基于序列的动作识别任务中最先进的准确性以及基于框架的 MOT 任务中优于传统架构的竞争优势得到证明。我们相信,流媒体视频模型的概念和 S-ViT 的实施是朝着统一的视频理解深度学习架构迈出的坚实一步。代码将在这个 https URL 上可用。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
156 0
每日学术速递3.9
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
123 0
每日学术速递3.27
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.13
现有的视频系统识别方法(估计物体的物理参数)假设已知物体的几何形状。这排除了它们在对象几何形状复杂或未知的绝大多数场景中的适用性。在这项工作中,我们的目标是从一组多视图视频中识别表征物理系统的参数,而无需对对象几何或拓扑进行任何假设。为此,我们提出了“物理增强连续体神经辐射场”(PAC-NeRF)
175 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
115 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
213 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.15
大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。
122 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
109 0
|
机器学习/深度学习 存储 编解码
每日学术速递2.20
将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。
100 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递4.26
我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。
113 0
|
机器学习/深度学习 自然语言处理 数据挖掘
每日学术速递3.2
基于点击的交互式分割(IS)旨在提取用户交互下的目标对象。对于这项任务,当前大多数基于深度学习 (DL) 的方法主要遵循语义分割的一般流程。尽管取得了令人鼓舞的性能,但它们并没有完全明确地利用和传播点击信息,不可避免地导致不令人满意的分割结果,即使在点击点也是如此。
114 0

热门文章

最新文章