每日学术速递5.7

简介: 我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.Multimodal Procedural Planning via Dual Text-Image Prompting


7426389bdbe6a7557c8d2f037d00ca33.png


标题:通过双文本图像提示进行多模态程序规划

作者:Yujie Lu, Pan Lu, Zhiyu Chen, Wanrong Zhu, Xin Eric Wang, William Yang Wang

文章链接:https://arxiv.org/abs/2305.01795

项目代码:https://github.com/YujieLu10/TIP

b63f80d99595bcedc0fea6ba6b917e5c.png

de668818a4ed028247c41aed0d9fd54f.png

2d08b187d5f619d66388b75240aafab2.png

0e95c5fd1de06b6d6bde9ec19ec3d872.png

e69b8bef8d0b420c07b9034db4a86e87.png

0d5599a7eadf08935a8faffc343e797c.png

摘要:

       具身代理在遵循人类指令完成任务方面取得了突出的表现。然而,提供由文本和图像告知的指令以帮助人类完成任务的潜力仍未得到充分探索。为了揭示这种能力,我们提出了多模态程序规划 (MPP) 任务,在该任务中,模型被赋予一个高级目标并生成成对的文本-图像步骤的计划,提供比单模态计划更多的补充和信息指导。MPP 的主要挑战是确保跨模式计划的信息量、时间一致性和准确性。为了解决这个问题,我们提出了文本图像提示 (TIP),这是一种双模态提示方法,它联合利用大型语言模型 (LLM) 中的零样本推理能力和基于扩散模型的引人注目的文本到图像生成能力。TIP 使用 Text-to-Image Bridge 和 Image-to-Text Bridge 改进了双模态中的交互,允许 LLM 指导基于文本的图像计划生成,并利用图像计划的描述反向地基于文本计划。为了解决缺乏相关数据集的问题,我们收集了 WIKIPLAN 和 RECIPEPLAN 作为 MPP 的测试平台。我们的结果显示了在信息量、时间一致性和计划准确性方面,针对 WIKIPLAN 和 RECIPEPLAN 上的单峰和多峰基线的令人信服的人类偏好和自动评分。我们的代码和数据:这个 https URL 。

2.Generalizing Dataset Distillation via Deep Generative Prior

87b7fc909973f1ce65534f308bdff6df.png

标题:通过深度生成先验泛化数据集蒸馏

作者:George Cazenavette, Tongzhou Wang, Antonio Torralba, Alexei A. Efros, Jun-Yan Zhu

文章链接:https://arxiv.org/abs/2305.01649

项目代码:https://github.com/GeorgeCazenavette/glad

d7855c2c02f8f422066bac630e6c03fd.png

38bf6d1f1aa8d9aa62b69f8366397fcc.png

3816b382783ef67b46b0cc9f9af8bb01.png

cb74dc605278b139e3510c990c58f783.png

摘要:

       数据集蒸馏旨在将整个数据集的知识提炼成一些合成图像。这个想法是合成少量的合成数据点,当将这些数据点作为训练数据提供给学习算法时,会产生一个近似于在原始数据上训练的模型。尽管该领域最近取得了进展,但现有的数据集蒸馏方法无法推广到新的架构和扩展到高分辨率数据集。为了克服上述问题,我们建议使用从预训练的深度生成模型中学习到的先验知识来合成蒸馏数据。为实现这一目标,我们提出了一种新的优化算法,该算法将大量图像提炼为生成模型潜在空间中的几个中间特征向量。我们的方法增强了现有技术,显着改善了所有设置中的跨架构泛化。

3.DynamicStereo: Consistent Dynamic Depth from Stereo Videos(CVPR 2023)

53f3ebf84bf3d752965519af85a54c9d.png


标题:DynamicStereo:立体视频的一致动态深度

作者:Nikita Karaev, Ignacio Rocco, Benjamin Graham, Natalia Neverova, Andrea Ved

文章链接:https://arxiv.org/abs/2305.02296

项目代码:https://dynamic-stereo.github.io/

716b4bc70f3d6db48360592e12aef752.png

d52da97e3dcfc35ad87de63d949f49e6.png

b76c3ba0a81c8af144e4d2252856a52b.png

2dd1588c0d5d82d7aaecb06220622149.png

baed408f00c20d7fcd654f9b7d53472f.png

摘要:

       我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。该网络学习从相邻帧中汇集信息,以提高其预测的时间一致性。我们的架构旨在通过划分的注意力层有效地处理立体视频。我们还介绍了 Dynamic Replica,这是一个新的基准数据集,包含扫描环境中人和动物的合成视频,它为动态立体提供比现有数据集更接近真实应用的补充训练和评估数据。使用此数据集进行训练进一步提高了我们提出的 DynamicStereo 以及先前方法的预测质量。最后,它作为一致立体方法的基准。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
114 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
120 0
每日学术速递3.27
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.29
我们提出了一种将点云渲染为表面的新方法。所提出的方法是可区分的,不需要特定场景的优化。这种独特的功能支持开箱即用的表面法线估计、渲染房间尺度点云、逆向渲染和全局照明光线追踪。与专注于将点云转换为其他表示(例如曲面或隐式函数)的现有工作不同,我们的关键思想是直接推断光线与给定点云表示的底层表面的交点。
121 0
|
传感器 机器学习/深度学习 人工智能
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
119 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递4.2
传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。
144 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
195 0
|
机器学习/深度学习 自然语言处理 数据挖掘
每日学术速递3.2
基于点击的交互式分割(IS)旨在提取用户交互下的目标对象。对于这项任务,当前大多数基于深度学习 (DL) 的方法主要遵循语义分割的一般流程。尽管取得了令人鼓舞的性能,但它们并没有完全明确地利用和传播点击信息,不可避免地导致不令人满意的分割结果,即使在点击点也是如此。
109 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递5.1
大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。
138 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递4.26
我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。
109 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.17
扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子
133 0