每日学术速递5.7

简介: 我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.Multimodal Procedural Planning via Dual Text-Image Prompting


7426389bdbe6a7557c8d2f037d00ca33.png


标题:通过双文本图像提示进行多模态程序规划

作者:Yujie Lu, Pan Lu, Zhiyu Chen, Wanrong Zhu, Xin Eric Wang, William Yang Wang

文章链接:https://arxiv.org/abs/2305.01795

项目代码:https://github.com/YujieLu10/TIP

b63f80d99595bcedc0fea6ba6b917e5c.png

de668818a4ed028247c41aed0d9fd54f.png

2d08b187d5f619d66388b75240aafab2.png

0e95c5fd1de06b6d6bde9ec19ec3d872.png

e69b8bef8d0b420c07b9034db4a86e87.png

0d5599a7eadf08935a8faffc343e797c.png

摘要:

       具身代理在遵循人类指令完成任务方面取得了突出的表现。然而,提供由文本和图像告知的指令以帮助人类完成任务的潜力仍未得到充分探索。为了揭示这种能力,我们提出了多模态程序规划 (MPP) 任务,在该任务中,模型被赋予一个高级目标并生成成对的文本-图像步骤的计划,提供比单模态计划更多的补充和信息指导。MPP 的主要挑战是确保跨模式计划的信息量、时间一致性和准确性。为了解决这个问题,我们提出了文本图像提示 (TIP),这是一种双模态提示方法,它联合利用大型语言模型 (LLM) 中的零样本推理能力和基于扩散模型的引人注目的文本到图像生成能力。TIP 使用 Text-to-Image Bridge 和 Image-to-Text Bridge 改进了双模态中的交互,允许 LLM 指导基于文本的图像计划生成,并利用图像计划的描述反向地基于文本计划。为了解决缺乏相关数据集的问题,我们收集了 WIKIPLAN 和 RECIPEPLAN 作为 MPP 的测试平台。我们的结果显示了在信息量、时间一致性和计划准确性方面,针对 WIKIPLAN 和 RECIPEPLAN 上的单峰和多峰基线的令人信服的人类偏好和自动评分。我们的代码和数据:这个 https URL 。

2.Generalizing Dataset Distillation via Deep Generative Prior

87b7fc909973f1ce65534f308bdff6df.png

标题:通过深度生成先验泛化数据集蒸馏

作者:George Cazenavette, Tongzhou Wang, Antonio Torralba, Alexei A. Efros, Jun-Yan Zhu

文章链接:https://arxiv.org/abs/2305.01649

项目代码:https://github.com/GeorgeCazenavette/glad

d7855c2c02f8f422066bac630e6c03fd.png

38bf6d1f1aa8d9aa62b69f8366397fcc.png

3816b382783ef67b46b0cc9f9af8bb01.png

cb74dc605278b139e3510c990c58f783.png

摘要:

       数据集蒸馏旨在将整个数据集的知识提炼成一些合成图像。这个想法是合成少量的合成数据点,当将这些数据点作为训练数据提供给学习算法时,会产生一个近似于在原始数据上训练的模型。尽管该领域最近取得了进展,但现有的数据集蒸馏方法无法推广到新的架构和扩展到高分辨率数据集。为了克服上述问题,我们建议使用从预训练的深度生成模型中学习到的先验知识来合成蒸馏数据。为实现这一目标,我们提出了一种新的优化算法,该算法将大量图像提炼为生成模型潜在空间中的几个中间特征向量。我们的方法增强了现有技术,显着改善了所有设置中的跨架构泛化。

3.DynamicStereo: Consistent Dynamic Depth from Stereo Videos(CVPR 2023)

53f3ebf84bf3d752965519af85a54c9d.png


标题:DynamicStereo:立体视频的一致动态深度

作者:Nikita Karaev, Ignacio Rocco, Benjamin Graham, Natalia Neverova, Andrea Ved

文章链接:https://arxiv.org/abs/2305.02296

项目代码:https://dynamic-stereo.github.io/

716b4bc70f3d6db48360592e12aef752.png

d52da97e3dcfc35ad87de63d949f49e6.png

b76c3ba0a81c8af144e4d2252856a52b.png

2dd1588c0d5d82d7aaecb06220622149.png

baed408f00c20d7fcd654f9b7d53472f.png

摘要:

       我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。该网络学习从相邻帧中汇集信息,以提高其预测的时间一致性。我们的架构旨在通过划分的注意力层有效地处理立体视频。我们还介绍了 Dynamic Replica,这是一个新的基准数据集,包含扫描环境中人和动物的合成视频,它为动态立体提供比现有数据集更接近真实应用的补充训练和评估数据。使用此数据集进行训练进一步提高了我们提出的 DynamicStereo 以及先前方法的预测质量。最后,它作为一致立体方法的基准。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
254 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.16
我们提出了 RECLIP(资源高效 CLIP),这是一种最小化 CLIP(对比语言图像预训练)计算资源占用的简单方法。受计算机视觉中从粗到精概念的启发,我们利用小图像有效地从大规模语言监督中学习,并最终使用高分辨率数据微调模型。由于视觉转换器的复杂性在很大程度上取决于输入图像的大小
191 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
135 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.11
网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。
153 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.17
怪异、不寻常和离奇的图像激起观察者的好奇心,因为它们挑战常识。例如,在 2022 年世界杯期间发布的一张图片描绘了著名足球明星莱昂内尔·梅西和克里斯蒂亚诺·罗纳尔多下棋,这调皮地违反了我们对他们的比赛应该在足球场上进行的预期。人类可以轻松识别和解读这些非常规图像,但 AI 模型也能做到吗?我们介绍了 WHOOPS!,这是一个新的视觉常识数据集和基准。
175 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.8
扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。
137 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
136 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
154 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递2.28
最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。
94 0
|
自然语言处理 计算机视觉
每日学术速递3.6
本文描述了一种使用与目标数据集不一定相关的多个源数据集进行语义分割的域自适应训练方法。我们通过整合来自多个源模型的预测对象概率,提出了一种软伪标签生成方法。每个源模型的预测基于源数据集和目标数据集之间的估计域相似性进行加权,以强调在与目标更相似的源上训练的模型的贡献,并生成合理的伪标签。
143 0