每日学术速递4.27

简介: 我们研究如何使用 Transformers 构建和训练用于机器人决策的空间表示。特别是,对于在各种环境中运行的机器人,我们必须能够快速训练或微调机器人感觉运动策略,这些策略对杂波具有鲁棒性、数据效率高,并且可以很好地泛化到不同的环境。

Subjects: cs.CV


1.End-to-End Spatio-Temporal Action Localisation with Video Transformers

1697c0f0aa19563e3672fc416750c392.png

标题:使用视频转换器进行端到端时空动作定位

作者:Alexey Gritsenko, Xuehan Xiong, Josip Djolonga, Mostafa Dehghani, Chen Sun, Mario Lučić, Cordelia Schmid, Anurag Arnab

文章链接:https://arxiv.org/abs/2304.12160

da91f1a8b9719842c9d546c8c18f3280.png

f1f32a91e052eee5e5c43006aa15db7c.png

c4bc4ecd0fa5f531380e111cfb65a9b1.png

45f9d9f5a356019a6c5a953b046f4eed.png

3795d5f4d6757d1686241d4f27eddc7f.png

摘要:

       性能最高的时空动作定位模型使用外部人员建议和复杂的外部记忆库。我们提出了一个完全端到端的、纯基于变压器的模型,它直接摄取输入视频,并输出小管——一系列边界框和每帧的动作类。我们的灵活模型可以通过对单个帧的稀疏边界框监督或完整的小管注释进行训练。在这两种情况下,它都预测连贯的小管作为输出。此外,我们的端到端模型不需要以建议的形式进行额外的预处理,也不需要在非最大抑制方面进行后处理。我们进行了广泛的消融实验,并在具有稀疏关键帧和完整小管注释的四种不同时空动作定位基准上显着提高了最先进的结果。

2.Total-Recon: Deformable Scene Reconstruction for Embodied View Synthesis

042d860e059aa748729399c633c8024a.png

标题:Total-Recon:用于具体视图合成的可变形场景重建

作者:Chonghyuk Song, Gengshan Yang, Kangle Deng, Jun-Yan Zhu, Deva Ramanan

文章链接:https://arxiv.org/abs/2304.12317

项目代码:https://andrewsonga.github.io/totalrecon

1f44ed6e460e4e089171066ded800fa7.png

fddaa60a2f7c691840cc7f27d0d6bc49.png

1d638a88e8b2a125da3664b5d9b232a3.png

8c0242d9171206372e3212a5069413af.png

摘要:

       我们从可变形场景的单目视频中探索具身视图合成的任务。给定一分钟长的人与宠物互动的 RGBD 视频,我们根据演员在场景中的运动得出的新颖摄像机轨迹渲染场景:(1) 模拟目标演员视角的以自我为中心的摄像机和 (2)跟随演员的第三人称摄像机。构建这样一个系统需要重建场景中每个演员的根体和关节运动,以及支持自由视点合成的场景表示。较长的视频更有可能从不同的角度捕捉场景(这有助于重建),但也更有可能包含更大的运动(这使重建复杂化)。为了应对这些挑战,我们提出了 Total-Recon,这是第一种从长单眼 RGBD 视频中逼真地重建可变形场景的方法。至关重要的是,为了扩展到长视频,我们的方法将场景运动分层分解为每个对象的运动,对象本身又分解为全局根体运动和局部关节。为了量化这种“野外”重建和视图合成,我们从专门的立体 RGBD 捕获装置收集了 11 个具有挑战性的视频的地面实况数据,明显优于现有技术。可以在此 https URL 中找到代码、视频和数据。

3.Spatial-Language Attention Policies for Efficient Robot Learning

a56536f0bd1e16448a43267225a9d65d.png

标题:高效机器人学习的空间语言注意策略

作者:Priyam Parashar, Jay Vakil, Sam Powers, Chris Paxton

文章链接:https://arxiv.org/abs/2304.11235

3738c0fa9b968b662d0d56f198c40603.png

5643214c0a61128140527791cc88bf3c.png

400d1f5a36ea1a7647aec347e37beadc.png

6c26448701819193390a5e67f37f41e3.png

3428fb8249b5c75c2269f076f326b10d.png

摘要:

       我们研究如何使用 Transformers 构建和训练用于机器人决策的空间表示。特别是,对于在各种环境中运行的机器人,我们必须能够快速训练或微调机器人感觉运动策略,这些策略对杂波具有鲁棒性、数据效率高,并且可以很好地泛化到不同的环境。作为解决方案,我们提出了空间语言注意策略(SLAP)。SLAP 使用三维标记作为输入表示来训练单个多任务、语言条件动作预测策略。我们的方法在现实世界中使用单个模型在八个任务中显示了 80% 的成功率,并且在引入看不见的杂乱和看不见的对象配置时成功率为 47.5%,即使每个任务只有少数示例。这表示比之前的工作提高了 30%(考虑到看不见的干扰因素和配置,提高了 20%)。

目录
打赏
0
0
0
0
12
分享
相关文章
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
208 0
每日学术速递3.20
每日学术速递2.20
将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。
124 0
每日学术速递4.7
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。
160 0
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
146 0
每日学术速递4.29
我们提出了一种将点云渲染为表面的新方法。所提出的方法是可区分的,不需要特定场景的优化。这种独特的功能支持开箱即用的表面法线估计、渲染房间尺度点云、逆向渲染和全局照明光线追踪。与专注于将点云转换为其他表示(例如曲面或隐式函数)的现有工作不同,我们的关键思想是直接推断光线与给定点云表示的底层表面的交点。
162 0
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
169 0
每日学术速递2.28
最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。
103 0
每日学术速递2.24
在本技术报告中,我们介绍了百度 KDD 杯 2022 空间动态风电功率预测挑战赛的解决方案。风能是一种快速增长的清洁能源。准确的风电功率预测对于电网稳定和供应安全至关重要。为此,主办方提供了包含134台风电机组历史数据的风电数据集,并发起百度KDD Cup 2022,以检验当前风电预测方法的局限性。
225 0
每日学术速递3.2
基于点击的交互式分割(IS)旨在提取用户交互下的目标对象。对于这项任务,当前大多数基于深度学习 (DL) 的方法主要遵循语义分割的一般流程。尽管取得了令人鼓舞的性能,但它们并没有完全明确地利用和传播点击信息,不可避免地导致不令人满意的分割结果,即使在点击点也是如此。
146 0
每日学术速递4.25
场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。
243 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等