每日学术速递3.27

简介: 向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models


b29d3e1b7d847bc7c432565d11ccdd28.png


标题:Text2Room:从 2D 文本到图像模型中提取带纹理的 3D 网格

作者:Lukas Höllein, Ang Cao, Andrew Owens, Justin Johnson, Matthias Nießner

文章链接:https://arxiv.org/abs/2303.11989

项目代码:https://github.com/lukashoel/text2room

ef7f6906ee2324b9d47288153807f191.png

df697f89594a00e878fb9a4bf49c71bb.png

eb569e20e3929b9bd7c29da2f31d5fed.png


摘要:

       我们介绍了 Text2Room,这是一种从给定文本提示作为输入生成房间尺度纹理 3D 网格的方法。为此,我们利用预训练的 2D 文本到图像模型来合成一系列来自不同姿势的图像。为了将这些输出提升为一致的 3D 场景表示,我们将单眼深度估计与文本条件修复模型相结合。我们方法的核心思想是量身定制的视点选择,这样每张图像的内容都可以融合到一个无缝的、有纹理的 3D 网格中。更具体地说,我们提出了一种连续对齐策略,该策略将场景帧与现有几何体迭代融合以创建无缝网格。与专注于从文本生成单个对象或缩小轨迹的现有作品不同,我们的方法生成具有多个对象和显式 3D 几何的完整 3D 场景。我们使用定性和定量指标评估我们的方法,证明它是第一种仅从文本作为输入生成具有引人注目的纹理的房间尺度 3D 几何图形的方法。

2.Visual Representation Learning from Unlabeled Video using Contrastive Masked Autoencoders

74208d6de64c03e1ce3981c7a1b26201.png


标题:使用对比掩码自动编码器从未标记视频中学习视觉表示

作者:Jefferson Hernandez, Ruben Villegas, Vicente Ordonez

文章链接:https://arxiv.org/abs/2303.12001

bb03b3fe0c6d6bcc8d95f40edfe06673.png

1715899c97cd21350c1f30e6dd049ff4.png

971cb31ef037d51a9a1ef4d0865fecab.png

摘要:

       掩码自动编码器 (MAE) 通过随机屏蔽输入图像块和重建损失来学习自我监督表示。或者,对比学习自监督方法鼓励相同输入的两个版本具有相似的表示,同时将不同输入的表示分开。我们提出了 ViC-MAE,这是一种结合 MAE 和对比学习的通用方法,它通过汇集在 MAE 重建目标下学习的局部特征表示,并在跨视频帧的对比目标下利用这种全局表示。我们表明,在 ViC-MAE 下学习的视觉表示可以很好地泛化到视频分类和图像分类任务。使用在 Moments in Time (MiT) 数据集上预训练的骨干 ViT-B/16 网络,我们在 Imagenet-1k 上通过提高 1.58% 的绝对 top-1 获得了从视频到图像的最先进的迁移学习最近一项工作的准确性。此外,我们的方法在 Kinetics-400 视频分类基准上保持了 81.50% top-1 准确率的竞争性迁移学习性能。此外,我们表明,尽管 ViC-MAE 很简单,但与将 MAE 预训练与之前提出的对比目标(如 VicReg 和 SiamSiam)相结合相比,ViC-MAE 产生了更好的结果。

3.Dexterity from Touch: Self-Supervised Pre-Training of Tactile Representations with Robotic Play

6ea3cc98d2650e4b03877bb72e6f4a90.png

标题:触觉的灵巧性:通过机器人游戏进行触觉表征的自我监督预训练

作者:Irmak Guzey, Ben Evans, Soumith Chintala, Lerrel Pinto

文章链接:https://arxiv.org/abs/2303.12076

项目代码:https://tactile-dexterity.github.io/

192bfbce8eb362e835c9d65f7f630530.png

c868674f1de80a154790aa1690822dc9.png

c78e62c36f3556f3ab7b2e73a770980b.png

摘要:

       向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。在这项工作中,我们介绍了 T-Dex,这是一种基于触觉的灵巧性的新方法,分两个阶段运行。在第一阶段,我们收集了 2.5 小时的播放数据,用于训练自监督触觉编码器。这对于将高维触觉读数带入低维嵌入是必要的。在第二阶段,给出了一些灵巧任务的演示,我们学习了将触觉观察与视觉观察相结合的非参数策略。在五项具有挑战性的灵巧任务中,我们证明了我们基于触觉的灵巧性模型比纯视觉和基于扭矩的模型平均高出 1.7 倍。最后,我们对 T-Dex 的关键因素进行了详细分析,包括播放数据、架构和表征学习的重要性。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
137 0
每日学术速递3.9
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
116 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
123 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.15
数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。
148 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.13
现有的视频系统识别方法(估计物体的物理参数)假设已知物体的几何形状。这排除了它们在对象几何形状复杂或未知的绝大多数场景中的适用性。在这项工作中,我们的目标是从一组多视图视频中识别表征物理系统的参数,而无需对对象几何或拓扑进行任何假设。为此,我们提出了“物理增强连续体神经辐射场”(PAC-NeRF)
162 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.29
我们提出了一种将点云渲染为表面的新方法。所提出的方法是可区分的,不需要特定场景的优化。这种独特的功能支持开箱即用的表面法线估计、渲染房间尺度点云、逆向渲染和全局照明光线追踪。与专注于将点云转换为其他表示(例如曲面或隐式函数)的现有工作不同,我们的关键思想是直接推断光线与给定点云表示的底层表面的交点。
114 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
74 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.31
我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。
163 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递3.21
随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。
120 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
96 0
下一篇
无影云桌面