每日学术速递4.20

简介: 建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Avatars Grow Legs: Generating Smooth Human Motion from Sparse Tracking Inputs with Diffusion Model(CVPR 2023)

c56322d6892cda6afa2343acca0a133d.png

标题:化身长腿:使用扩散模型从稀疏跟踪输入生成平滑的人体运动

作者:Yuming Du, Robin Kips, Albert Pumarola, Sebastian Starke, Ali Thabet, Artsiom Sanakoyeu

文章链接:https://arxiv.org/abs/2304.08577

项目代码:https://dulucas.github.io/agrol/

9661c52146952f0ba391321c1a373731.png

8cb7565e4126351898525439ca6be62c.png

f359a17f61cde5de9e8deccc07b5a365.png

56881d73133d81d1453040aad2de5b44.png

93840849a47dcee694b059e9e9b23196.png

摘要:

       随着近期 AR/VR 应用程序的流行,对 3D 全身化身的逼真和准确控制已成为人们迫切需要的功能。一个特殊的挑战是,独立的 HMD(头戴式设备)只能提供稀疏的跟踪信号,通常仅限于跟踪用户的头部和手腕。虽然此信号对于重建上半身运动非常有用,但下半身未被跟踪,必须从上半身关节提供的有限信息中合成。在本文中,我们提出了 AGRoL,这是一种新型条件扩散模型,专门设计用于在给定稀疏上半身跟踪信号的情况下跟踪全身。我们的模型基于一个简单的多层感知器 (MLP) 架构和一种新颖的运动数据调节方案。它可以预测准确而流畅的全身运动,尤其是具有挑战性的下半身运动。与常见的扩散架构不同,我们的紧凑架构可以实时运行,使其适用于在线身体跟踪应用程序。我们在 AMASS 运动捕捉数据集上训练和评估我们的模型,并证明我们的方法在生成的运动精度和平滑度方面优于最先进的方法。我们通过广泛的实验和消融研究进一步证明了我们的设计选择。

2Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models(CVPR 2023)

7f337b785ca34e5b6c9b340d7b9ac337.png

标题:对齐你的潜在:高分辨率视频合成与潜在扩散模型

作者:Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, Karsten Kreis

文章链接:https://arxiv.org/abs/2304.08818

项目代码:https://research.nvidia.com/labs/toronto-ai/VideoLDM/

07387a42b6df434b2c44df23e1a35262.png

3ac834234f8991ddb091a25afa904333.png

6d8ace693b85b10833944440ee5bf427.png

摘要:

       潜在扩散模型 (LDM) 可实现高质量图像合成,同时通过在压缩的低维潜在空间中训练扩散模型来避免过多的计算需求。在这里,我们将 LDM 范例应用于高分辨率视频生成,这是一项特别耗费资源的任务。我们首先仅在图像上预训练 LDM;然后,我们通过在潜在空间扩散模型中引入时间维度并对编码图像序列(即视频)进行微调,将图像生成器转变为视频生成器。同样,我们在时间上对齐扩散模型上采样器,将它们变成时间一致的视频超分辨率模型。我们专注于两个相关的现实世界应用:模拟野外驾驶数据和使用文本到视频建模的创意内容创建。特别是,我们在分辨率为 512 x 1024 的真实驾驶视频上验证了我们的视频 LDM,实现了最先进的性能。此外,我们的方法可以轻松利用现成的预训练图像 LDM,因为在这种情况下我们只需要训练时间对齐模型。这样做,我们将公开可用的、最先进的文本到图像 LDM 稳定扩散转变为分辨率高达 1280 x 2048 的高效且富有表现力的文本到视频模型。我们表明,时间层经过训练以这种方式推广到不同的微调文本到图像 LDM。利用此属性,我们展示了个性化文本到视频生成的第一个结果,为未来的内容创建开辟了令人兴奋的方向。

Subjects: cs.RO


3.ImAffordances from Human Videos as a Versatile Representation for Robotics

bdccbad3abc8ee2b3099ea48683439fb.png


标题:人类视频的可供性作为机器人技术的多功能表示

作者:Shikhar Bahl, Russell Mendonca, Lili Chen, Unnat Jain, Deepak Pathak

文章链接:https://arxiv.org/abs/2304.08488

项目代码:https://robo-affordances.github.io/

f2235ef6c6df0d1a4b26f0b768253022.png

3cf2029876b5dc0b6764cb2251a08206.png

2c3adda1e3a5fa3aa9652e62c37f635c.png

cd265e4b4abfc7b108a5eabb7bbe5266.png

8b5de406f0a394f7adb9476bfc81d7f8.png

522f0f3f0104a01ae22b08ad7a80beac.png


摘要:

       建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互。这些行为可供性的结构直接使机器人能够执行许多复杂的任务。我们展示了如何将我们的可供性模型与四种机器人学习范式无缝集成,包括离线模仿学习、探索、目标条件学习和强化学习的动作参数化。我们展示了我们称为 VRB 的方法在 4 个真实世界环境、10 多个不同任务和 2 个在野外运行的机器人平台上的有效性。此 https URL 上的结果、可视化和视频

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.7
我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。
101 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
123 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递4.26
我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。
103 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.31
我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。
163 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.9
错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。
116 0
|
机器学习/深度学习 自然语言处理 大数据
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
105 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.27
视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。
98 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
116 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.25
场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。
165 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
102 0
下一篇
无影云桌面