每日学术速递5.4

简介: 尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.IndoorSim-to-OutdoorReal: Learning to Navigate Outdoors without any Outdoor Experience


5ae25d6786554f78a050173d810b4ab6.png


标题:IndoorSim-to-OutdoorReal:在没有任何户外经验的情况下学习在户外导航

作者:Joanne Truong, April Zitkovich, Sonia Chernova, Dhruv Batra, Tingnan Zhang, Jie Tan, Wenhao Yu

文章链接:https://arxiv.org/abs/2305.01098

项目代码:https://www.joannetruong.com/projects/i2o.html

251d24f52ff95fdef47edbba7a3f2135.png

149fa0b77562c55c77d271551f0a1dc9.png

200cf5a42c74a1634d804e5dc0ec82fd.png

cf326a067bde88e809c1e691f9ae036a.png

摘要:

       我们展示了 IndoorSim-to-OutdoorReal (I2O),这是一种端到端的学习视觉导航方法,仅在模拟的短程室内环境中进行训练,并演示了零样本模拟到真实的远程转移到室外在 Spot 机器人上导航。我们的方法使用零真实世界经验(室内或室外),并且要求模拟器模拟没有主要是室外的现象(倾斜的地面、人行道等)。I2O 传输的关键是为机器人提供额外的环境上下文(即卫星地图、人类绘制的粗略地图等)以指导机器人在现实世界中的导航。提供的上下文地图不需要准确或完整——现实世界的障碍物(例如,树木、灌木、行人等)未绘制在地图上,开口与它们在真实世界中的位置不对齐-世界。至关重要的是,这些不准确的上下文映射为机器人提供了关于通往目标的路线的提示。我们发现,我们利用 Context-Maps 的方法能够在新环境中成功导航数百米,避开其路径上的新障碍,在没有任何碰撞或人工干预的情况下到达遥远的目标。相比之下,没有附加上下文的策略会完全失败。最后,我们通过在模拟中向地图添加不同程度的噪声来测试 Context-Map 策略的稳健性。我们发现上下文映射策略对提供的上下文映射中的噪声具有惊人的鲁棒性。在存在明显不准确的地图(被 50% 的噪声损坏或完全空白的地图)的情况下,策略会优雅地回归到没有上下文的策略行为。此 https 网址提供视频

2.TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion Synthesis

fcfac17b86a595e8cb4cdeff60890e9b.png


标题:TMR:使用对比 3D 人体动作合成的文本到动作检索

作者:Mathis Petrovich, Michael J. Black, Gül Varol

文章链接:https://arxiv.org/abs/2305.00976

项目代码:https://mathis.petrovich.fr/tmr/

11ba0d890d61abc18a49b5e10e755da6.png

a7a832ad0d58fec6aad67a9802fe46e6.png

5f7887430b2f909ceccc2c7903b06336.png

364bbe9423bb65e07bb671dbba9bc4a9.png

摘要:

       在本文中,我们介绍了 TMR,这是一种简单而有效的文本到 3D 人体运动检索方法。虽然以前的工作只将检索作为代理评估指标,但我们将其作为一项独立任务来处理。我们的方法扩展了最先进的文本到运动合成模型 TEMOS,并结合了对比损失以更好地构建跨模态潜在空间。我们表明,保持运动生成损失以及对比训练对于获得良好性能至关重要。我们引入了评估基准,并通过报告几种协议的结果来提供深入分析。我们在 KIT-ML 和 HumanML3D 数据集上进行的大量实验表明,TMR 的性能明显优于之前的工作,例如,将中位数排名从 54 降低到 19。最后,我们展示了我们的方法在矩检索方面的潜力。我们的代码和模型是公开的。

3.ArK: Augmented Reality with Knowledge Interactive Emergent Ability

35758cf2c015607e463ba953bc7076d2.png

标题:Ark:增强现实与知识互动涌现能力

作者:Qiuyuan Huang, Jae Sung Park, Abhinav Gupta, Paul Bennett, Ran Gong, Subhojit Som, Baolin Peng, Owais Khan Mohammed, Chris Pal, Yejin Choi, Jianfeng Gao

文章链接:https://arxiv.org/abs/2304.05977

项目代码:https://github.com/THUDM/ImageReward

4c07109e8da13313d1f75d7d45aa5553.png

acfcce68b0b2f6da6d7429daa2e6b958.png

4aad524c28b49398cdc42c78b5baf2c2.png

76acabd5cf72a6e7ad4fe0dc07d3ef9d.png

9604cca7b9a386014bf55e8268277ede.png

e2adff05eb5096904ba30ddd76570f2c.png

摘要:

       尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。在这项研究中,我们开发了一个无限代理,它学习将知识记忆从一般基础模型(例如 GPT4、DALLE)转移到新的领域或场景,以在物理或虚拟世界中进行场景理解和生成。我们方法的核心是一种新兴机制,称为知识推理交互增强现实 (ArK),它利用知识记忆在看不见的物理世界和虚拟现实环境中生成场景。知识交互涌现能力(图 1)被展示为观察学习 i)跨模态的微动作:在多模态模型中为每个交互任务收集大量相关知识记忆数据(例如,看不见的场景理解) 来自物理现实;ii) 与现实无关的宏观行为:在混合现实环境中改进针对不同特征角色、目标变量、协作信息等定制的交互。我们验证了 ArK 在场景生成和编辑任务上的有效性。我们展示了我们的 ArK 方法与大型基础模型相结合,与基线相比显着提高了生成的 2D/3D 场景的质量,展示了将 ArK 结合到生成 AI 中用于元宇宙和游戏模拟等应用程序的潜在好处。

目录
相关文章
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
123 0
每日学术速递3.27
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递5.1
大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。
141 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.15
数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。
159 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
158 0
|
机器学习/深度学习 机器人
每日学术速递2.23
本文探讨了动态系统中的离散形态对称性,这是生物学和机器人系统的主要特征。当系统的形态具有一个或多个对称平面时,它表现出形态对称性,描述了身体部位的重复和平衡分布。这些形态对称性意味着系统的动力学是对称的(或近似对称的),这进而在最优控制策略和所有与系统动态演化相关的本体感知和外感知测量中印记了对称性。
79 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
115 0
|
机器学习/深度学习 自然语言处理 并行计算
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
133 0
|
传感器 机器学习/深度学习 人工智能
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
122 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
142 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
151 0
下一篇
DataWorks