每日学术速递5.4

简介: 尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.IndoorSim-to-OutdoorReal: Learning to Navigate Outdoors without any Outdoor Experience


5ae25d6786554f78a050173d810b4ab6.png


标题:IndoorSim-to-OutdoorReal:在没有任何户外经验的情况下学习在户外导航

作者:Joanne Truong, April Zitkovich, Sonia Chernova, Dhruv Batra, Tingnan Zhang, Jie Tan, Wenhao Yu

文章链接:https://arxiv.org/abs/2305.01098

项目代码:https://www.joannetruong.com/projects/i2o.html

251d24f52ff95fdef47edbba7a3f2135.png

149fa0b77562c55c77d271551f0a1dc9.png

200cf5a42c74a1634d804e5dc0ec82fd.png

cf326a067bde88e809c1e691f9ae036a.png

摘要:

       我们展示了 IndoorSim-to-OutdoorReal (I2O),这是一种端到端的学习视觉导航方法,仅在模拟的短程室内环境中进行训练,并演示了零样本模拟到真实的远程转移到室外在 Spot 机器人上导航。我们的方法使用零真实世界经验(室内或室外),并且要求模拟器模拟没有主要是室外的现象(倾斜的地面、人行道等)。I2O 传输的关键是为机器人提供额外的环境上下文(即卫星地图、人类绘制的粗略地图等)以指导机器人在现实世界中的导航。提供的上下文地图不需要准确或完整——现实世界的障碍物(例如,树木、灌木、行人等)未绘制在地图上,开口与它们在真实世界中的位置不对齐-世界。至关重要的是,这些不准确的上下文映射为机器人提供了关于通往目标的路线的提示。我们发现,我们利用 Context-Maps 的方法能够在新环境中成功导航数百米,避开其路径上的新障碍,在没有任何碰撞或人工干预的情况下到达遥远的目标。相比之下,没有附加上下文的策略会完全失败。最后,我们通过在模拟中向地图添加不同程度的噪声来测试 Context-Map 策略的稳健性。我们发现上下文映射策略对提供的上下文映射中的噪声具有惊人的鲁棒性。在存在明显不准确的地图(被 50% 的噪声损坏或完全空白的地图)的情况下,策略会优雅地回归到没有上下文的策略行为。此 https 网址提供视频

2.TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion Synthesis

fcfac17b86a595e8cb4cdeff60890e9b.png


标题:TMR:使用对比 3D 人体动作合成的文本到动作检索

作者:Mathis Petrovich, Michael J. Black, Gül Varol

文章链接:https://arxiv.org/abs/2305.00976

项目代码:https://mathis.petrovich.fr/tmr/

11ba0d890d61abc18a49b5e10e755da6.png

a7a832ad0d58fec6aad67a9802fe46e6.png

5f7887430b2f909ceccc2c7903b06336.png

364bbe9423bb65e07bb671dbba9bc4a9.png

摘要:

       在本文中,我们介绍了 TMR,这是一种简单而有效的文本到 3D 人体运动检索方法。虽然以前的工作只将检索作为代理评估指标,但我们将其作为一项独立任务来处理。我们的方法扩展了最先进的文本到运动合成模型 TEMOS,并结合了对比损失以更好地构建跨模态潜在空间。我们表明,保持运动生成损失以及对比训练对于获得良好性能至关重要。我们引入了评估基准,并通过报告几种协议的结果来提供深入分析。我们在 KIT-ML 和 HumanML3D 数据集上进行的大量实验表明,TMR 的性能明显优于之前的工作,例如,将中位数排名从 54 降低到 19。最后,我们展示了我们的方法在矩检索方面的潜力。我们的代码和模型是公开的。

3.ArK: Augmented Reality with Knowledge Interactive Emergent Ability

35758cf2c015607e463ba953bc7076d2.png

标题:Ark:增强现实与知识互动涌现能力

作者:Qiuyuan Huang, Jae Sung Park, Abhinav Gupta, Paul Bennett, Ran Gong, Subhojit Som, Baolin Peng, Owais Khan Mohammed, Chris Pal, Yejin Choi, Jianfeng Gao

文章链接:https://arxiv.org/abs/2304.05977

项目代码:https://github.com/THUDM/ImageReward

4c07109e8da13313d1f75d7d45aa5553.png

acfcce68b0b2f6da6d7429daa2e6b958.png

4aad524c28b49398cdc42c78b5baf2c2.png

76acabd5cf72a6e7ad4fe0dc07d3ef9d.png

9604cca7b9a386014bf55e8268277ede.png

e2adff05eb5096904ba30ddd76570f2c.png

摘要:

       尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。在这项研究中,我们开发了一个无限代理,它学习将知识记忆从一般基础模型(例如 GPT4、DALLE)转移到新的领域或场景,以在物理或虚拟世界中进行场景理解和生成。我们方法的核心是一种新兴机制,称为知识推理交互增强现实 (ArK),它利用知识记忆在看不见的物理世界和虚拟现实环境中生成场景。知识交互涌现能力(图 1)被展示为观察学习 i)跨模态的微动作:在多模态模型中为每个交互任务收集大量相关知识记忆数据(例如,看不见的场景理解) 来自物理现实;ii) 与现实无关的宏观行为:在混合现实环境中改进针对不同特征角色、目标变量、协作信息等定制的交互。我们验证了 ArK 在场景生成和编辑任务上的有效性。我们展示了我们的 ArK 方法与大型基础模型相结合,与基线相比显着提高了生成的 2D/3D 场景的质量,展示了将 ArK 结合到生成 AI 中用于元宇宙和游戏模拟等应用程序的潜在好处。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
235 0
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
134 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
105 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.17
扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子
146 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递4.28
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用
199 0
|
机器学习/深度学习 自然语言处理 PyTorch
每日学术速递2.17
近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。
110 0
|
机器人
每日学术速递4.27
我们研究如何使用 Transformers 构建和训练用于机器人决策的空间表示。特别是,对于在各种环境中运行的机器人,我们必须能够快速训练或微调机器人感觉运动策略,这些策略对杂波具有鲁棒性、数据效率高,并且可以很好地泛化到不同的环境。
124 0
|
机器学习/深度学习 存储 编解码
每日学术速递2.20
将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。
114 0
|
SQL 机器学习/深度学习 自然语言处理
每日学术速递3.22
我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。
111 0
|
机器学习/深度学习 自然语言处理 自动驾驶
每日学术速递5.9
目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展
171 0