每日学术速递5.4

简介: 尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.IndoorSim-to-OutdoorReal: Learning to Navigate Outdoors without any Outdoor Experience


5ae25d6786554f78a050173d810b4ab6.png


标题:IndoorSim-to-OutdoorReal:在没有任何户外经验的情况下学习在户外导航

作者:Joanne Truong, April Zitkovich, Sonia Chernova, Dhruv Batra, Tingnan Zhang, Jie Tan, Wenhao Yu

文章链接:https://arxiv.org/abs/2305.01098

项目代码:https://www.joannetruong.com/projects/i2o.html

251d24f52ff95fdef47edbba7a3f2135.png

149fa0b77562c55c77d271551f0a1dc9.png

200cf5a42c74a1634d804e5dc0ec82fd.png

cf326a067bde88e809c1e691f9ae036a.png

摘要:

       我们展示了 IndoorSim-to-OutdoorReal (I2O),这是一种端到端的学习视觉导航方法,仅在模拟的短程室内环境中进行训练,并演示了零样本模拟到真实的远程转移到室外在 Spot 机器人上导航。我们的方法使用零真实世界经验(室内或室外),并且要求模拟器模拟没有主要是室外的现象(倾斜的地面、人行道等)。I2O 传输的关键是为机器人提供额外的环境上下文(即卫星地图、人类绘制的粗略地图等)以指导机器人在现实世界中的导航。提供的上下文地图不需要准确或完整——现实世界的障碍物(例如,树木、灌木、行人等)未绘制在地图上,开口与它们在真实世界中的位置不对齐-世界。至关重要的是,这些不准确的上下文映射为机器人提供了关于通往目标的路线的提示。我们发现,我们利用 Context-Maps 的方法能够在新环境中成功导航数百米,避开其路径上的新障碍,在没有任何碰撞或人工干预的情况下到达遥远的目标。相比之下,没有附加上下文的策略会完全失败。最后,我们通过在模拟中向地图添加不同程度的噪声来测试 Context-Map 策略的稳健性。我们发现上下文映射策略对提供的上下文映射中的噪声具有惊人的鲁棒性。在存在明显不准确的地图(被 50% 的噪声损坏或完全空白的地图)的情况下,策略会优雅地回归到没有上下文的策略行为。此 https 网址提供视频

2.TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion Synthesis

fcfac17b86a595e8cb4cdeff60890e9b.png


标题:TMR:使用对比 3D 人体动作合成的文本到动作检索

作者:Mathis Petrovich, Michael J. Black, Gül Varol

文章链接:https://arxiv.org/abs/2305.00976

项目代码:https://mathis.petrovich.fr/tmr/

11ba0d890d61abc18a49b5e10e755da6.png

a7a832ad0d58fec6aad67a9802fe46e6.png

5f7887430b2f909ceccc2c7903b06336.png

364bbe9423bb65e07bb671dbba9bc4a9.png

摘要:

       在本文中,我们介绍了 TMR,这是一种简单而有效的文本到 3D 人体运动检索方法。虽然以前的工作只将检索作为代理评估指标,但我们将其作为一项独立任务来处理。我们的方法扩展了最先进的文本到运动合成模型 TEMOS,并结合了对比损失以更好地构建跨模态潜在空间。我们表明,保持运动生成损失以及对比训练对于获得良好性能至关重要。我们引入了评估基准,并通过报告几种协议的结果来提供深入分析。我们在 KIT-ML 和 HumanML3D 数据集上进行的大量实验表明,TMR 的性能明显优于之前的工作,例如,将中位数排名从 54 降低到 19。最后,我们展示了我们的方法在矩检索方面的潜力。我们的代码和模型是公开的。

3.ArK: Augmented Reality with Knowledge Interactive Emergent Ability

35758cf2c015607e463ba953bc7076d2.png

标题:Ark:增强现实与知识互动涌现能力

作者:Qiuyuan Huang, Jae Sung Park, Abhinav Gupta, Paul Bennett, Ran Gong, Subhojit Som, Baolin Peng, Owais Khan Mohammed, Chris Pal, Yejin Choi, Jianfeng Gao

文章链接:https://arxiv.org/abs/2304.05977

项目代码:https://github.com/THUDM/ImageReward

4c07109e8da13313d1f75d7d45aa5553.png

acfcce68b0b2f6da6d7429daa2e6b958.png

4aad524c28b49398cdc42c78b5baf2c2.png

76acabd5cf72a6e7ad4fe0dc07d3ef9d.png

9604cca7b9a386014bf55e8268277ede.png

e2adff05eb5096904ba30ddd76570f2c.png

摘要:

       尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。在这项研究中,我们开发了一个无限代理,它学习将知识记忆从一般基础模型(例如 GPT4、DALLE)转移到新的领域或场景,以在物理或虚拟世界中进行场景理解和生成。我们方法的核心是一种新兴机制,称为知识推理交互增强现实 (ArK),它利用知识记忆在看不见的物理世界和虚拟现实环境中生成场景。知识交互涌现能力(图 1)被展示为观察学习 i)跨模态的微动作:在多模态模型中为每个交互任务收集大量相关知识记忆数据(例如,看不见的场景理解) 来自物理现实;ii) 与现实无关的宏观行为:在混合现实环境中改进针对不同特征角色、目标变量、协作信息等定制的交互。我们验证了 ArK 在场景生成和编辑任务上的有效性。我们展示了我们的 ArK 方法与大型基础模型相结合,与基线相比显着提高了生成的 2D/3D 场景的质量,展示了将 ArK 结合到生成 AI 中用于元宇宙和游戏模拟等应用程序的潜在好处。

目录
相关文章
|
C语言
MQTT交叉编译(海思v300 arm-hisiv300-linux-):openssl、paho.mqtt.c、paho.mqtt.cpp
MQTT交叉编译(海思v300 arm-hisiv300-linux-):openssl、paho.mqtt.c、paho.mqtt.cpp
1256 0
MQTT交叉编译(海思v300 arm-hisiv300-linux-):openssl、paho.mqtt.c、paho.mqtt.cpp
|
敏捷开发 缓存 测试技术
阿里云云效产品使用合集之缓存怎么设置
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
分布式计算 资源调度 数据可视化
Hadoop-06-Hadoop集群 历史服务器配置 超详细 执行任务记录 JobHistoryServer MapReduce执行记录 日志聚合结果可视化查看
Hadoop-06-Hadoop集群 历史服务器配置 超详细 执行任务记录 JobHistoryServer MapReduce执行记录 日志聚合结果可视化查看
220 1
|
Java Spring
SpringBoot 项目打成 jar 后,如何加载外部的配置文件?
SpringBoot 项目打成 jar 后,如何加载外部的配置文件?
1843 0
|
Java Linux 测试技术
Maven命令大全:从安装到部署,一篇文章带你玩转Maven
本文由木头左介绍Maven,一个用于Java项目管理的工具,涉及Maven的安装配置(Windows和Linux)及核心命令,包括install、package、compile、clean、deploy、test、verify和site。通过这些命令,可以实现构建、打包、编译、测试、部署和生成项目站点等操作。
|
编译器 C++
C++练级之路——类和对象(中)
C++练级之路——类和对象(中)
82 1
|
存储 SQL NoSQL
传智健康day04 预约管理-套餐管理
传智健康day04 预约管理-套餐管理
传智健康day04 预约管理-套餐管理
|
Python
Python Request POST 上传文件 Multipart/form-data
Python Request POST 上传文件 Multipart/form-data
931 0
Python Request POST 上传文件 Multipart/form-data
|
编解码 计算机视觉 C++
OpenCV 打开双目摄像头(python版)
本文主要介绍在OpenCV用使用双目摄像头,包括:打开单目摄像头、设置摄像头参数、拍照、录制视频。
1042 0
|
Unix Linux Android开发
时间问题
时间问题
468 0