每日学术速递4.20

简介: 建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Avatars Grow Legs: Generating Smooth Human Motion from Sparse Tracking Inputs with Diffusion Model(CVPR 2023)

c56322d6892cda6afa2343acca0a133d.png

标题:化身长腿:使用扩散模型从稀疏跟踪输入生成平滑的人体运动

作者:Yuming Du, Robin Kips, Albert Pumarola, Sebastian Starke, Ali Thabet, Artsiom Sanakoyeu

文章链接:https://arxiv.org/abs/2304.08577

项目代码:https://dulucas.github.io/agrol/

9661c52146952f0ba391321c1a373731.png

8cb7565e4126351898525439ca6be62c.png

f359a17f61cde5de9e8deccc07b5a365.png

56881d73133d81d1453040aad2de5b44.png

93840849a47dcee694b059e9e9b23196.png

摘要:

       随着近期 AR/VR 应用程序的流行,对 3D 全身化身的逼真和准确控制已成为人们迫切需要的功能。一个特殊的挑战是,独立的 HMD(头戴式设备)只能提供稀疏的跟踪信号,通常仅限于跟踪用户的头部和手腕。虽然此信号对于重建上半身运动非常有用,但下半身未被跟踪,必须从上半身关节提供的有限信息中合成。在本文中,我们提出了 AGRoL,这是一种新型条件扩散模型,专门设计用于在给定稀疏上半身跟踪信号的情况下跟踪全身。我们的模型基于一个简单的多层感知器 (MLP) 架构和一种新颖的运动数据调节方案。它可以预测准确而流畅的全身运动,尤其是具有挑战性的下半身运动。与常见的扩散架构不同,我们的紧凑架构可以实时运行,使其适用于在线身体跟踪应用程序。我们在 AMASS 运动捕捉数据集上训练和评估我们的模型,并证明我们的方法在生成的运动精度和平滑度方面优于最先进的方法。我们通过广泛的实验和消融研究进一步证明了我们的设计选择。

2Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models(CVPR 2023)

7f337b785ca34e5b6c9b340d7b9ac337.png

标题:对齐你的潜在:高分辨率视频合成与潜在扩散模型

作者:Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, Karsten Kreis

文章链接:https://arxiv.org/abs/2304.08818

项目代码:https://research.nvidia.com/labs/toronto-ai/VideoLDM/

07387a42b6df434b2c44df23e1a35262.png

3ac834234f8991ddb091a25afa904333.png

6d8ace693b85b10833944440ee5bf427.png

摘要:

       潜在扩散模型 (LDM) 可实现高质量图像合成,同时通过在压缩的低维潜在空间中训练扩散模型来避免过多的计算需求。在这里,我们将 LDM 范例应用于高分辨率视频生成,这是一项特别耗费资源的任务。我们首先仅在图像上预训练 LDM;然后,我们通过在潜在空间扩散模型中引入时间维度并对编码图像序列(即视频)进行微调,将图像生成器转变为视频生成器。同样,我们在时间上对齐扩散模型上采样器,将它们变成时间一致的视频超分辨率模型。我们专注于两个相关的现实世界应用:模拟野外驾驶数据和使用文本到视频建模的创意内容创建。特别是,我们在分辨率为 512 x 1024 的真实驾驶视频上验证了我们的视频 LDM,实现了最先进的性能。此外,我们的方法可以轻松利用现成的预训练图像 LDM,因为在这种情况下我们只需要训练时间对齐模型。这样做,我们将公开可用的、最先进的文本到图像 LDM 稳定扩散转变为分辨率高达 1280 x 2048 的高效且富有表现力的文本到视频模型。我们表明,时间层经过训练以这种方式推广到不同的微调文本到图像 LDM。利用此属性,我们展示了个性化文本到视频生成的第一个结果,为未来的内容创建开辟了令人兴奋的方向。

Subjects: cs.RO


3.ImAffordances from Human Videos as a Versatile Representation for Robotics

bdccbad3abc8ee2b3099ea48683439fb.png


标题:人类视频的可供性作为机器人技术的多功能表示

作者:Shikhar Bahl, Russell Mendonca, Lili Chen, Unnat Jain, Deepak Pathak

文章链接:https://arxiv.org/abs/2304.08488

项目代码:https://robo-affordances.github.io/

f2235ef6c6df0d1a4b26f0b768253022.png

3cf2029876b5dc0b6764cb2251a08206.png

2c3adda1e3a5fa3aa9652e62c37f635c.png

cd265e4b4abfc7b108a5eabb7bbe5266.png

8b5de406f0a394f7adb9476bfc81d7f8.png

522f0f3f0104a01ae22b08ad7a80beac.png


摘要:

       建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互。这些行为可供性的结构直接使机器人能够执行许多复杂的任务。我们展示了如何将我们的可供性模型与四种机器人学习范式无缝集成,包括离线模仿学习、探索、目标条件学习和强化学习的动作参数化。我们展示了我们称为 VRB 的方法在 4 个真实世界环境、10 多个不同任务和 2 个在野外运行的机器人平台上的有效性。此 https URL 上的结果、可视化和视频

目录
相关文章
|
API C++ 计算机视觉
【opencv3】鼠标框选矩形并显示当前像素点坐标和矩形中心点坐标C++
【opencv3】鼠标框选矩形并显示当前像素点坐标和矩形中心点坐标C++
|
运维 Kubernetes Cloud Native
k8s学习-Pod(生命周期、探针、模板、创建、删除等)
k8s学习-Pod(生命周期、探针、模板、创建、删除等)
410 0
|
机器学习/深度学习 监控 算法
yolov8+多算法多目标追踪+实例分割+目标检测+姿态估计(代码+教程)
yolov8+多算法多目标追踪+实例分割+目标检测+姿态估计(代码+教程)
|
并行计算 PyTorch 算法框架/工具
社区供稿 | 本地部署通义千问大模型做RAG验证
这篇文章中,我们通过将模搭社区开源的大模型部署到本地,并实现简单的对话和RAG。
|
存储 缓存 大数据
三种交换方式的比较
互联网核心部分主要由路由器构成,负责分组交换。路由器是网络中转发数据的关键,它接收和转发分组,确保边缘部分的主机间通信。通信方式包括: 1. 电路交换- 用于早期电话系统,先建立连接,然后通话,最后释放,适合连续大数据传输,但线路利用率低。 2. **分组交换** - 常见于现代互联网,数据被分割成分组,每个独立转发,提高了线路效率和灵活性。 3. 报文交换-整个报文一次性转发,存储转发,适合小规模、非实时通信,但时延较长。 分组交换结合了高效和灵活性,是互联网核心的优选技术。
937 5
|
存储 安全 数据库
LabVIEW测试面板丢失,修复或重置NI MAX
LabVIEW测试面板丢失,修复或重置NI MAX
348 3
|
资源调度 分布式计算 Kubernetes
技术抉择:阿里云13年后重构全部核心调度系统
在阿里云十三年的发展历史上,重新设计调度系统算得上是一个重要的技术抉择。
1747 100
技术抉择:阿里云13年后重构全部核心调度系统
|
机器学习/深度学习 算法 数据可视化
基于计算机视觉手势识别控制系统YoloGesture (利用YOLO实现) 有详细代码+部署+在线服务器尝试+开源可复现
基于计算机视觉手势识别控制系统YoloGesture (利用YOLO实现) 有详细代码+部署+在线服务器尝试+开源可复现
|
前端开发 搜索推荐 Java
旅游定制服务|基于SSM实现旅游个性化定制网站平台
旅游定制服务|基于SSM实现旅游个性化定制网站平台
453 0
|
存储 传感器 人工智能
NVIDIA Jetson Orin Nano 开箱测评
大家都知道最近AI是非常的火,哪怕你不关心科技圈的新闻,也一定不止一次看到ChatGPT、AI画画之类的内容。