ECCV2024 Oral:第一视角下的动作图像生成,Meta等提出LEGO模型

简介: 【10月更文挑战第25天】Meta公司提出了一种名为LEGO的新模型,旨在从第一视角生成动作图像,以促进技能传递。LEGO结合了视觉大型语言模型和扩散模型,通过微调和生成技术,实现了更准确的动作图像生成。该研究已在ECCV2024上被选为口头报告。

在计算机视觉领域,动作技能的高效传递是一个重要的研究方向。最近,Meta公司提出了一种名为LEGO的新颖模型,该模型旨在从第一视角生成动作图像,以促进技能传递过程。该研究已被选为ECCV2024(欧洲计算机视觉会议)的口头报告。

大型语言模型(LLMs)的兴起,如ChatGPT,已经在知识传递方面取得了革命性的成果。然而,LLMs在动作技能传递方面存在局限性。它们往往提供一般性的指导,可能不适用于用户的具体情况。另一方面,第一视角的视觉感知提供了一种新颖的方式来捕捉动作和意图,以及相机佩戴者的周围环境。

为了解决这个问题,Meta公司提出了LEGO模型,该模型将用户的查询和从用户视角捕获的图像作为输入,并生成一个第一视角的动作帧,生动地展示了查询动作的执行过程。

LEGO模型的核心思想是利用视觉大型语言模型(VLLMs)的强大能力来增强扩散模型,以实现第一视角的动作图像生成。具体来说,LEGO模型包括两个主要部分:

  1. 第一视角视觉指令微调:该部分使用GPT-3.5生成详细的动作描述,并使用这些描述对VLLM进行微调。通过这种方式,VLLM可以学习到更丰富的动作细节,从而更好地理解动作的执行过程。
  2. 第一视角动作图像生成:该部分利用微调后的VLLM的图像和文本嵌入,以及扩散模型,来生成第一视角的动作图像。通过将VLLM的嵌入作为扩散模型的条件,LEGO模型可以更好地控制动作的状态变化,并生成更准确的动作图像。

为了验证LEGO模型的性能,研究人员在两个第一视角数据集上进行了实验:Ego4D和Epic-Kitchens。实验结果表明,LEGO模型在定量和定性评估方面都显著优于之前的图像操作模型。

在定量评估方面,LEGO模型在所有六个指标上都显著优于之前的模型,包括CLIP分数、EgoVLP分数、EgoVLP+分数、FID、PSNR和LPIPS。特别是在Ego4D数据集上,LEGO模型在所有指标上都取得了最佳性能。

在定性评估方面,研究人员展示了LEGO模型生成的图像示例,并与其他模型进行了比较。这些示例表明,LEGO模型能够生成更准确的动作图像,并更好地保留输入图像的环境上下文。

LEGO模型的提出,为第一视角下的动作图像生成提供了一种新颖的方法,并在定量和定性评估方面都显著优于之前的模型。该模型的提出,对于促进动作技能的传递具有重要意义,并为未来的研究提供了新的思路。

然而,LEGO模型也存在一些局限性。首先,该模型的训练需要大量的数据和计算资源,这可能限制了其在实际应用中的普及。其次,该模型的生成结果可能受到输入图像的质量和多样性的影响,这可能需要进一步的研究来解决。

论文地址:https://arxiv.org/pdf/2312.03849

目录
相关文章
|
6月前
|
算法 测试技术 vr&ar
【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器
【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器
|
2月前
|
机器学习/深度学习 传感器 机器人
机器人策略学习的Game Changer?伯克利提出Body Transformer
【9月更文挑战第13天】加州大学伯克利分校的研究团队提出了一种名为Body Transformer(BoT)的创新架构,旨在通过将机器人的物理形态建模为传感器和执行器组成的图,并利用掩码注意力机制汇聚信息,为机器人学习策略提供有效归纳偏置。BoT不仅在模仿学习和强化学习中表现出色,在任务完成、缩放特性及计算效率方面超越传统架构,而且具备更强的稳定性和泛化能力。尽管存在适用范围和计算资源等局限性,BoT仍展示了在实际应用中的巨大潜力。论文详情见:https://arxiv.org/pdf/2408.06316v1
31 6
|
6月前
|
vr&ar 图形学 网络架构
看透物体的3D表示和生成模型:NUS团队提出X-Ray
【5月更文挑战第13天】NUS团队提出了X-Ray,一种新型3D表示方法,通过模拟X射线扫描细致捕捉物体内外特征,解决了现有方法对内部结构和纹理细节处理的局限。利用射线追踪技术,X-Ray将物体浓缩为多帧格式,提高表示效率和准确性。在3D物体合成任务中,X-Ray显示了优于传统方法的优势,尤其适用于高保真3D模型需求的领域,如虚拟现实和游戏。其效率提升也使实时3D生成更具潜力,但面对复杂场景和优化问题仍有挑战。[论文链接](https://arxiv.org/abs/2404.14329)
63 4
|
6月前
|
测试技术 计算机视觉
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
【2月更文挑战第28天】ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
166 1
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
|
传感器 存储 编解码
论文解读:Towards Open World NeRF-Based SLAM,迈向开放世界的NeRF-SLAM
Towards Open World NeRF-Based SLAM,迈向开放世界的NeRF-SLAM
243 0
|
机器学习/深度学习 自然语言处理 算法
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉(2)
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉
158 0
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉(2)
|
机器学习/深度学习 达摩院 监控
达摩院OpenVI-视频目标跟踪ICASSP 2023 Oral 渐进式上下文Transformer跟踪器 ProContEXT
视频目标跟踪(Video Object Tracking, VOT)任务以一段视频和第一帧中待跟踪目标的位置信息(矩形框)作为输入,在后续视频帧中预测该跟踪目标的精确位置。该任务对跟踪目标的类别没有限制,目的在于跟踪感兴趣的目标实例。该算法在学术界和工业界都是非常重要的一个研究课题,在自动驾驶、人机交互、视频监控领域都有广泛应用。本文将做较为详细的介绍说明。
726 1
|
数据采集 SQL 编解码
CVPR2022 Oral | CosFace、ArcFace的大统一升级,AdaFace解决低质量图像人脸识(一)
CVPR2022 Oral | CosFace、ArcFace的大统一升级,AdaFace解决低质量图像人脸识(一)
341 0
|
人工智能 计算机视觉 Ruby
CVPR2022 Oral | CosFace、ArcFace的大统一升级,AdaFace解决低质量图像人脸识(二)
CVPR2022 Oral | CosFace、ArcFace的大统一升级,AdaFace解决低质量图像人脸识(二)
613 0
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(3)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
178 0
下一篇
无影云桌面