ECCV2024 Oral:第一视角下的动作图像生成,Meta等提出LEGO模型

简介: 【10月更文挑战第25天】Meta公司提出了一种名为LEGO的新模型,旨在从第一视角生成动作图像,以促进技能传递。LEGO结合了视觉大型语言模型和扩散模型,通过微调和生成技术,实现了更准确的动作图像生成。该研究已在ECCV2024上被选为口头报告。

在计算机视觉领域,动作技能的高效传递是一个重要的研究方向。最近,Meta公司提出了一种名为LEGO的新颖模型,该模型旨在从第一视角生成动作图像,以促进技能传递过程。该研究已被选为ECCV2024(欧洲计算机视觉会议)的口头报告。

大型语言模型(LLMs)的兴起,如ChatGPT,已经在知识传递方面取得了革命性的成果。然而,LLMs在动作技能传递方面存在局限性。它们往往提供一般性的指导,可能不适用于用户的具体情况。另一方面,第一视角的视觉感知提供了一种新颖的方式来捕捉动作和意图,以及相机佩戴者的周围环境。

为了解决这个问题,Meta公司提出了LEGO模型,该模型将用户的查询和从用户视角捕获的图像作为输入,并生成一个第一视角的动作帧,生动地展示了查询动作的执行过程。

LEGO模型的核心思想是利用视觉大型语言模型(VLLMs)的强大能力来增强扩散模型,以实现第一视角的动作图像生成。具体来说,LEGO模型包括两个主要部分:

  1. 第一视角视觉指令微调:该部分使用GPT-3.5生成详细的动作描述,并使用这些描述对VLLM进行微调。通过这种方式,VLLM可以学习到更丰富的动作细节,从而更好地理解动作的执行过程。
  2. 第一视角动作图像生成:该部分利用微调后的VLLM的图像和文本嵌入,以及扩散模型,来生成第一视角的动作图像。通过将VLLM的嵌入作为扩散模型的条件,LEGO模型可以更好地控制动作的状态变化,并生成更准确的动作图像。

为了验证LEGO模型的性能,研究人员在两个第一视角数据集上进行了实验:Ego4D和Epic-Kitchens。实验结果表明,LEGO模型在定量和定性评估方面都显著优于之前的图像操作模型。

在定量评估方面,LEGO模型在所有六个指标上都显著优于之前的模型,包括CLIP分数、EgoVLP分数、EgoVLP+分数、FID、PSNR和LPIPS。特别是在Ego4D数据集上,LEGO模型在所有指标上都取得了最佳性能。

在定性评估方面,研究人员展示了LEGO模型生成的图像示例,并与其他模型进行了比较。这些示例表明,LEGO模型能够生成更准确的动作图像,并更好地保留输入图像的环境上下文。

LEGO模型的提出,为第一视角下的动作图像生成提供了一种新颖的方法,并在定量和定性评估方面都显著优于之前的模型。该模型的提出,对于促进动作技能的传递具有重要意义,并为未来的研究提供了新的思路。

然而,LEGO模型也存在一些局限性。首先,该模型的训练需要大量的数据和计算资源,这可能限制了其在实际应用中的普及。其次,该模型的生成结果可能受到输入图像的质量和多样性的影响,这可能需要进一步的研究来解决。

论文地址:https://arxiv.org/pdf/2312.03849

目录
打赏
0
2
2
1
396
分享
相关文章
NeurIPS Spotlight:从分类到生成:无训练的可控扩散生成
无训练的可控扩散生成是一种新颖的生成模型方法,无需额外训练即可利用已有无条件扩散模型和目标属性预测器生成具有特定属性的样本。相比传统模型,它减少了计算成本,提升了可控性和灵活性,适用于图像、文本等领域。然而,该方法也面临预测器质量、算法鲁棒性和数据多样性等挑战。此研究在NeurIPS会议上获Spotlight关注,论文链接:https://arxiv.org/abs/2409.15761。
41 15
NeurIPS 2024 (Oral):如何量化与提升思维链的推理能力边界?
论文提出推理边界框架(RBF),通过定义推理边界(RB)及其组合定律,提供了一种量化CoT上限的新方法,并提出了三种类别的RB及优化策略。该研究在27个模型和5个任务上进行了广泛实验,验证了RBF的有效性,为理解与优化LLMs的推理能力提供了新见解。 此外,MIT的一项研究探讨了完全微调和低秩适配(LoRA)的差异。尽管两者在模型准确性上相似,但它们在谱结构、泛化行为和参数空间访问方面存在显著不同。完全微调保留了预训练模型的大部分谱结构,而LoRA引入了“入侵维度”,导致在多任务学习中的泛化能力较差。研究还提出了一些减少入侵维度影响的方法,以改善LoRA模型的表现。
157 24
论文介绍:零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
【5月更文挑战第4天】SAM-6D框架是零样本6D物体姿态估计的突破,能检测并准确估计新物体姿态,推动具身智能发展。该框架结合实例分割和姿态估计模型,实现RGB-D图像中的物体分割与姿态估计。在BOP基准测试中,SAM-6D超越现有方法,展示出色泛化能力,但还需应对光照变化、遮挡等问题,以提升现实环境中的性能。[论文链接](https://arxiv.org/pdf/2311.15707.pdf)
260 13
看透物体的3D表示和生成模型:NUS团队提出X-Ray
【5月更文挑战第13天】NUS团队提出了X-Ray,一种新型3D表示方法,通过模拟X射线扫描细致捕捉物体内外特征,解决了现有方法对内部结构和纹理细节处理的局限。利用射线追踪技术,X-Ray将物体浓缩为多帧格式,提高表示效率和准确性。在3D物体合成任务中,X-Ray显示了优于传统方法的优势,尤其适用于高保真3D模型需求的领域,如虚拟现实和游戏。其效率提升也使实时3D生成更具潜力,但面对复杂场景和优化问题仍有挑战。[论文链接](https://arxiv.org/abs/2404.14329)
99 4
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
【2月更文挑战第28天】ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
282 1
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
达摩院OpenVI-视频目标跟踪ICASSP 2023 Oral 渐进式上下文Transformer跟踪器 ProContEXT
视频目标跟踪(Video Object Tracking, VOT)任务以一段视频和第一帧中待跟踪目标的位置信息(矩形框)作为输入,在后续视频帧中预测该跟踪目标的精确位置。该任务对跟踪目标的类别没有限制,目的在于跟踪感兴趣的目标实例。该算法在学术界和工业界都是非常重要的一个研究课题,在自动驾驶、人机交互、视频监控领域都有广泛应用。本文将做较为详细的介绍说明。
818 1
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(3)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
210 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等