ECCV2024 Oral:第一视角下的动作图像生成,Meta等提出LEGO模型

简介: 【10月更文挑战第25天】Meta公司提出了一种名为LEGO的新模型,旨在从第一视角生成动作图像,以促进技能传递。LEGO结合了视觉大型语言模型和扩散模型,通过微调和生成技术,实现了更准确的动作图像生成。该研究已在ECCV2024上被选为口头报告。

在计算机视觉领域,动作技能的高效传递是一个重要的研究方向。最近,Meta公司提出了一种名为LEGO的新颖模型,该模型旨在从第一视角生成动作图像,以促进技能传递过程。该研究已被选为ECCV2024(欧洲计算机视觉会议)的口头报告。

大型语言模型(LLMs)的兴起,如ChatGPT,已经在知识传递方面取得了革命性的成果。然而,LLMs在动作技能传递方面存在局限性。它们往往提供一般性的指导,可能不适用于用户的具体情况。另一方面,第一视角的视觉感知提供了一种新颖的方式来捕捉动作和意图,以及相机佩戴者的周围环境。

为了解决这个问题,Meta公司提出了LEGO模型,该模型将用户的查询和从用户视角捕获的图像作为输入,并生成一个第一视角的动作帧,生动地展示了查询动作的执行过程。

LEGO模型的核心思想是利用视觉大型语言模型(VLLMs)的强大能力来增强扩散模型,以实现第一视角的动作图像生成。具体来说,LEGO模型包括两个主要部分:

  1. 第一视角视觉指令微调:该部分使用GPT-3.5生成详细的动作描述,并使用这些描述对VLLM进行微调。通过这种方式,VLLM可以学习到更丰富的动作细节,从而更好地理解动作的执行过程。
  2. 第一视角动作图像生成:该部分利用微调后的VLLM的图像和文本嵌入,以及扩散模型,来生成第一视角的动作图像。通过将VLLM的嵌入作为扩散模型的条件,LEGO模型可以更好地控制动作的状态变化,并生成更准确的动作图像。

为了验证LEGO模型的性能,研究人员在两个第一视角数据集上进行了实验:Ego4D和Epic-Kitchens。实验结果表明,LEGO模型在定量和定性评估方面都显著优于之前的图像操作模型。

在定量评估方面,LEGO模型在所有六个指标上都显著优于之前的模型,包括CLIP分数、EgoVLP分数、EgoVLP+分数、FID、PSNR和LPIPS。特别是在Ego4D数据集上,LEGO模型在所有指标上都取得了最佳性能。

在定性评估方面,研究人员展示了LEGO模型生成的图像示例,并与其他模型进行了比较。这些示例表明,LEGO模型能够生成更准确的动作图像,并更好地保留输入图像的环境上下文。

LEGO模型的提出,为第一视角下的动作图像生成提供了一种新颖的方法,并在定量和定性评估方面都显著优于之前的模型。该模型的提出,对于促进动作技能的传递具有重要意义,并为未来的研究提供了新的思路。

然而,LEGO模型也存在一些局限性。首先,该模型的训练需要大量的数据和计算资源,这可能限制了其在实际应用中的普及。其次,该模型的生成结果可能受到输入图像的质量和多样性的影响,这可能需要进一步的研究来解决。

论文地址:https://arxiv.org/pdf/2312.03849

目录
相关文章
|
10月前
|
算法 测试技术 vr&ar
【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器
【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器
|
3月前
|
机器学习/深度学习 人工智能 编解码
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,支持生成高分辨率的多视角图像。
366 18
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
|
10月前
|
测试技术 计算机视觉
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
【2月更文挑战第28天】ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
222 1
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
|
计算机视觉
大连理工卢湖川团队TMI顶刊新作 | M^2SNet: 新颖多尺度模块 + 智能损失函数 = 通用图像分割SOTA网络
大连理工卢湖川团队TMI顶刊新作 | M^2SNet: 新颖多尺度模块 + 智能损失函数 = 通用图像分割SOTA网络
538 0
|
10月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
|
机器学习/深度学习 监控 算法
|
机器学习/深度学习 数据可视化 自动驾驶
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
243 0
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
|
机器学习/深度学习 达摩院 监控
达摩院OpenVI-视频目标跟踪ICASSP 2023 Oral 渐进式上下文Transformer跟踪器 ProContEXT
视频目标跟踪(Video Object Tracking, VOT)任务以一段视频和第一帧中待跟踪目标的位置信息(矩形框)作为输入,在后续视频帧中预测该跟踪目标的精确位置。该任务对跟踪目标的类别没有限制,目的在于跟踪感兴趣的目标实例。该算法在学术界和工业界都是非常重要的一个研究课题,在自动驾驶、人机交互、视频监控领域都有广泛应用。本文将做较为详细的介绍说明。
786 1
|
计算机视觉
最强检测 | YOLO V4?都是弟弟! CenterNet2以56.4mAP超越当前所有检测模型(附源码与论文)(一)
最强检测 | YOLO V4?都是弟弟! CenterNet2以56.4mAP超越当前所有检测模型(附源码与论文)(一)
157 0
|
机器学习/深度学习 数据挖掘 测试技术
【Re-ID项目实践】基于表征学习的行人ReID方法实践(一)
【Re-ID项目实践】基于表征学习的行人ReID方法实践(一)
273 0

热门文章

最新文章