牛津大学的研究团队近期推出了一种名为DragAPart的新型图像生成模型,该模型专注于通过对物体部分进行拖拽操作来生成新的图像。这项技术的核心在于理解物体各部分之间的运动关系,并能够在保证物理合理性的前提下,生成与拖拽动作相匹配的新图像。DragAPart模型的提出,为交互式图像生成领域带来了新的突破,同时也为物体运动分析和移动部分分割等应用提供了新的解决方案。
DragAPart模型的训练基于一个全新的合成数据集Drag-a-Move,该数据集包含了丰富的部分级注释。通过对这些数据进行随机化处理,模型能够更好地泛化到真实图像以及测试时未见过的类别。在模型设计上,DragAPart采用了一种新的拖拽编码方式,这种方式在不同的生成器架构上都表现出了较好的适应性,无论是基于U-Net的Stable Diffusion模型,还是基于Transformer的DiT模型。
在实际应用方面,DragAPart展现了其多方面的能力。首先,它可以优化给定关节物体的移动参数,预测其可移动部分在受到拖拽时可能的运动方式。其次,模型内部对部分运动的理解可以用来分割图像中由拖拽提示的移动部分。这些应用不仅展示了DragAPart在理解物体动态方面的潜力,也为未来相关技术的发展提供了新的方向。
尽管DragAPart在多个方面取得了显著成果,但研究团队也指出了模型存在的一些局限性。例如,当前的模型并未强制执行在不同视角和拖拽条件下同一物体生成图像的一致性。此外,模型在处理日常物体和人类时分别训练了不同的版本,未来将单一模型扩展到所有运动实体上,有可能帮助我们获得一个更加通用的运动先验。