牛津大学发布物品部分运动生成模型DragAPart-阿里云开发者社区

牛津大学发布物品部分运动生成模型DragAPart

2024-04-21 9

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【4月更文挑战第21天】牛津大学研究团队推出DragAPart模型，创新图像生成技术，通过拖拽物体部分生成新图像。该模型基于Drag-a-Move数据集训练，理解物体运动关系，实现物理合理的交互式图像生成。适用于物体运动分析和部分分割。尽管存在一致性与通用性挑战，但为图像生成和运动理解带来新突破。[论文链接](https://arxiv.org/abs/2403.15382)

牛津大学的研究团队近期推出了一种名为DragAPart的新型图像生成模型，该模型专注于通过对物体部分进行拖拽操作来生成新的图像。这项技术的核心在于理解物体各部分之间的运动关系，并能够在保证物理合理性的前提下，生成与拖拽动作相匹配的新图像。DragAPart模型的提出，为交互式图像生成领域带来了新的突破，同时也为物体运动分析和移动部分分割等应用提供了新的解决方案。

DragAPart模型的训练基于一个全新的合成数据集Drag-a-Move，该数据集包含了丰富的部分级注释。通过对这些数据进行随机化处理，模型能够更好地泛化到真实图像以及测试时未见过的类别。在模型设计上，DragAPart采用了一种新的拖拽编码方式，这种方式在不同的生成器架构上都表现出了较好的适应性，无论是基于U-Net的Stable Diffusion模型，还是基于Transformer的DiT模型。

在实际应用方面，DragAPart展现了其多方面的能力。首先，它可以优化给定关节物体的移动参数，预测其可移动部分在受到拖拽时可能的运动方式。其次，模型内部对部分运动的理解可以用来分割图像中由拖拽提示的移动部分。这些应用不仅展示了DragAPart在理解物体动态方面的潜力，也为未来相关技术的发展提供了新的方向。

尽管DragAPart在多个方面取得了显著成果，但研究团队也指出了模型存在的一些局限性。例如，当前的模型并未强制执行在不同视角和拖拽条件下同一物体生成图像的一致性。此外，模型在处理日常物体和人类时分别训练了不同的版本，未来将单一模型扩展到所有运动实体上，有可能帮助我们获得一个更加通用的运动先验。

论文地址：https://arxiv.org/abs/2403.15382

牛津大学发布物品部分运动生成模型DragAPart

热门文章

最新文章

相关课程

相关电子书

相关实验场景