阿里等发布基于3D的人物图片转视频模型Champ-阿里云开发者社区

阿里等发布基于3D的人物图片转视频模型Champ

2024-04-21 27

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【4月更文挑战第21天】阿里联合南京大学、复旦大学发布创新模型Champ，实现3D人物图片转视频的突破。Champ运用SMPL模型与潜在扩散框架，提升形状对齐和运动引导能力，生成高质量人物动画，尤其擅长捕捉姿势和形状变化。模型通过细节处理增强面部表情和手指动作等细节，但面部和手部建模仍有提升空间。研究团队已进行效率优化，推动实际应用。[项目地址](https://fudan-generative-vision.github.io/champ/#/) | [论文地址](https://arxiv.org/abs/2403.14781)

在人工智能领域，图像动画技术一直是研究的热点之一。近期，由南京大学、复旦大学以及阿里巴巴集团共同研发的Champ模型，为人物图片转视频领域带来了新的突破。Champ模型利用3D人体参数化模型和潜在扩散框架，提高了现有人物生成技术的形状对齐和运动引导能力，这一成果在学术界和工业界都引起了广泛关注。

Champ模型的核心在于其对SMPL模型的创新性应用。SMPL模型是一种广泛认可的3D人体参数化模型，能够有效捕捉人体的形状和姿态。Champ模型通过将SMPL模型与潜在扩散模型相结合，不仅提升了动画生成的质量，还增强了对人物动作和形态变化的精确捕捉。在实验评估中，Champ模型展现出了生成高质量人物动画的卓越能力，尤其是在捕捉姿势和形状变化方面。

Champ模型的另一个亮点是其对细节的处理。通过整合渲染的深度图像、法线图和语义图，Champ模型能够丰富潜在扩散模型的条件，从而在空间域中融合形状和运动的潜在表示。这种多层次的运动融合模块，结合了自注意力机制，使得模型在生成动画时能够更加精细地处理人物的面部表情和手指动作等细节。

尽管Champ模型在人物图像动画方面取得了显著成果，但仍有一些挑战和局限性需要克服。首先，模型对于面部和手部的建模能力仍有待提高，这部分的引导效果与基于特征的方法相比尚有差距。为此，研究团队引入了DWpose作为面部和手部建模的额外约束，以增强这些区域的动画效果。其次，尽管自注意力机制在突出面部和手部的显著性方面发挥了作用，但由于SMPL模型和DWpose是独立解决的，两者之间可能存在一致性上的潜在差异。虽然这种差异在实验中并未明显表现出来，但它仍然是一个值得关注的问题。

此外，Champ模型在效率方面也进行了一定的优化。研究团队对模型的不同步骤进行了效率分析，包括参数化形状转移、每帧的渲染和推理所需的GPU内存和时间。这些优化措施有助于模型在实际应用中的部署和使用。

项目地址：https://fudan-generative-vision.github.io/champ/#/
论文地址：https://arxiv.org/abs/2403.14781

阿里等发布基于3D的人物图片转视频模型Champ

热门文章

最新文章

相关课程

相关电子书

相关实验场景