在人工智能领域,图像动画技术一直是研究的热点之一。近期,由南京大学、复旦大学以及阿里巴巴集团共同研发的Champ模型,为人物图片转视频领域带来了新的突破。Champ模型利用3D人体参数化模型和潜在扩散框架,提高了现有人物生成技术的形状对齐和运动引导能力,这一成果在学术界和工业界都引起了广泛关注。
Champ模型的核心在于其对SMPL模型的创新性应用。SMPL模型是一种广泛认可的3D人体参数化模型,能够有效捕捉人体的形状和姿态。Champ模型通过将SMPL模型与潜在扩散模型相结合,不仅提升了动画生成的质量,还增强了对人物动作和形态变化的精确捕捉。在实验评估中,Champ模型展现出了生成高质量人物动画的卓越能力,尤其是在捕捉姿势和形状变化方面。
Champ模型的另一个亮点是其对细节的处理。通过整合渲染的深度图像、法线图和语义图,Champ模型能够丰富潜在扩散模型的条件,从而在空间域中融合形状和运动的潜在表示。这种多层次的运动融合模块,结合了自注意力机制,使得模型在生成动画时能够更加精细地处理人物的面部表情和手指动作等细节。
尽管Champ模型在人物图像动画方面取得了显著成果,但仍有一些挑战和局限性需要克服。首先,模型对于面部和手部的建模能力仍有待提高,这部分的引导效果与基于特征的方法相比尚有差距。为此,研究团队引入了DWpose作为面部和手部建模的额外约束,以增强这些区域的动画效果。其次,尽管自注意力机制在突出面部和手部的显著性方面发挥了作用,但由于SMPL模型和DWpose是独立解决的,两者之间可能存在一致性上的潜在差异。虽然这种差异在实验中并未明显表现出来,但它仍然是一个值得关注的问题。
此外,Champ模型在效率方面也进行了一定的优化。研究团队对模型的不同步骤进行了效率分析,包括参数化形状转移、每帧的渲染和推理所需的GPU内存和时间。这些优化措施有助于模型在实际应用中的部署和使用。
项目地址:https://fudan-generative-vision.github.io/champ/#/
论文地址:https://arxiv.org/abs/2403.14781