EchoMimicV2 是蚂蚁集团支付宝终端算法数据技术团队的一项数字人技术开源项目。
仅需输入一张参考图像、一段音频及一段手势序列,即可生成高质量人物动画视频,同时确保半身数字人与音频内容之间的协调。
开源链接如下:
- 论文地址:"EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation"(https://arxiv.org/abs/2411.10061)
- 项目地址:https://antgroup.github.io/ai/echomimic_v2/
- 代码地址:https://github.com/antgroup/echomimic_v2
V1版本可以看我们往期的报道:蚂蚁开源生成式数字人算法EchoMimic,可用音频驱动人像动画生成
- 论文地址:"EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions"(https://arxiv.org/abs/2407.08136)
- 项目主页:https://antgroup.github.io/ai/echomimic/
- 开源地址:https://github.com/antgroup/echomimic
1. 技术概要
在 AI2.0 时代,数字人技术基于扩散模型,结合音频、姿态、图像等多媒体条件,突飞猛进地奔赴赛博未来。不过,热情与理想之下,我们也在实际应用中也看到了诸多困难:比如面部肖像的局限性,现有高质量数字人方法主要关注头部区域的动画,忽略了肩以下身体(尤其是手部动作)的生成;又如,诸多条件加入的复杂性,模型变重变厚,不稳定性和推理延迟等挑战也亟需解决。
心怀梦想,沉着应对挑战。为了应对以上挑战,蚂蚁集团支付宝终端算法数据技术团队提出了EchoMimicV2的端到端音频驱动框架,用于生成高质量的半身数字人。重要的技术包括三点:
- 音频-姿态条件共舞(APDH):利用音频姿势动态协调 (APDH) 训练策略来调节音频和姿势条件,同时减少姿势条件的冗余;
- 无缝兼容头部数据增广 (Head Partial Attention):在APDH过程中,我们发现了数据增强的“免费午餐”。当音频条件仅通过头部局部注意力控制头部区域时,我们可以无缝地整合填充的头部照片数据来增强面部表情,而无需额外的插件;
- 多阶段损失 (PhD Loss):增强不完备姿势条件下的运动表征,同时改善不受音频控制的细节和低级视觉质量;
2. 背景介绍
基于扩散的视频生成已经取得了重大进展,引发了对人体动画的广泛研究。人物动画生成(Human Animation)是视频生成领域的一个子集,它利用生成模型和控制条件(如文本、音频和姿势)合成自然、逼真的2D人物视频序列。这些序列描绘了半身或全身的人物形象,具有详细的身体部位和面部动作表示,因其在电影制作、电子游戏、AR/VR、人机交互等领域的潜在应用而受到关注。尽管人物动画的快速进展得益于生成方法(如变分自编码器、生成对抗网络和扩散模型)的进步,但研究人物视频生成仍然面临着重大挑战(如图1所示)。例如保持外观的一致性、避免人体变形以及准确建模身体运动和背景一致性等。此外,学术研究与工业需求之间仍然存在差距:1)面部肖像的局限性;2)条件注入的复杂性。
- 面部肖像的局限性。一方面,先前的人物动画生成作品主要关注在生成面部肖像视频上,忽略了音频和肩部以下身体的同步。最新的工作在音频驱动模块的基础上,通过诸多辅助条件和注入模块对半身动画进行了改进。
- 条件注入的复杂性。另一方面,学术与工业界都有这样一个共识,就是常用的控制条件(例如。文本、音频、姿势、光流、运动图)可以为逼真的动画提供坚实的基础,但是,当前的研究工作集中在聚合补充条件上,这导致由于多条件不协调而导致训练不稳定,以及由于复杂的条件注入模块而导致的推理延迟增加。
对于第一个挑战,可以很直接地使用一个简单的基线,添加而外的条件控制与肩部以下身体的生成,例如半身关键点特征图、光流特征图、甚至3D特征图。这样做显然加重了第二个挑战,即条件注入的复杂性。
为了解决上述问题,我们提出了新的方法——EchoMimicV2,该方法扩展了我们之前的EchoMimic,可以直接利用一段音频、一段手部关键点序列和一张静态图片,力求在简化的条件下生成自然、同步、高质量的半身人物动画。
图1. 目前人物动画生成方法面临的挑战
图2. 视频、文本和音频驱动的人物动画生成方法的关键进展时间表
3. EchoMimicV2效果展示
3.1 中文驱动效果
3.2 英文驱动效果
3.3 算法对比效果
4. 方法
图4. EchoMimicV2整体算法框架
4.1. 网络框架
EchoMimicV2 的整体框架参考了阿里达摩院的 EMO 框架的 ReferenceNet,同时针对半身人像驱动问题进行了模块的精简与创新设计。如图4所示,主干框架由参考 UNnet(Reference UNet)与去噪 UNnet(Denoising UNet)组成。语音驱动模块构成了整个框架的核心部分。该模块主要包括三个组件:手部关键点序列编码器(Pose Encoder)、语音特征编码器(Audio Encoder)以及去噪UNet 网络(Denoising UNet)。手部关键点序列编码器接收一张手部关键点图作为输入,编码器输出的是编码后的关键点特征。语音特征编码器是一个预先训练好的语音特征提取模块,能够将一段语音信号转化为相应的语音特征向量,便于后续进行语音-图像间的交叉注意力计算。去噪 UNet,接收噪声和条件信号(即语音特征)作为输入,通过一系列处理后输出对应的图像特征。这一模块设计有效地实现了从语音特征到图像生成的转换,是实现高质量视频生成的关键。
4.2. 音频-姿势动态协调训练策略
EchoMimicV2 采用了三部分训练策略,音频-姿势动态协调(Audio-Pose Dynamic Harmonization, APDH)的核心训练策略。APDH 策略旨在训练过程中逐步简化条件复杂度,同时以一种类似于华尔兹步伐的方式,高效地协调主要条件(音频)与辅助条件(姿势)之间的关系。该策略具体由两大部分构成:姿势采样(Pose Sampling, PS)与音频扩散(Audio Diffusion, AD)。通过这种方式,APDH 不仅能够有效提升模型对多模态输入的适应性和鲁棒性,还能够在保证生成质量的同时,实现更加流畅自然的视频生成效果。
4.3. 面部肖像数据增强
在音频-姿势动态协调过程中,我们发现了增强面部肖像数据的“免费午餐”。当音频条件仅通过头部局部注意力(Head Partial Attention)控制头部区域时,我们可以无缝地整合填充的头部照片数据来增强面部表情,而无需额外的插件。
4.4. 多阶段损失函数
鉴于基于 ReferenceNet 的基线已经需要大量计算资源,实施多损失训练变得不切实际。通过实验分析,我们将去噪过程分为三个不同的阶段,每个阶段都有其主要重点:1)姿势主导阶段,最初学习运动姿势和人体轮廓;2)细节主导阶段,细化特定于角色的细节;3)质量主导阶段,模型增强颜色和其他低级视觉质量。因此,提出的 PhD Loss 针对每个特定的去噪阶段优化模型,即早期阶段使用姿势主导损失,中期阶段使用细节主导损失,最后阶段使用低级损失,确保更高效、更稳定的训练过程。
5. 未来展望
EchoMimicV2 虽然在音频驱动半身人物动画生成领域取得了一些进展。然而,现在的方法仍然有一些局限性以及进一步研究和改进的必要性。未来我们将继续优化算法,以促进该领域的发展和进步。具体来说,有以下几个方向值得探索:
音频到手势生成:目前的算法在生成高质量视频时需要预设的手部关键点序列,这意味着在定义这些手部关键点序列时依赖于人工干预。因此,算法的实际应用受到了对人工输入依赖性的限制。未来的工作可以研究利用音频直接生成手部关键点序列,从而进一步将算法发展为端到端模型,提高算法的适用范围。
为任意姿态参考图像生成高质量视频:尽管当前算法已经展示了生成高质量视频的能力,但仍需承认其在生成多样化结果方面存在一定的局限性。当前算法在处理裁剪过的半身图像时表现稳健,但在处理未裁剪的图像,如全身图像时,性能有所下降。未来的研究可以进一步分析算法的泛化能力,从而实现跨各种肖像图像的稳健和高质量生成。
通过上述研究方向的努力,有望进一步提升音频驱动人物动画生成技术的实用性和普适性。
6. 相关工作
图3. 多条件人物动画生成方法概述
6.1. 姿态驱动人物动画生成
目前常见的人物动画生成主要有三种驱动模式,即视频驱动、文本驱动和音频驱动。图2 展示了视频、文本和音频驱动的人物动画生成方法的关键进展时间表。图3 展示了目前多条件人物动画生成的方法概述。从图中可以看到,当前大多数的人物动画生成方法主要集中在姿态驱动上,该方法输入为一个驱动视频和一张静态图,通过提取驱动视频中的姿态信息(例如关键点、密集姿态、深度、网格和光流等)作为控制信号序列,来驱动参考图生成和驱动视频相同的动作。随着扩散模型(SD)及视频扩散模型(SVD)作为视频生成模型的主架构,条件生成模型得到了显著的发展。当前的方法主要依赖于这些框架。例如,MagicPose 通过 ControlNet 将姿态特征整合进扩散模型;而AnimateAnyone、MimicMotion、MotionFollower和 UniAnimate 则使用DWPose 或 OpenPose 从目标视频帧中提取骨架姿态。为了有效地将提取的骨架姿态与潜在空间中的噪声对齐,并在去噪过程中利用姿态引导,这些方法采用了仅包含少数卷积层的轻量级神经网络作为姿态引导器。与现有的关键点引导视频生成扩散模型不同,DreamPose 和 MagicAnimate 依赖于 DensePose 方法来提取密集姿态信息,然后通过 ControlNet 直接与噪声连接并输入去噪 UNet。然而,Human4DiT 采取了不同的方法,使用 SMPL 提取 3D 网格图。基于 Sora 和其他变体的工作,Human4DiT 采用 Diffusion Transformer(DiT)作为视频生成的主干框架。
6.2. 语音驱动人物动画生成
音频驱动人物动画生成算法通过输入的语音音频生成一系列人物动作视频。主要目标是确保生成的人物运动不仅在高层语义上,而且在情感和节奏上与音频对齐。许多现有研究集中于生成人物的头部视频,主要关注头部区域。EMO 引入了一个帧编码模块和控制特性,确保音频驱动的动画在视频帧之间保持一致,从而增强合成语音动画的稳定性和自然度。AniPortrait将音频信号转化为 3D 面部结构,并将 3D 面部结构映射到 2D 面部姿态。同时利用扩散模型和运动模块保证视频的连续性,增强了自然情感的表现力。V-Express 拓展了视觉和语音的对齐方式,采用分层结构同步音频、嘴唇运动、面部表情和头部姿态。其复杂的面部损失函数进一步提高了模型对细微情感差异的敏感度。Hallo 提出了一种利用音频驱动参考图的新方法。该方法基于生成模型、UNet 去噪器和交叉注意力机制,该方法在表情多样性和姿态变化方面实现了更好的控制。该方法在视频质量、唇形同步精度和动作多样性方面效果提升明显。Vlogger 是一种从单个人物输入图像生成谈话人物视频的新方法。它采用随机人物到 3D 运动扩散模型和基于扩散的架构,将文本到图像模型与时间和空间控制相结合,能够生成高质量的视频,视频长度可变。MegActor-Σ 是基于 DiT 架构,能够将音频和视觉控制信号融入肖像动画中。它基于 MegActor 模型,并利用 DiT 框架内的模块来整合音频和视觉条件。TANGO 是一个使用参考视频和目标语音音频生成伴随演讲的身体手势视频的框架。它通过解决现有方法中的音频-运动错位和生成过渡帧中的视觉伪影问题,对现有方法进行了改进。
6.3. 语音+部分姿态人物动画生成
如上所述,近期工作在单条件姿态驱动或音频驱动人物动画生成方面取得了较大的进展,为多条件驱动的人物视频生成铺平了道路。其中最具代表性的工作是基于音频和部分姿态的联合驱动。我们之前的工作 EchoMimic 可以提供三种驱动模式,即语音驱动、姿态驱动,以及语音+部分姿态驱动。其中语音+部分姿态驱动,可以简单理解为用语音驱动嘴型,用剩下的人脸关键点驱动动作,比如在说某一段话的时候眨眼、摇头等。最近的工作 CyberHost 也支持多个模态的组合控制信号,包括 2D 手势和音频。这些多条件驱动的方法使得动作、面部表情和唇部同步更加准确和稳定。同时,使用姿势模板提供了明确的结构信息,提高了头部或手部生成的稳定性以及控制信号之间的关联性。
7. 参考文献
- Dhariwal, P., & Nichol, A. (2021). Diffusion models beat gans on image synthesis. Advances in neural information processing systems, 34, 8780-8794.
- Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in neural information processing systems, 33, 6840-6851.
- Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10684-10695).
- Guo, Y., Yang, C., Rao, A., Liang, Z., Wang, Y., Qiao, Y., ... & Dai, B. (2023). Animatediff: Animate your personalized text-to-image diffusion models without specific tuning. arXiv preprint arXiv:2307.04725.
- Chen, H., Xia, M., He, Y., Zhang, Y., Cun, X., Yang, S., ... & Shan, Y. (2023). Videocrafter1: Open diffusion models for high-quality video generation. arXiv preprint arXiv:2310.19512.
- Blattmann, A., Dockhorn, T., Kulal, S., Mendelevitch, D., Kilian, M., Lorenz, D., ... & Rombach, R. (2023). Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127.
- Esser, P., Chiu, J., Atighehchian, P., Granskog, J., & Germanidis, A. (2023). Structure and content-guided video synthesis with diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 7346-7356).
- Yang, S., Zhou, Y., Liu, Z., & Loy, C. C. (2023, December). Rerender a video: Zero-shot text-guided video-to-video translation. In SIGGRAPH Asia 2023 Conference Papers (pp. 1-11).
- Hu, L. (2024). Animate anyone: Consistent and controllable image-to-video synthesis for character animation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 8153-8163).
- Zhang, Y., Gu, J., Wang, L. W., Wang, H., Cheng, J., Zhu, Y., & Zou, F. (2024). Mimicmotion: High-quality human motion video generation with confidence-aware pose guidance. arXiv preprint arXiv:2406.19680.
- Brooks, T., Peebles, B., Holmes, C., DePue, W., Guo, Y., Jing, L., ... & Ramesh, A. (2024). Video generation models as world simulators. 2024-03-03]. https://openai. com/research/video-generation-modelsas-world-simulators.
- Peebles, W., & Xie, S. (2023). Scalable diffusion models with transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 4195-4205).
- Chen, Z., Cao, J., Chen, Z., Li, Y., & Ma, C. (2024). Echomimic: Lifelike audio-driven portrait animations through editable pose conditions. arXiv preprint arXiv:2407.08136.
- Chang, D., Shi, Y., Gao, Q., Xu, H., Fu, J., Song, G., ... & Soleymani, M. (2023). MagicPose: Realistic Human Poses and Facial Expressions Retargeting with Identity-aware Diffusion. In Forty-first International Conference on Machine Learning.
- Tu, S., Dai, Q., Zhang, Z., Xie, S., Cheng, Z. Q., Luo, C., ... & Jiang, Y. G. (2024). MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion. arXiv preprint arXiv:2405.20325.
- Wang, X., Zhang, S., Gao, C., Wang, J., Zhou, X., Zhang, Y., ... & Sang, N. (2024). UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation. arXiv preprint arXiv:2406.01188.
- Yang, Z., Zeng, A., Yuan, C., & Li, Y. (2023). Effective whole-body pose estimation with two-stages distillation. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 4210-4220).
- Qiao, S., Wang, Y., & Li, J. (2017, October). Real-time human gesture grading based on OpenPose. In 2017 10th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI) (pp. 1-6). IEEE.
- Karras, J., Holynski, A., Wang, T. C., & Kemelmacher-Shlizerman, I. (2023, October). Dreampose: Fashion image-to-video synthesis via stable diffusion. In 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (pp. 22623-22633). IEEE.
- Xu, Z., Zhang, J., Liew, J. H., Yan, H., Liu, J. W., Zhang, C., ... & Shou, M. Z. (2024). Magicanimate: Temporally consistent human image animation using diffusion model. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 1481-1490).
- Xue, H., Luo, X., Hu, Z., Zhang, X., Xiang, X., Dai, Y., ... & Yu, F. R. (2024). Human motion video generation: A survey. Authorea Preprints.