❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
原文链接:https://mp.weixin.qq.com/s/QBgUYcVNF6WBwwTE1FmDNA
🚀 快速阅读
- 功能:EDTalk 能够根据音频驱动图片中的人物说话,并支持自定义情感表达。
- 技术:通过高效解耦框架,EDTalk 将面部动态分解为嘴型、头部姿态和情感表情三个独立潜在空间。
- 应用:EDTalk 可应用于个人数字助理、影视后期制作、教育软件等多个领域。
正文(附运行示例)
EDTalk 是什么
EDTalk 是上海交通大学与网易联合研发的音频驱动唇部同步模型,能够实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频,EDTalk 就能驱动图片中的人物说话,并支持自定义情感,如高兴、愤怒、悲伤等。
EDTalk 通过三个轻量级模块将面部动态分解为嘴型、头部姿态和情感表情三个独立潜在空间,每个空间由一组可学习的基向量表征,其线性组合定义了特定的动作。这种高效的解耦训练机制提升了训练效率,降低了资源消耗,即使是初学者也能快速上手并探索创新应用。
EDTalk 的主要功能
- 音频驱动唇部同步:EDTalk 能根据上传的图片和音频,驱动图片中的人物说话,实现唇形同步。
- 自定义情感表达:EDTalk 支持自定义情感,如高兴、愤怒、悲伤等,合成视频中的人物表情与音频情绪高度统一。
- Audio-to-Motion 模块:EDTalk 的 Audio-to-Motion 模块能根据音频输入,自动生成与音频节奏同步的嘴唇运动和符合语境的表情。
- 支持视频和音频输入:EDTalk 能在视频和音频输入下实现精确的情感说话头像生成。
EDTalk 的技术原理
- 高效解耦框架:EDTalk 通过三个轻量级模块将面部动态分解为三个不同的潜在空间,分别代表嘴型、头部姿态和情感表情。这种解耦合技术允许对这些面部动作进行独立控制,不相互干扰。
- 可学习的基向量表征:每个潜在空间都由一组可学习的基向量来表征,这些基向量的线性组合定义了特定的动作。这种设计使得 EDTalk 能够灵活地合成具有特定嘴型、头部姿态和表情的讲话人头像视频。
- 正交性和高效训练策略:为了确保独立性并加速训练,EDTalk 在基向量之间强制正交,设计了一种高效的训练策略,将动作责任分配给每个空间,不依赖于外部知识。
如何运行 EDTalk
安装依赖
git clone https://github.com/tanshuai0219/EDTalk.git
cd EDTalk
conda create -n EDTalk python=3.8
conda activate EDTalk
pip install -r requirements.txt
运行示例
python demo_EDTalk_A_using_predefined_exp_weights.py --source_path res/results_by_facesr/demo_EDTalk_A.png --audio_driving_path test_data/mouth_source.wav --pose_driving_path test_data/pose_source1.mp4 --exp_type angry --save_path res/demo_EDTalk_A_using_weights.mp4
资源
- 项目官网:https://tanshuai0219.github.io/EDTalk/
- GitHub 仓库:https://github.com/tanshuai0219/EDTalk
- arXiv 技术论文:https://arxiv.org/pdf/2404.01647
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦