EDTalk:只需上传图片、音频和视频,就能使图片中的人物说话,情感表情与音频情绪高度统一

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: EDTalk 是上海交通大学与网易联合研发的高效解耦情感说话头像合成模型,能够独立控制嘴型、头部姿态和情感表情,适用于多种应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/QBgUYcVNF6WBwwTE1FmDNA


🚀 快速阅读

  1. 功能:EDTalk 能够根据音频驱动图片中的人物说话,并支持自定义情感表达。
  2. 技术:通过高效解耦框架,EDTalk 将面部动态分解为嘴型、头部姿态和情感表情三个独立潜在空间。
  3. 应用:EDTalk 可应用于个人数字助理、影视后期制作、教育软件等多个领域。

正文(附运行示例)

EDTalk 是什么

公众号: 蚝油菜花 - EDTalk

EDTalk 是上海交通大学与网易联合研发的音频驱动唇部同步模型,能够实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频,EDTalk 就能驱动图片中的人物说话,并支持自定义情感,如高兴、愤怒、悲伤等。

EDTalk 通过三个轻量级模块将面部动态分解为嘴型、头部姿态和情感表情三个独立潜在空间,每个空间由一组可学习的基向量表征,其线性组合定义了特定的动作。这种高效的解耦训练机制提升了训练效率,降低了资源消耗,即使是初学者也能快速上手并探索创新应用。

EDTalk 的主要功能

  • 音频驱动唇部同步:EDTalk 能根据上传的图片和音频,驱动图片中的人物说话,实现唇形同步。
  • 自定义情感表达:EDTalk 支持自定义情感,如高兴、愤怒、悲伤等,合成视频中的人物表情与音频情绪高度统一。
  • Audio-to-Motion 模块:EDTalk 的 Audio-to-Motion 模块能根据音频输入,自动生成与音频节奏同步的嘴唇运动和符合语境的表情。
  • 支持视频和音频输入:EDTalk 能在视频和音频输入下实现精确的情感说话头像生成。

EDTalk 的技术原理

  • 高效解耦框架:EDTalk 通过三个轻量级模块将面部动态分解为三个不同的潜在空间,分别代表嘴型、头部姿态和情感表情。这种解耦合技术允许对这些面部动作进行独立控制,不相互干扰。
  • 可学习的基向量表征:每个潜在空间都由一组可学习的基向量来表征,这些基向量的线性组合定义了特定的动作。这种设计使得 EDTalk 能够灵活地合成具有特定嘴型、头部姿态和表情的讲话人头像视频。
  • 正交性和高效训练策略:为了确保独立性并加速训练,EDTalk 在基向量之间强制正交,设计了一种高效的训练策略,将动作责任分配给每个空间,不依赖于外部知识。

如何运行 EDTalk

安装依赖

git clone https://github.com/tanshuai0219/EDTalk.git
cd EDTalk
conda create -n EDTalk python=3.8
conda activate EDTalk
pip install -r requirements.txt

运行示例

python demo_EDTalk_A_using_predefined_exp_weights.py --source_path res/results_by_facesr/demo_EDTalk_A.png --audio_driving_path test_data/mouth_source.wav --pose_driving_path test_data/pose_source1.mp4 --exp_type angry --save_path res/demo_EDTalk_A_using_weights.mp4

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
编解码
在智能媒体服务中,素材的清晰度差异可能是由以下几个原因导致
在智能媒体服务中,素材的清晰度差异可能是由以下几个原因导致【1月更文挑战第10天】【1月更文挑战第48篇】
76 3
|
机器学习/深度学习
基于PaddleGAN精准唇形合成模型实现美女表白视频
基于PaddleGAN精准唇形合成模型实现美女表白视频
706 0
基于PaddleGAN精准唇形合成模型实现美女表白视频
|
10天前
|
机器学习/深度学习 人工智能 PyTorch
HelloMeme:开源的面部表情与姿态迁移框架,将视频中的人物表情迁移到静态图像中生成动态视频
HelloMeme 是一个基于 Stable Diffusion 1.5 模型的面部表情与姿态迁移框架,通过集成空间编织注意力机制,实现了自然且物理合理的表情包视频生成。该框架具有强大的泛化能力和扩展性,适用于多种应用场景。
130 77
HelloMeme:开源的面部表情与姿态迁移框架,将视频中的人物表情迁移到静态图像中生成动态视频
|
25天前
|
机器学习/深度学习 存储 数据采集
MEMO:通过音频和图像生成肖像说话视频,感知音频中的情感来细化面部表情
MEMO是一种音频驱动的生成肖像说话视频框架,由Skywork AI、南洋理工大学和新加坡国立大学联合推出。该框架通过记忆引导的时间模块和情感感知音频模块,确保生成的视频在身份一致性和表现力方面达到高水平。MEMO支持多种图像风格和音频类型的说话视频生成,并能处理多语言输入。
57 7
MEMO:通过音频和图像生成肖像说话视频,感知音频中的情感来细化面部表情
|
4天前
|
机器学习/深度学习 API 语音技术
鸿蒙开发:文本合成语音
在鸿蒙当中,如何实现根据指定的文本进行合成语音合成播放呢,其实也是非常的简单,因为鸿蒙当中也有textToSpeech。
|
7月前
|
算法
VASA-1:实时音频驱动的数字人说话面部视频生成技术
【6月更文挑战第8天】VASA-1是实时音频驱动的数字人面部视频生成技术,能根据输入音频精准生成匹配的面部表情。具备实时性、高准确性和适应性,适用于虚拟主播、在线教育和影视娱乐等领域。简单示例代码展示了其工作原理。尽管面临情感理解和硬件优化等挑战,但随着技术发展,VASA-1有望在更多领域广泛应用,开启生动数字世界的新篇章。
324 5
|
7月前
|
Java
java实现视频和配音音频的合成
java实现视频和配音音频的合成
137 0
|
机器人 语音技术
神器 | 文本转语音,直接可以合成多人多风格音频了!
为了适应更多的音频使用场景和需求,近期我们将文本转语音服务进行了升级,全新的功能将成为你配音工具的不二之选。
474 1
|
人工智能
StyleGAN 调整面部表情,让虚拟人脸更生动
赋予 AI 人脸表情,让其更生动自然
396 3
StyleGAN 调整面部表情,让虚拟人脸更生动
|
数据可视化
gganimate|创建可视化动图,让你的表会说话
gganimate|创建可视化动图,让你的表会说话

热门文章

最新文章