EDTalk:只需上传图片、音频和视频,就能使图片中的人物说话,情感表情与音频情绪高度统一

简介: EDTalk 是上海交通大学与网易联合研发的高效解耦情感说话头像合成模型,能够独立控制嘴型、头部姿态和情感表情,适用于多种应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/QBgUYcVNF6WBwwTE1FmDNA


🚀 快速阅读

  1. 功能:EDTalk 能够根据音频驱动图片中的人物说话,并支持自定义情感表达。
  2. 技术:通过高效解耦框架,EDTalk 将面部动态分解为嘴型、头部姿态和情感表情三个独立潜在空间。
  3. 应用:EDTalk 可应用于个人数字助理、影视后期制作、教育软件等多个领域。

正文(附运行示例)

EDTalk 是什么

公众号: 蚝油菜花 - EDTalk

EDTalk 是上海交通大学与网易联合研发的音频驱动唇部同步模型,能够实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频,EDTalk 就能驱动图片中的人物说话,并支持自定义情感,如高兴、愤怒、悲伤等。

EDTalk 通过三个轻量级模块将面部动态分解为嘴型、头部姿态和情感表情三个独立潜在空间,每个空间由一组可学习的基向量表征,其线性组合定义了特定的动作。这种高效的解耦训练机制提升了训练效率,降低了资源消耗,即使是初学者也能快速上手并探索创新应用。

EDTalk 的主要功能

  • 音频驱动唇部同步:EDTalk 能根据上传的图片和音频,驱动图片中的人物说话,实现唇形同步。
  • 自定义情感表达:EDTalk 支持自定义情感,如高兴、愤怒、悲伤等,合成视频中的人物表情与音频情绪高度统一。
  • Audio-to-Motion 模块:EDTalk 的 Audio-to-Motion 模块能根据音频输入,自动生成与音频节奏同步的嘴唇运动和符合语境的表情。
  • 支持视频和音频输入:EDTalk 能在视频和音频输入下实现精确的情感说话头像生成。

EDTalk 的技术原理

  • 高效解耦框架:EDTalk 通过三个轻量级模块将面部动态分解为三个不同的潜在空间,分别代表嘴型、头部姿态和情感表情。这种解耦合技术允许对这些面部动作进行独立控制,不相互干扰。
  • 可学习的基向量表征:每个潜在空间都由一组可学习的基向量来表征,这些基向量的线性组合定义了特定的动作。这种设计使得 EDTalk 能够灵活地合成具有特定嘴型、头部姿态和表情的讲话人头像视频。
  • 正交性和高效训练策略:为了确保独立性并加速训练,EDTalk 在基向量之间强制正交,设计了一种高效的训练策略,将动作责任分配给每个空间,不依赖于外部知识。

如何运行 EDTalk

安装依赖

git clone https://github.com/tanshuai0219/EDTalk.git
cd EDTalk
conda create -n EDTalk python=3.8
conda activate EDTalk
pip install -r requirements.txt

运行示例

python demo_EDTalk_A_using_predefined_exp_weights.py --source_path res/results_by_facesr/demo_EDTalk_A.png --audio_driving_path test_data/mouth_source.wav --pose_driving_path test_data/pose_source1.mp4 --exp_type angry --save_path res/demo_EDTalk_A_using_weights.mp4

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
人工智能 并行计算 测试技术
从商业海报到二次元插画多风格通吃!HiDream-I1:智象未来开源文生图模型,17亿参数秒出艺术大作
HiDream-I1是智象未来团队推出的开源图像生成模型,采用扩散模型技术和混合专家架构,在图像质量、提示词遵循能力等方面表现优异,支持多种风格生成。
1121 2
从商业海报到二次元插画多风格通吃!HiDream-I1:智象未来开源文生图模型,17亿参数秒出艺术大作
|
7月前
|
编解码 文字识别 自然语言处理
腾讯混元生图模型升级2.1版本:支持写字、2k分辨率,开源!
腾讯混元生图模型升级2.1版本:支持写字、2k分辨率,开源!
481 14
|
8月前
|
机器人 图形学 开发者
腾讯混元最新开源:一张图,秒变游戏大片
有没有想过,随手拍的一张风景照,下一秒就能变成可操控的游戏开放世界?
630 3
|
机器学习/深度学习 人工智能 自然语言处理
JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频
JoyGen 是京东和香港大学联合推出的音频驱动的3D说话人脸视频生成框架,支持多语言、高质量视觉效果和精确的唇部与音频同步。
934 14
JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频
|
机器学习/深度学习 人工智能 编解码
重定义数字人交互!OmniTalker:阿里推出实时多模态说话头像生成框架,音视频实现唇语级同步
阿里巴巴推出的OmniTalker框架通过Thinker-Talker架构实现文本驱动的实时说话头像生成,创新性采用TMRoPE技术确保音视频同步,支持流式多模态输入处理。
3327 2
重定义数字人交互!OmniTalker:阿里推出实时多模态说话头像生成框架,音视频实现唇语级同步
|
数据采集 机器学习/深度学习 人工智能
SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!
SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型,支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。
1964 92
SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!
|
人工智能 语音技术
ModuleNotFoundError: AutomaticSpeechRecognitionPipeline: No module named ‘funasr‘
这篇文章描述了在运行阿里语音AI模型的语音识别时遇到的`ModuleNotFoundError: No module named ‘funasr’`错误,并提供了通过`pip install funasr --upgrade -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html`命令重新安装funasr模块的解决方法。
ModuleNotFoundError: AutomaticSpeechRecognitionPipeline: No module named ‘funasr‘
|
搜索推荐 物联网 PyTorch
Qwen2.5-7B-Instruct Lora 微调
本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。
14023 34
Qwen2.5-7B-Instruct Lora 微调
|
存储 人工智能 Docker
Heygem:开源数字人克隆神器!1秒视频生成4K超高清AI形象,1080Ti显卡也能轻松跑
Heygem 是硅基智能推出的开源数字人模型,支持快速克隆形象和声音,30秒内完成克隆,60秒内生成4K超高清视频,适用于内容创作、直播、教育等场景。
4926 8

热门文章

最新文章

下一篇
开通oss服务