EDTalk:只需上传图片、音频和视频,就能使图片中的人物说话,情感表情与音频情绪高度统一

简介: EDTalk 是上海交通大学与网易联合研发的高效解耦情感说话头像合成模型,能够独立控制嘴型、头部姿态和情感表情,适用于多种应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/QBgUYcVNF6WBwwTE1FmDNA


🚀 快速阅读

  1. 功能:EDTalk 能够根据音频驱动图片中的人物说话,并支持自定义情感表达。
  2. 技术:通过高效解耦框架,EDTalk 将面部动态分解为嘴型、头部姿态和情感表情三个独立潜在空间。
  3. 应用:EDTalk 可应用于个人数字助理、影视后期制作、教育软件等多个领域。

正文(附运行示例)

EDTalk 是什么

公众号: 蚝油菜花 - EDTalk

EDTalk 是上海交通大学与网易联合研发的音频驱动唇部同步模型,能够实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频,EDTalk 就能驱动图片中的人物说话,并支持自定义情感,如高兴、愤怒、悲伤等。

EDTalk 通过三个轻量级模块将面部动态分解为嘴型、头部姿态和情感表情三个独立潜在空间,每个空间由一组可学习的基向量表征,其线性组合定义了特定的动作。这种高效的解耦训练机制提升了训练效率,降低了资源消耗,即使是初学者也能快速上手并探索创新应用。

EDTalk 的主要功能

  • 音频驱动唇部同步:EDTalk 能根据上传的图片和音频,驱动图片中的人物说话,实现唇形同步。
  • 自定义情感表达:EDTalk 支持自定义情感,如高兴、愤怒、悲伤等,合成视频中的人物表情与音频情绪高度统一。
  • Audio-to-Motion 模块:EDTalk 的 Audio-to-Motion 模块能根据音频输入,自动生成与音频节奏同步的嘴唇运动和符合语境的表情。
  • 支持视频和音频输入:EDTalk 能在视频和音频输入下实现精确的情感说话头像生成。

EDTalk 的技术原理

  • 高效解耦框架:EDTalk 通过三个轻量级模块将面部动态分解为三个不同的潜在空间,分别代表嘴型、头部姿态和情感表情。这种解耦合技术允许对这些面部动作进行独立控制,不相互干扰。
  • 可学习的基向量表征:每个潜在空间都由一组可学习的基向量来表征,这些基向量的线性组合定义了特定的动作。这种设计使得 EDTalk 能够灵活地合成具有特定嘴型、头部姿态和表情的讲话人头像视频。
  • 正交性和高效训练策略:为了确保独立性并加速训练,EDTalk 在基向量之间强制正交,设计了一种高效的训练策略,将动作责任分配给每个空间,不依赖于外部知识。

如何运行 EDTalk

安装依赖

git clone https://github.com/tanshuai0219/EDTalk.git
cd EDTalk
conda create -n EDTalk python=3.8
conda activate EDTalk
pip install -r requirements.txt

运行示例

python demo_EDTalk_A_using_predefined_exp_weights.py --source_path res/results_by_facesr/demo_EDTalk_A.png --audio_driving_path test_data/mouth_source.wav --pose_driving_path test_data/pose_source1.mp4 --exp_type angry --save_path res/demo_EDTalk_A_using_weights.mp4

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
数据采集 存储 人工智能
TripoSR开源!从单个图像快速生成 3D 对象!(附魔搭社区推理实战教程)
近期,VAST团队和Stability AI团队合作发布了TripoSR,可在一秒内从单个图像生成高质量3D对象。
社区供稿 | 一张照片跳舞的AnimateAnyone社区开发者复刻版,开源!
日前,兵马俑跳科目三、奶牛猫跳洗澡舞等趣味和魔性的短视频在社交媒体上出圈,背后“一张照片来跳舞”的技术来自阿里通义实验室在可控动画生成领域的一项研究工作——AnimateAnyone。
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频
JoyGen 是京东和香港大学联合推出的音频驱动的3D说话人脸视频生成框架,支持多语言、高质量视觉效果和精确的唇部与音频同步。
783 14
JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频
|
9月前
|
人工智能 并行计算 测试技术
从商业海报到二次元插画多风格通吃!HiDream-I1:智象未来开源文生图模型,17亿参数秒出艺术大作
HiDream-I1是智象未来团队推出的开源图像生成模型,采用扩散模型技术和混合专家架构,在图像质量、提示词遵循能力等方面表现优异,支持多种风格生成。
930 2
从商业海报到二次元插画多风格通吃!HiDream-I1:智象未来开源文生图模型,17亿参数秒出艺术大作
|
9月前
|
人工智能 自然语言处理 前端开发
DeepSite:基于DeepSeek的开源AI前端开发神器,一键生成游戏/网页代码
DeepSite是基于DeepSeek-V3模型的在线开发工具,无需配置环境即可通过自然语言描述快速生成游戏、网页和应用代码,并支持实时预览效果,显著降低开发门槛。
1726 93
DeepSite:基于DeepSeek的开源AI前端开发神器,一键生成游戏/网页代码
|
9月前
|
机器学习/深度学习 人工智能 编解码
重定义数字人交互!OmniTalker:阿里推出实时多模态说话头像生成框架,音视频实现唇语级同步
阿里巴巴推出的OmniTalker框架通过Thinker-Talker架构实现文本驱动的实时说话头像生成,创新性采用TMRoPE技术确保音视频同步,支持流式多模态输入处理。
2966 2
重定义数字人交互!OmniTalker:阿里推出实时多模态说话头像生成框架,音视频实现唇语级同步
|
机器学习/深度学习 编解码 人工智能
SeedVR:高效视频修复模型,支持任意长度和分辨率,生成真实感细节
SeedVR 是南洋理工大学和字节跳动联合推出的扩散变换器模型,能够高效修复低质量视频,支持任意长度和分辨率,生成真实感细节。
772 16
SeedVR:高效视频修复模型,支持任意长度和分辨率,生成真实感细节
|
机器学习/深度学习 存储 人工智能
MNN:阿里开源的轻量级深度学习推理框架,支持在移动端等多种终端上运行,兼容主流的模型格式
MNN 是阿里巴巴开源的轻量级深度学习推理框架,支持多种设备和主流模型格式,具备高性能和易用性,适用于移动端、服务器和嵌入式设备。
2884 18
MNN:阿里开源的轻量级深度学习推理框架,支持在移动端等多种终端上运行,兼容主流的模型格式
|
人工智能 达摩院 并行计算
VideoRefer:阿里达摩院开源视频对象感知与推理框架,可集成 VLLM 提升其空间和时间理解能力
VideoRefer 是浙江大学与阿里达摩学院联合推出的视频对象感知与推理技术,支持细粒度视频对象理解、复杂关系分析及多模态交互,适用于视频剪辑、教育、安防等多个领域。
654 17
VideoRefer:阿里达摩院开源视频对象感知与推理框架,可集成 VLLM 提升其空间和时间理解能力

热门文章

最新文章