EDTalk:只需上传图片、音频和视频,就能使图片中的人物说话,情感表情与音频情绪高度统一

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: EDTalk 是上海交通大学与网易联合研发的高效解耦情感说话头像合成模型,能够独立控制嘴型、头部姿态和情感表情,适用于多种应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/QBgUYcVNF6WBwwTE1FmDNA


🚀 快速阅读

  1. 功能:EDTalk 能够根据音频驱动图片中的人物说话,并支持自定义情感表达。
  2. 技术:通过高效解耦框架,EDTalk 将面部动态分解为嘴型、头部姿态和情感表情三个独立潜在空间。
  3. 应用:EDTalk 可应用于个人数字助理、影视后期制作、教育软件等多个领域。

正文(附运行示例)

EDTalk 是什么

公众号: 蚝油菜花 - EDTalk

EDTalk 是上海交通大学与网易联合研发的音频驱动唇部同步模型,能够实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频,EDTalk 就能驱动图片中的人物说话,并支持自定义情感,如高兴、愤怒、悲伤等。

EDTalk 通过三个轻量级模块将面部动态分解为嘴型、头部姿态和情感表情三个独立潜在空间,每个空间由一组可学习的基向量表征,其线性组合定义了特定的动作。这种高效的解耦训练机制提升了训练效率,降低了资源消耗,即使是初学者也能快速上手并探索创新应用。

EDTalk 的主要功能

  • 音频驱动唇部同步:EDTalk 能根据上传的图片和音频,驱动图片中的人物说话,实现唇形同步。
  • 自定义情感表达:EDTalk 支持自定义情感,如高兴、愤怒、悲伤等,合成视频中的人物表情与音频情绪高度统一。
  • Audio-to-Motion 模块:EDTalk 的 Audio-to-Motion 模块能根据音频输入,自动生成与音频节奏同步的嘴唇运动和符合语境的表情。
  • 支持视频和音频输入:EDTalk 能在视频和音频输入下实现精确的情感说话头像生成。

EDTalk 的技术原理

  • 高效解耦框架:EDTalk 通过三个轻量级模块将面部动态分解为三个不同的潜在空间,分别代表嘴型、头部姿态和情感表情。这种解耦合技术允许对这些面部动作进行独立控制,不相互干扰。
  • 可学习的基向量表征:每个潜在空间都由一组可学习的基向量来表征,这些基向量的线性组合定义了特定的动作。这种设计使得 EDTalk 能够灵活地合成具有特定嘴型、头部姿态和表情的讲话人头像视频。
  • 正交性和高效训练策略:为了确保独立性并加速训练,EDTalk 在基向量之间强制正交,设计了一种高效的训练策略,将动作责任分配给每个空间,不依赖于外部知识。

如何运行 EDTalk

安装依赖

git clone https://github.com/tanshuai0219/EDTalk.git
cd EDTalk
conda create -n EDTalk python=3.8
conda activate EDTalk
pip install -r requirements.txt

运行示例

python demo_EDTalk_A_using_predefined_exp_weights.py --source_path res/results_by_facesr/demo_EDTalk_A.png --audio_driving_path test_data/mouth_source.wav --pose_driving_path test_data/pose_source1.mp4 --exp_type angry --save_path res/demo_EDTalk_A_using_weights.mp4

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
数据采集 存储 人工智能
TripoSR开源!从单个图像快速生成 3D 对象!(附魔搭社区推理实战教程)
近期,VAST团队和Stability AI团队合作发布了TripoSR,可在一秒内从单个图像生成高质量3D对象。
|
9月前
|
人工智能 测试技术
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
Valley 是字节跳动推出的多模态大模型,能够处理文本、图像和视频数据,在电子商务和短视频领域表现优异,并在 OpenCompass 测试中排名第二。
459 10
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频
JoyGen 是京东和香港大学联合推出的音频驱动的3D说话人脸视频生成框架,支持多语言、高质量视觉效果和精确的唇部与音频同步。
357 14
JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频
|
6月前
|
人工智能 自然语言处理 前端开发
DeepSite:基于DeepSeek的开源AI前端开发神器,一键生成游戏/网页代码
DeepSite是基于DeepSeek-V3模型的在线开发工具,无需配置环境即可通过自然语言描述快速生成游戏、网页和应用代码,并支持实时预览效果,显著降低开发门槛。
1260 93
DeepSite:基于DeepSeek的开源AI前端开发神器,一键生成游戏/网页代码
|
9月前
|
机器学习/深度学习 存储 人工智能
MNN:阿里开源的轻量级深度学习推理框架,支持在移动端等多种终端上运行,兼容主流的模型格式
MNN 是阿里巴巴开源的轻量级深度学习推理框架,支持多种设备和主流模型格式,具备高性能和易用性,适用于移动端、服务器和嵌入式设备。
2002 18
MNN:阿里开源的轻量级深度学习推理框架,支持在移动端等多种终端上运行,兼容主流的模型格式
|
10月前
|
机器学习/深度学习 人工智能
DiTCtrl:腾讯推出多提示视频生成方法,通过多个提示生成连贯的视频内容,确保内容与提示一致
DiTCtrl 是一种基于多模态扩散变换器(MM-DiT)架构的多提示视频生成方法,能够在无需额外训练的情况下,实现多个文本提示之间的连贯视频生成,并保持内容和运动的一致性。
172 1
DiTCtrl:腾讯推出多提示视频生成方法,通过多个提示生成连贯的视频内容,确保内容与提示一致
|
10月前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
468 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
7月前
|
编解码 并行计算 物联网
4G显存部署Flux,2分钟Wan2.1-14B视频生成,DiffSynth-Engine引擎开源!
魔搭社区的开源项目 DiffSynth-Studio 自推出以来,凭借其前沿的技术探索和卓越的创新能力,持续受到开源社区的高度关注与广泛好评。截至目前,该项目已在 GitHub 上斩获超过 8,000 颗星,成为备受瞩目的开源项目之一。作为以技术探索为核心理念的实践平台,DiffSynth-Studio 基于扩散模型(Diffusion Model),在图像生成和视频生成领域孵化出了一系列富有创意且实用的技术成果,其中包括 ExVideo、ArtAug、EliGen 等代表性模块。
1281 3
|
9月前
|
人工智能 算法 测试技术
StockMixer:上海交大推出预测股票价格的 MLP 架构,通过捕捉指标、时间和股票间的复杂相关性,预测下一个交易日的收盘价
StockMixer 是上海交通大学推出的基于多层感知器的股票价格预测架构,通过指标、时间和股票混合实现高效预测。
521 11
StockMixer:上海交大推出预测股票价格的 MLP 架构,通过捕捉指标、时间和股票间的复杂相关性,预测下一个交易日的收盘价
|
9月前
|
机器学习/深度学习 人工智能 编解码
VideoVAE+:AI 生成视频高保真重建和跨模态重建工具,基于文本信息指导视频重建,提升视频细节质量
VideoVAE+ 是香港科技大学推出的先进跨模态视频变分自编码器,通过时空分离压缩机制和文本指导,实现了高效视频压缩与精准重建。
288 7
VideoVAE+:AI 生成视频高保真重建和跨模态重建工具,基于文本信息指导视频重建,提升视频细节质量

热门文章

最新文章