MEMO:通过音频和图像生成肖像说话视频,感知音频中的情感来细化面部表情

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: MEMO是一种音频驱动的生成肖像说话视频框架,由Skywork AI、南洋理工大学和新加坡国立大学联合推出。该框架通过记忆引导的时间模块和情感感知音频模块,确保生成的视频在身份一致性和表现力方面达到高水平。MEMO支持多种图像风格和音频类型的说话视频生成,并能处理多语言输入。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:MEMO能够根据音频和参考图像生成具有身份一致性和表现力的说话视频。
  2. 技术:框架包括记忆引导的时间模块和情感感知音频模块,确保视频生成的质量和一致性。
  3. 应用:适用于虚拟助手、娱乐、教育、新闻和广告等多个领域。

正文(附运行示例)

MEMO 是什么

公众号: 蚝油菜花 - memo

MEMO(Memory-Guided EMOtionaware diffusion)是由Skywork AI、南洋理工大学和新加坡国立大学共同推出的音频驱动肖像动画框架。该框架旨在生成具有身份一致性和表现力的说话视频。MEMO围绕两个核心模块构建:记忆引导的时间模块和情感感知音频模块。记忆引导模块通过存储更长期的运动信息来增强身份一致性和运动平滑性,而情感感知模块则通过多模态注意力机制提升音频与视频的交互,根据音频中的情感来细化面部表情。

MEMO在多种图像和音频类型的说话视频中,展现出比现有最先进方法更优秀的整体质量、音频-唇形同步、身份一致性和表情-情感对齐。

MEMO 的主要功能

  • 音频驱动的肖像动画:根据输入的音频和参考图像生成同步的、具有身份一致性的说话视频。
  • 多样化内容生成:支持多种图像风格(如肖像、雕塑、数字艺术)和音频类型(如演讲、唱歌、说唱)的说话视频生成。
  • 多语言支持:能处理包括英语、普通话、西班牙语、日语、韩语和粤语在内的多种语言的音频输入。
  • 表情丰富的视频生成:根据音频的情感内容生成具有相应表情的说话视频。
  • 长视频生成能力:能生成长时间、少误差累积的说话视频。

MEMO 的技术原理

  • 记忆引导的时间模块
    • 记忆状态:开发记忆状态存储来自更长过去上下文的信息,指导时间建模。
    • 线性注意力:基于线性注意力机制使用长期运动信息,提高面部运动的连贯性,减少误差累积。
  • 情感感知音频模块
    • 多模态注意力:同时处理视频和音频输入,增强两者之间的交互。
    • 音频情感检测:动态检测音频中的情感线索,将情感信息整合到视频生成过程中,细化面部表情。
  • 端到端框架
    • 参考网络(Reference Net):提供身份信息,用于空间和时间建模。
    • 扩散网络(Diffusion Net):核心创新所在,包含记忆引导的时间模块和情感感知音频模块。
    • 数据处理流程:包括场景转换检测、人脸检测、图像质量评估、音频-唇形同步检测等步骤,确保数据质量。
    • 训练策略:分为两个阶段:面部领域适应和情感解耦的鲁棒训练,使用修正流量损失进行训练。

如何运行 MEMO

安装

conda create -n memo python=3.10 -y
conda activate memo
conda install -c conda-forge ffmpeg -y
pip install -e .

推理

python inference.py --config configs/inference.yaml --input_image <IMAGE_PATH> --input_audio <AUDIO_PATH> --output_dir <SAVE_PATH>

例如:

python inference.py --config configs/inference.yaml --input_image assets/examples/dicaprio.jpg --input_audio assets/examples/speech.wav --output_dir outputs

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
24天前
|
机器学习/深度学习 人工智能 PyTorch
HelloMeme:开源的面部表情与姿态迁移框架,将视频中的人物表情迁移到静态图像中生成动态视频
HelloMeme 是一个基于 Stable Diffusion 1.5 模型的面部表情与姿态迁移框架,通过集成空间编织注意力机制,实现了自然且物理合理的表情包视频生成。该框架具有强大的泛化能力和扩展性,适用于多种应用场景。
134 77
HelloMeme:开源的面部表情与姿态迁移框架,将视频中的人物表情迁移到静态图像中生成动态视频
|
16天前
|
人工智能
EDTalk:只需上传图片、音频和视频,就能使图片中的人物说话,情感表情与音频情绪高度统一
EDTalk 是上海交通大学与网易联合研发的高效解耦情感说话头像合成模型,能够独立控制嘴型、头部姿态和情感表情,适用于多种应用场景。
69 26
EDTalk:只需上传图片、音频和视频,就能使图片中的人物说话,情感表情与音频情绪高度统一
|
5月前
|
网络安全 语音技术
语音情感基座模型emotion5vec 问题之什么是歌曲情感识别,在歌曲情感识别任务中,emotion2vec的如何表现
语音情感基座模型emotion5vec 问题之什么是歌曲情感识别?在歌曲情感识别任务中,emotion2vec的如何表现
|
7月前
|
算法
VASA-1:实时音频驱动的数字人说话面部视频生成技术
【6月更文挑战第8天】VASA-1是实时音频驱动的数字人面部视频生成技术,能根据输入音频精准生成匹配的面部表情。具备实时性、高准确性和适应性,适用于虚拟主播、在线教育和影视娱乐等领域。简单示例代码展示了其工作原理。尽管面临情感理解和硬件优化等挑战,但随着技术发展,VASA-1有望在更多领域广泛应用,开启生动数字世界的新篇章。
340 5
|
8月前
|
算法
音频作曲算法大全
音频作曲算法大全
66 0
【永劫无间的捏脸功能】调整角色的基本面部特征,如眼睛大小、眼角、嘴唇、下巴
【永劫无间的捏脸功能】调整角色的基本面部特征,如眼睛大小、眼角、嘴唇、下巴
137 0
|
机器学习/深度学习 人工智能 TensorFlow
用10行代码检测脸部情绪
用10行代码检测脸部情绪
用10行代码检测脸部情绪
|
人工智能
StyleGAN 调整面部表情,让虚拟人脸更生动
赋予 AI 人脸表情,让其更生动自然
404 3
StyleGAN 调整面部表情,让虚拟人脸更生动
|
机器学习/深度学习 人工智能 自然语言处理
文字、图片一键生成逼真音效,作者亲自揭秘音频AIGC模型
文字、图片一键生成逼真音效,作者亲自揭秘音频AIGC模型
371 0
|
人工智能 数据可视化 测试技术
卷!用扩散模型合成连贯视觉故事,输入字幕就能脑补画面,代词ta都分得清
卷!用扩散模型合成连贯视觉故事,输入字幕就能脑补画面,代词ta都分得清
183 0

热门文章

最新文章