HelloMeme:开源的面部表情与姿态迁移框架,将视频中的人物表情迁移到静态图像中生成动态视频

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: HelloMeme 是一个基于 Stable Diffusion 1.5 模型的面部表情与姿态迁移框架,通过集成空间编织注意力机制,实现了自然且物理合理的表情包视频生成。该框架具有强大的泛化能力和扩展性,适用于多种应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:将驱动视频中的头部姿态和面部表情迁移到参考图像中,生成动态视频内容。
  2. 技术:采用空间编织注意力机制和模块化设计,优化特征图的注意力操作。
  3. 应用:适用于社交媒体内容创作、视频娱乐与游戏、电影制作等多个领域。

正文(附运行示例)

HelloMeme 是什么

公众号: 蚝油菜花 - HelloMeme

HelloMeme 是一个基于最新的 Diffusion 生成技术的框架,专门用于实现面部表情与姿态的迁移。它集成了空间编织注意力(Spatial Knitting Attentions)机制,基于 Stable Diffusion 1.5 模型的理解能力,将头部姿态和面部表情信息融合到去噪网络中,生成自然且物理合理的表情包视频。

HelloMeme 不仅保持了基础模型的泛化能力,还具有扩展到全身或半身构图的潜力。通过模块化设计,HelloMeme 能够高效地处理复杂的表情与姿态迁移任务,生成多样化的内容。

HelloMeme 的主要功能

  • 表情与姿态迁移:将驱动视频中的头部姿态和面部表情迁移到参考图像中,生成具有夸张表情和姿态的动态视频内容。
  • 保持泛化能力:在执行复杂下游任务时,保持基础模型的泛化能力,生成多样化的内容不局限于特定任务。
  • 兼容性与扩展性:与 SD1.5 衍生模型具有良好的兼容性,并有潜力扩展到全身或半身构图的应用。

HelloMeme 的技术原理

  • 空间编织注意力(Spatial Knitting Attentions):优化 2D 特征图的注意力机制,先进行行注意力操作,再进行列注意力操作,保持 2D 特征图的空间结构信息,类似于纺织时经纬线的交织。
  • 模块化设计:HelloMeme 由三个主要模块组成:
    • HMReferenceNet:用于从参考图像中提取细节丰富的特征。
    • HMControlNet:负责编码头部姿态和面部表情信息。
    • HMDenoisingNet:接收前两个模块的特征,实现可控的去噪生成。
  • 解耦控制信息:将头部姿态和面部表情信息解耦,分别编码,然后用 SKCrossAttention 机制融合,提高信息的表达能力和减少身份信息泄露的风险。
  • 视频生成流程:为提高视频帧之间的连续性,采用两阶段生成流程,先粗略生成视频帧,再通过再噪声化和运动模块生成平滑的视频片段。

如何运行 HelloMeme

1. 创建 Conda 环境

conda create -n hellomeme python=3.10.11
conda activate hellomeme

2. 安装 PyTorch 和 FFmpeg

请参考 PyTorch 官方网站 安装最新版本的 PyTorch。此外,代码将调用系统的 ffmpeg 命令进行视频和音频编辑,因此运行环境必须预先安装 ffmpeg。安装指南请参考 FFmpeg 官方网站

3. 安装依赖

pip install diffusers transformers einops scipy opencv-python tqdm pillow onnxruntime-gpu onnx safetensors accelerate peft imageio imageio[ffmpeg] torchvision

4. 克隆仓库

git clone https://github.com/HelloVision/HelloMeme
cd HelloMeme

5. 运行代码

python inference_image.py # 用于图像生成
python inference_video.py # 用于视频生成

6. 安装 Gradio App

pip install gradio
python app.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
9月前
|
人工智能 vr&ar
PSHuman:开源单图像3D人像重建技术,一张照片就能生成3D人像模型
PSHuman 是一种先进的单图像3D人像重建技术,仅需一张照片即可生成高度逼真的3D模型,支持面部细节、全身姿态和纹理恢复,适用于影视、游戏、虚拟现实等多个领域。
816 4
PSHuman:开源单图像3D人像重建技术,一张照片就能生成3D人像模型
|
4月前
|
存储 前端开发 API
一篇文章实现Android图片拼接并保存至相册
本文详细介绍了一个Android图片拼接应用的实现过程,涵盖权限管理、图片选择、异步加载、拼接处理和保存至相册等功能。通过`ImageStitcher`类完成图片横向或纵向拼接,支持多张图片操作,并适配Android Q及以上版本的存储权限要求。代码结构清晰,包含关键步骤如权限检查、UI交互及MediaStore API使用,适合开发者快速上手并根据需求扩展功能。
108 5
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频
JoyGen 是京东和香港大学联合推出的音频驱动的3D说话人脸视频生成框架,支持多语言、高质量视觉效果和精确的唇部与音频同步。
331 14
JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频
|
9月前
|
Java 关系型数据库 数据库连接
简单易懂的 MyBatis 分库分表方案
本文介绍了一种基于 MyBatis 框架的数据库分库分表方案——shardino。不同于复杂插件方式,该方案通过客户端代码包装实现简便易懂的操作,显式处理分库分表逻辑,确保开发者清晰了解数据分布。项目地址:[https://github.com/pyloque/shardino](https://github.com/pyloque/shardino)。方案中,帖子表按 userId 字段 hash 分为 64 张表,平均分配到多个主从库中,配置文件管理 MySQL 组对象,支持读写分离和权重随机选择从库。代码示例展示了如何计算 partition number 并进行具体操作。
256 22
简单易懂的 MyBatis 分库分表方案
|
10月前
|
机器学习/深度学习 编解码 人工智能
InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像
InvSR 是一个创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制,能够高效地提升图像分辨率,适用于老旧照片修复、视频监控、医疗成像等多个领域。
1660 9
InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像
|
9月前
|
人工智能
EDTalk:只需上传图片、音频和视频,就能使图片中的人物说话,情感表情与音频情绪高度统一
EDTalk 是上海交通大学与网易联合研发的高效解耦情感说话头像合成模型,能够独立控制嘴型、头部姿态和情感表情,适用于多种应用场景。
385 26
EDTalk:只需上传图片、音频和视频,就能使图片中的人物说话,情感表情与音频情绪高度统一
|
11月前
|
人工智能 JSON 算法
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式、 AI Native 的大模型与 AIGC 工程平台,为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例,详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
|
9月前
|
监控 前端开发 应用服务中间件
小游戏源码开发搭建技术栈和服务器配置流程
近些年不同场景游戏层出不穷,现就小游戏开发技术应用及功能详细剖析!
|
9月前
|
前端开发 JavaScript Java
通过ChatGPT生成测试用例和测试脚本(2)
通过ChatGPT生成测试用例和测试脚本
205 21

热门文章

最新文章