Ingredients:无需额外训练的多ID视频生成框架,通过多张人物照片生成定制视频

简介: Ingredients 是一款基于多ID照片与视频扩散Transformer相结合的定制视频生成框架,能够生成高质量、身份一致且内容灵活的视频。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持多ID照片定制视频生成,保持身份一致性。
  2. 技术:基于面部提取器、多尺度投影器和ID路由器,实现高质量视频生成。
  3. 应用:适用于娱乐、广告、教育等多个领域,无需针对每个新身份进行训练。

正文(附运行示例)

Ingredients 是什么

ingredients

Ingredients 是一款强大的视频生成框架,能够将多个特定身份(ID)的照片与视频扩散Transformer相结合,生成高度定制化的视频内容。该框架通过三个核心模块实现:面部提取器、多尺度投影器和ID路由器。面部提取器从全局和局部视角捕捉每个身份的面部特征;多尺度投影器将这些特征映射到视频扩散模型的上下文中;ID路由器则动态分配和组合多个身份特征到相应的时间空间区域。

基于精心设计的多阶段训练协议,Ingredients 能够在无需提示约束的情况下,生成具有高度身份保真度和内容灵活性的个性化视频。这使得它在娱乐、广告、教育等多个领域具有广泛的应用前景。

Ingredients 的主要功能

  • 保持身份一致性:在生成的视频中保持多个参考图像中人物身份的一致性。
  • 灵活的内容控制:支持用户用文本提示对视频内容进行精确控制。
  • 高质量视频生成:生成具有高视觉质量和自然过渡的视频内容。
  • 无需训练的定制:无需针对每个新身份进行模型训练或微调,实现定制化视频生成。

Ingredients 的技术原理

  • 面部提取器:负责从输入的参考图像中提取每个身份的面部特征。基于全局和局部相结合的方法,从全局视角提取整体面部信息,从局部视角提取细节特征,确保生成视频中人物面部的多样性和准确性。
  • 多尺度投影器:将提取的面部特征嵌入映射到视频扩散变换器的图像查询上下文中。用多尺度特征融合和交叉注意力机制,使面部特征与视频扩散模型中的视觉令牌进行有效交互,在生成过程中准确地反映人物身份信息。
  • ID路由器:负责在视频生成的时间空间区域内动态分配和组合多个身份特征。基于位置感知的路由网络,将每个潜在的面部区域分配给唯一的身份特征,避免身份特征的混合和混淆,确保生成视频中不同人物身份的清晰区分和一致性表达。

如何运行 Ingredients

1. 环境配置

首先,确保你已经安装了 Python 3.11.0 和 Conda。然后,按照以下步骤配置环境:

conda create -n ingredients python=3.11.0
conda activate ingredients
pip install -r requirements.txt

2. 推理示例

我们提供了推理脚本 inference.py,你可以通过以下命令进行简单的测试:

python infer.py \
    --prompt "Two men in half bodies, are seated in a dimly lit room, possibly an office or meeting room, with a formal atmosphere." \
    --model_path "\path\to\model" \
    --seed 2025 \
    --img_file_path 'asserts/0.jpg' 'asserts/1.jpg'

3. Gradio Web UI

我们还提供了一个 Web 界面,你可以通过以下命令启动:

python app.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
人工智能 计算机视觉
开源视频字幕模型Video ReCap可最长处理2小时
【2月更文挑战第9天】开源视频字幕模型Video ReCap可最长处理2小时
566 3
开源视频字幕模型Video ReCap可最长处理2小时
|
4月前
|
人工智能 Cloud Native 调度
容器市场高速增长,阿里云连续3年蝉联第一
国际数据机构IDC发布《中国容器市场份额,2024:从云原生到AI原生》最新报告,2024年中国容器市场整体市场规模增长46.7%。其中,阿里云以26.6%的占比稳居第一,市场份额超过二、三名总和,连续3年蝉联榜首。
|
人工智能 测试技术 决策智能
玩转智能体魔方!清华推出AgentSquare模块化搜索框架,开启AI智能体高速进化时代
清华大学研究团队提出模块化LLM智能体搜索(MoLAS)框架AgentSquare,将LLM智能体设计抽象为规划、推理、工具使用和记忆四大模块,实现模块间的轻松组合与替换。通过模块进化和重组机制,AgentSquare显著提升了智能体的适应性和灵活性,并在多个基准测试中表现出色,平均性能提高17.2%。此外,该框架还具备可解释性,有助于深入理解智能体架构对任务性能的影响。论文地址:https://arxiv.org/abs/2410.06153
481 10
|
Java
Java Socket编程与多线程:提升客户端-服务器通信的并发性能
【6月更文挑战第21天】Java网络编程中,Socket结合多线程提升并发性能,服务器对每个客户端连接启动新线程处理,如示例所示,实现每个客户端的独立操作。多线程利用多核处理器能力,避免串行等待,提升响应速度。防止死锁需减少共享资源,统一锁定顺序,使用超时和重试策略。使用synchronized、ReentrantLock等维持数据一致性。多线程带来性能提升的同时,也伴随复杂性和挑战。
545 0
|
Rust 安全 数据挖掘
【颠覆常规】Rust科学计算革命:掌握数值分析与数据处理的全新利器,让你的工作事半功倍!
【8月更文挑战第31天】Rust语言凭借其出色的内存安全和高性能特性,在科学计算领域逐渐崭露头角。本文通过具体代码示例展示了Rust在数值计算与数据分析中的应用,包括矩阵乘法、统计分析及线性方程组求解。通过安装Rust并引入`ndarray`、`nalgebra`和`statrs`等库,读者可以轻松实现各类科学计算任务。Rust在科学计算领域的潜力巨大,未来可期。
1017 1
|
Python
Python 中的 spell checker 库
Python 中的 spell checker 库
538 1
|
XML Web App开发 JSON
PyMuPDF 1.24.4 中文文档(十二)(5)
PyMuPDF 1.24.4 中文文档(十二)
436 0
|
机器学习/深度学习 人工智能 算法
【CVPR2024】面向StableDiffusion的编辑算法FreePromptEditing,提升图像编辑效果
近日,阿里云人工智能平台PAI与华南理工大学贾奎教授团队合作在深度学习顶级会议 CVPR2024 上发表 FPE(Free-Prompt-Editing) 算法,这是一种面向StableDiffusion的图像编辑算法。在这篇论文中,StableDiffusion可用于实现图像编辑的本质被挖掘,解释证明了基于StableDiffusion编辑的算法本质,并基于此设计了新的图像编辑算法,大幅度提升了图像编辑的效率。
|
Ubuntu Linux
Linux查看系统版本和内核版本
Linux查看系统版本和内核版本

热门文章

最新文章