Ingredients:无需额外训练的多ID视频生成框架,通过多张人物照片生成定制视频

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
简介: Ingredients 是一款基于多ID照片与视频扩散Transformer相结合的定制视频生成框架,能够生成高质量、身份一致且内容灵活的视频。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持多ID照片定制视频生成,保持身份一致性。
  2. 技术:基于面部提取器、多尺度投影器和ID路由器,实现高质量视频生成。
  3. 应用:适用于娱乐、广告、教育等多个领域,无需针对每个新身份进行训练。

正文(附运行示例)

Ingredients 是什么

ingredients

Ingredients 是一款强大的视频生成框架,能够将多个特定身份(ID)的照片与视频扩散Transformer相结合,生成高度定制化的视频内容。该框架通过三个核心模块实现:面部提取器、多尺度投影器和ID路由器。面部提取器从全局和局部视角捕捉每个身份的面部特征;多尺度投影器将这些特征映射到视频扩散模型的上下文中;ID路由器则动态分配和组合多个身份特征到相应的时间空间区域。

基于精心设计的多阶段训练协议,Ingredients 能够在无需提示约束的情况下,生成具有高度身份保真度和内容灵活性的个性化视频。这使得它在娱乐、广告、教育等多个领域具有广泛的应用前景。

Ingredients 的主要功能

  • 保持身份一致性:在生成的视频中保持多个参考图像中人物身份的一致性。
  • 灵活的内容控制:支持用户用文本提示对视频内容进行精确控制。
  • 高质量视频生成:生成具有高视觉质量和自然过渡的视频内容。
  • 无需训练的定制:无需针对每个新身份进行模型训练或微调,实现定制化视频生成。

Ingredients 的技术原理

  • 面部提取器:负责从输入的参考图像中提取每个身份的面部特征。基于全局和局部相结合的方法,从全局视角提取整体面部信息,从局部视角提取细节特征,确保生成视频中人物面部的多样性和准确性。
  • 多尺度投影器:将提取的面部特征嵌入映射到视频扩散变换器的图像查询上下文中。用多尺度特征融合和交叉注意力机制,使面部特征与视频扩散模型中的视觉令牌进行有效交互,在生成过程中准确地反映人物身份信息。
  • ID路由器:负责在视频生成的时间空间区域内动态分配和组合多个身份特征。基于位置感知的路由网络,将每个潜在的面部区域分配给唯一的身份特征,避免身份特征的混合和混淆,确保生成视频中不同人物身份的清晰区分和一致性表达。

如何运行 Ingredients

1. 环境配置

首先,确保你已经安装了 Python 3.11.0 和 Conda。然后,按照以下步骤配置环境:

conda create -n ingredients python=3.11.0
conda activate ingredients
pip install -r requirements.txt

2. 推理示例

我们提供了推理脚本 inference.py,你可以通过以下命令进行简单的测试:

python infer.py \
    --prompt "Two men in half bodies, are seated in a dimly lit room, possibly an office or meeting room, with a formal atmosphere." \
    --model_path "\path\to\model" \
    --seed 2025 \
    --img_file_path 'asserts/0.jpg' 'asserts/1.jpg'

3. Gradio Web UI

我们还提供了一个 Web 界面,你可以通过以下命令启动:

python app.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
编解码 人工智能 测试技术
无需训练,这个新方法实现了生成图像尺寸、分辨率自由
【4月更文挑战第25天】研究人员提出FouriScale方法,解决了扩散模型在生成高分辨率图像时的结构失真问题。通过膨胀卷积和低通滤波,该方法实现不同分辨率下图像的结构和尺度一致性,无需重新训练模型。实验显示FouriScale在保持图像真实性和完整性的同时,能生成任意尺寸的高质量图像,尤其在处理高宽比图像时表现出色。尽管在极高分辨率生成上仍有局限,但为超高清图像合成技术提供了新思路。[链接: https://arxiv.org/abs/2403.12963]
86 5
|
8月前
|
人工智能 搜索推荐
StableIdentity:可插入图像/视频/3D生成,单张图即可变成超人,可直接与ControlNet配合使用
【2月更文挑战第17天】StableIdentity:可插入图像/视频/3D生成,单张图即可变成超人,可直接与ControlNet配合使用
139 2
StableIdentity:可插入图像/视频/3D生成,单张图即可变成超人,可直接与ControlNet配合使用
|
8月前
|
人工智能 搜索推荐 物联网
InstantID:一张照片,无需训练,秒级个人写真生成
InstantID 是由InstantX项目组推出的一种SOTA的tuning-free方法,只需单个图像即可实现 ID 保留生成,并支持各种下游任务。
|
8月前
|
机器学习/深度学习 人工智能 数据安全/隐私保护
免费交互式大模型在线图像去除水印.擦除.替换和增强照片项目代码(免费在线图像修复工具)
免费交互式大模型在线图像去除水印.擦除.替换和增强照片项目代码(免费在线图像修复工具)
|
1天前
|
机器学习/深度学习 人工智能 算法
Edicho:多图像一致性编辑,支持即插即用无需训练,快速实现风格转换
Edicho 是蚂蚁集团联合港科大等高校推出的多图像一致性编辑方法,基于扩散模型,支持即插即用,无需额外训练,适用于多种图像编辑任务。
23 8
Edicho:多图像一致性编辑,支持即插即用无需训练,快速实现风格转换
|
8月前
|
前端开发 计算机视觉
InstantStyle,无需训练,风格保留文生图
InstantStyle 是一个通用框架,它采用两种简单但有效的技术来实现风格和内容与参考图像的有效分离。
|
7月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之分别用两张同一个人像的png图片,一个可以调用成功,一个提示参数有问题,是什么原因
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
3月前
|
机器学习/深度学习 JSON 算法
实例分割笔记(一): 使用YOLOv5-Seg对图像进行分割检测完整版(从自定义数据集到测试验证的完整流程)
本文详细介绍了使用YOLOv5-Seg模型进行图像分割的完整流程,包括图像分割的基础知识、YOLOv5-Seg模型的特点、环境搭建、数据集准备、模型训练、验证、测试以及评价指标。通过实例代码,指导读者从自定义数据集开始,直至模型的测试验证,适合深度学习领域的研究者和开发者参考。
1183 3
实例分割笔记(一): 使用YOLOv5-Seg对图像进行分割检测完整版(从自定义数据集到测试验证的完整流程)
|
3月前
|
人工智能 计算机视觉
首次!用合成人脸数据集训练的识别模型,性能高于真实数据集
【10月更文挑战第9天】Vec2Face是一种创新的人脸图像合成方法,旨在解决现有方法在生成具有高区分度身份和广泛属性变化的人脸图像时的局限性。该方法通过使用样本向量作为输入,结合特征掩码自编码器和解码器,能够高效生成大规模人脸数据集,显著提升人脸识别模型的训练效果。Vec2Face在多个真实世界测试集上表现出色,首次在某些测试集上超越了使用真实数据集训练的模型。然而,该方法仍存在一些局限性,如生成的变化可能无法完全覆盖真实世界的多样性,且需要较高的计算资源。
39 2
|
3月前
Midjourney-04 收集Prompt 百变小樱魔法卡 ClearCard 透明牌 提示词实践 Niji 5 Niji6 V6 详细记录 多种风格 附带文本关键词
Midjourney-04 收集Prompt 百变小樱魔法卡 ClearCard 透明牌 提示词实践 Niji 5 Niji6 V6 详细记录 多种风格 附带文本关键词
31 0

热门文章

最新文章