ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型

本文涉及的产品
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
简介: ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 身份保持:在视频生成过程中保持人物身份的一致性。
  2. 高质量视频生成:生成视觉上逼真、细节丰富的视频内容。
  3. 无需微调:作为免调优模型,不需要针对每个新案例进行微调。

正文(附运行示例)

ConsisID 是什么

公众号: 蚝油菜花 - ConsisID

ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。

ConsisID通过结合低频全局特征和高频内在特征,采用分层训练策略生成高质量、可编辑且身份一致性强的视频。模型在多个评估维度上超越现有技术,推动了身份一致性视频生成技术的发展。

ConsisID 的主要功能

  • 身份保持:在视频生成过程中保持人物身份的一致性,确保视频中的人物特征与提供的参考图像相匹配。
  • 高质量视频生成:生成视觉上逼真、细节丰富的视频内容。
  • 无需微调:作为免调优模型,不需要针对每个新案例进行微调,降低了使用门槛。
  • 可编辑性:支持用户用文本提示控制视频内容,包括人物动作、表情和背景等。
  • 泛化能力:能处理训练数据领域之外的人物,提高模型的泛化能力。

ConsisID 的技术原理

  • 频率分解
    • 低频控制:用全局人脸特征提取器,将参考图像和人脸关键点编码为低频特征,集成到网络的浅层,缓解训练难度。
    • 高频控制:设计局部人脸特征提取器,捕获高频细节注入到Transformer模块,增强模型对细粒度特征的保留能力。
  • 层次化训练策略
    • 粗到细训练:先让模型学习全局信息,再细化到局部信息,保持视频在空间和时间维度上的一致性。
    • 动态掩码损失:用人脸mask约束损失函数的计算,让模型专注于人脸区域。
    • 动态跨脸损失:引入跨面部的参考图像,提高模型对未见身份的泛化能力。
  • 特征融合:用人脸识别骨干网络和CLIP图像编码器提取特征,基于Q-Former融合特征,生成包含高频语义信息的内在身份特征。
  • 交叉注意力机制:基于交叉注意力机制,让模型能与预训练模型生成的视觉标记交互,有效增强DiT中的高频信息。

如何运行 ConsisID

环境配置

git clone --depth=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID
conda create -n consisid python=3.11.0
conda activate consisid
pip install -r requirements.txt

下载模型权重

# 方法1
# 如果你在中国大陆,运行这个命令:export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --repo-type model \
BestWishYsh/ConsisID-preview \
--local-dir BestWishYsh/ConsisID-preview

# 方法2
git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git

运行示例

python app.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
9月前
|
机器学习/深度学习 人工智能
Micro LLAMA:教学版 LLAMA 3模型实现,用于学习大模型的核心原理
Micro LLAMA是一个精简的教学版LLAMA 3模型实现,旨在帮助学习者理解大型语言模型的核心原理。该项目仅约180行代码,便于理解和学习。Micro LLAMA基于LLAMA 3中最小的8B参数模型,适合对深度学习和模型架构感兴趣的研究者和学生。
229 18
Micro LLAMA:教学版 LLAMA 3模型实现,用于学习大模型的核心原理
|
9月前
|
存储 传感器 编解码
ROS机器视觉入门:从基础到人脸识别与目标检测
前言 从本文开始,我们将开始学习ROS机器视觉处理,刚开始先学习一部分外围的知识,为后续的人脸识别、目标跟踪和YOLOV5目标检测做准备工作。我采用的笔记本是联想拯救者游戏本,系统采用Ubuntu20.04,ROS采用noetic。 颜色编码格式,图像格式和视频压缩格式 (1)RGB和BGR:这是两种常见的颜色编码格式,分别代表了红、绿、蓝三原色。不同之处在于,RGB按照红、绿、蓝的顺序存储颜色信息,而BGR按照蓝、绿、红的顺序存储。 rgb8图像格式:常用于显示系统,如电视和计算机屏幕。 RGB值以8 bits表示每种颜色,总共可以表示256×256×256=16777216种颜色
362 70
|
9月前
|
人工智能
AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术
AnchorCrafter是由中科院和腾讯联合推出的一项AI虚拟主播带货视频制作技术。该技术基于扩散模型,能够自动生成高保真度的主播风格产品推广视频,通过整合人-物交互(HOI)技术,实现对物体外观和运动控制的高度还原。AnchorCrafter在物体外观保持、交互感知以及视频质量方面优于现有方法,为在线广告和消费者参与提供了新的可能性。
1430 31
AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术
|
10月前
|
自然语言处理 IDE 测试技术
通义灵码——有了它让我的编程效率和质量直线上升!
作为一名大数据开发工程师,我每天与代码和数据打交道,享受解决复杂问题的乐趣。最近,我遇到了一位超级“码”力助手——通义灵码。它不仅是一个简单的代码补全工具,更像是一个拥有高度智慧的编程伙伴,能够理解我的编程意图,给出最合适的建议,大大提升了我的工作效率和编程体验。本文将分享如何在VsCode中安装和使用通义灵码,以及它在我的实际编程工作中发挥的重要作用。
|
9月前
|
存储 人工智能 算法
《C++与AI共舞:模型压缩率与预测准确率的平衡之路》
在AI领域,C++凭借其高效性能成为构建智能应用的重要工具。本文探讨了模型压缩与预测准确率之间的平衡问题,从模型架构、数据特性和压缩算法选择等方面提出了解决方案,并强调了动态调整和持续优化的重要性,旨在帮助开发者在资源受限环境下实现高性能、高精度的AI应用。
245 68
|
9月前
|
人工智能
HunyuanVideo:腾讯推出的开源视频生成模型,参数高达130亿
腾讯推出的开源视频生成模型HunyuanVideo,拥有130亿参数,是目前参数量最大的开源视频模型之一。该模型具备物理模拟、高文本语义还原度、动作一致性和电影级画质等特性,能生成带有背景音乐的视频,推动了视频生成技术的发展和应用。
399 16
HunyuanVideo:腾讯推出的开源视频生成模型,参数高达130亿
|
9月前
|
存储 人工智能 缓存
Mooncake:月之暗面Kimi联合清华等机构推出的大模型推理架构
Mooncake是由月之暗面Kimi联合清华大学等机构共同开源的大模型推理架构。该架构以KVCache为中心,通过分布式设计和资源优化,显著提升了大模型推理的吞吐量和效率,同时降低了算力开销。Mooncake在长上下文场景中表现出色,支持多种应用场景,如自然语言处理、内容推荐系统和搜索引擎等。
735 6
Mooncake:月之暗面Kimi联合清华等机构推出的大模型推理架构
|
9月前
|
人工智能 编解码 自动驾驶
MagicDriveDiT:华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法
MagicDriveDiT是由华为联合港中文等机构推出的一种新型自动驾驶高分辨率长视频生成方法。该方法基于DiT架构,通过流匹配增强模型的可扩展性,并采用渐进式训练策略处理复杂场景。MagicDriveDiT能够生成高分辨率的长视频,提供对视频内容的精确控制,适用于自动驾驶系统的测试与验证、感知模型训练、场景重建与模拟以及数据增强等多个应用场景。
230 17
MagicDriveDiT:华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法
|
9月前
|
人工智能 搜索推荐
PersonaCraft:首尔国立大学推出的单参考图像生成多身份全身图像技术
PersonaCraft是由首尔国立大学推出的创新技术,能够从单一参考图像生成多个人物的逼真全身图像。该技术结合了扩散模型和3D人类建模,有效处理人物间的遮挡问题,并支持用户自定义身体形状调整,为多人图像合成树立了新标准。
210 9
PersonaCraft:首尔国立大学推出的单参考图像生成多身份全身图像技术
|
9月前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
642 14
GenCast:谷歌DeepMind推出的AI气象预测模型

热门文章

最新文章