ConsisID：北大联合鹏城实验室等机构推出的文本到视频生成模型

2024-12-05 145

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，分割抠图1万点

视觉智能开放平台，视频资源包5000点

视觉智能开放平台，图像资源包5000点

简介： ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型，专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构，能够在多个评估维度上超越现有技术，推动身份一致性视频生成技术的发展。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

身份保持：在视频生成过程中保持人物身份的一致性。
高质量视频生成：生成视觉上逼真、细节丰富的视频内容。
无需微调：作为免调优模型，不需要针对每个新案例进行微调。

正文（附运行示例）

ConsisID 是什么

公众号: 蚝油菜花 - ConsisID

ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型，专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构，能够在多个评估维度上超越现有技术，推动身份一致性视频生成技术的发展。

ConsisID通过结合低频全局特征和高频内在特征，采用分层训练策略生成高质量、可编辑且身份一致性强的视频。模型在多个评估维度上超越现有技术，推动了身份一致性视频生成技术的发展。

ConsisID 的主要功能

身份保持：在视频生成过程中保持人物身份的一致性，确保视频中的人物特征与提供的参考图像相匹配。
高质量视频生成：生成视觉上逼真、细节丰富的视频内容。
无需微调：作为免调优模型，不需要针对每个新案例进行微调，降低了使用门槛。
可编辑性：支持用户用文本提示控制视频内容，包括人物动作、表情和背景等。
泛化能力：能处理训练数据领域之外的人物，提高模型的泛化能力。

ConsisID 的技术原理

频率分解：
- 低频控制：用全局人脸特征提取器，将参考图像和人脸关键点编码为低频特征，集成到网络的浅层，缓解训练难度。
- 高频控制：设计局部人脸特征提取器，捕获高频细节注入到Transformer模块，增强模型对细粒度特征的保留能力。
层次化训练策略：
- 粗到细训练：先让模型学习全局信息，再细化到局部信息，保持视频在空间和时间维度上的一致性。
- 动态掩码损失：用人脸mask约束损失函数的计算，让模型专注于人脸区域。
- 动态跨脸损失：引入跨面部的参考图像，提高模型对未见身份的泛化能力。
特征融合：用人脸识别骨干网络和CLIP图像编码器提取特征，基于Q-Former融合特征，生成包含高频语义信息的内在身份特征。
交叉注意力机制：基于交叉注意力机制，让模型能与预训练模型生成的视觉标记交互，有效增强DiT中的高频信息。

如何运行 ConsisID

环境配置

git clone --depth=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID
conda create -n consisid python=3.11.0
conda activate consisid
pip install -r requirements.txt

下载模型权重

# 方法1
# 如果你在中国大陆，运行这个命令：export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --repo-type model \
BestWishYsh/ConsisID-preview \
--local-dir BestWishYsh/ConsisID-preview

# 方法2
git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git