❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 身份保持:在视频生成过程中保持人物身份的一致性。
- 高质量视频生成:生成视觉上逼真、细节丰富的视频内容。
- 无需微调:作为免调优模型,不需要针对每个新案例进行微调。
正文(附运行示例)
ConsisID 是什么
ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。
ConsisID通过结合低频全局特征和高频内在特征,采用分层训练策略生成高质量、可编辑且身份一致性强的视频。模型在多个评估维度上超越现有技术,推动了身份一致性视频生成技术的发展。
ConsisID 的主要功能
- 身份保持:在视频生成过程中保持人物身份的一致性,确保视频中的人物特征与提供的参考图像相匹配。
- 高质量视频生成:生成视觉上逼真、细节丰富的视频内容。
- 无需微调:作为免调优模型,不需要针对每个新案例进行微调,降低了使用门槛。
- 可编辑性:支持用户用文本提示控制视频内容,包括人物动作、表情和背景等。
- 泛化能力:能处理训练数据领域之外的人物,提高模型的泛化能力。
ConsisID 的技术原理
- 频率分解:
- 低频控制:用全局人脸特征提取器,将参考图像和人脸关键点编码为低频特征,集成到网络的浅层,缓解训练难度。
- 高频控制:设计局部人脸特征提取器,捕获高频细节注入到Transformer模块,增强模型对细粒度特征的保留能力。
- 层次化训练策略:
- 粗到细训练:先让模型学习全局信息,再细化到局部信息,保持视频在空间和时间维度上的一致性。
- 动态掩码损失:用人脸mask约束损失函数的计算,让模型专注于人脸区域。
- 动态跨脸损失:引入跨面部的参考图像,提高模型对未见身份的泛化能力。
- 特征融合:用人脸识别骨干网络和CLIP图像编码器提取特征,基于Q-Former融合特征,生成包含高频语义信息的内在身份特征。
- 交叉注意力机制:基于交叉注意力机制,让模型能与预训练模型生成的视觉标记交互,有效增强DiT中的高频信息。
如何运行 ConsisID
环境配置
git clone --depth=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID
conda create -n consisid python=3.11.0
conda activate consisid
pip install -r requirements.txt
下载模型权重
# 方法1
# 如果你在中国大陆,运行这个命令:export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --repo-type model \
BestWishYsh/ConsisID-preview \
--local-dir BestWishYsh/ConsisID-preview
# 方法2
git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git
运行示例
python app.py
资源
- 项目官网:https://pku-yuangroup.github.io/ConsisID
- GitHub 仓库:https://github.com/PKU-YuanGroup/ConsisID
- HuggingFace 模型库:https://huggingface.co/datasets/BestWishYsh/ConsisID
- arXiv 技术论文:https://arxiv.org/pdf/2411.17440
- 在线体验 Demo:https://huggingface.co/spaces/BestWishYsh/ConsisID
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦