ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型

简介: ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 身份保持:在视频生成过程中保持人物身份的一致性。
  2. 高质量视频生成:生成视觉上逼真、细节丰富的视频内容。
  3. 无需微调:作为免调优模型,不需要针对每个新案例进行微调。

正文(附运行示例)

ConsisID 是什么

公众号: 蚝油菜花 - ConsisID

ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。

ConsisID通过结合低频全局特征和高频内在特征,采用分层训练策略生成高质量、可编辑且身份一致性强的视频。模型在多个评估维度上超越现有技术,推动了身份一致性视频生成技术的发展。

ConsisID 的主要功能

  • 身份保持:在视频生成过程中保持人物身份的一致性,确保视频中的人物特征与提供的参考图像相匹配。
  • 高质量视频生成:生成视觉上逼真、细节丰富的视频内容。
  • 无需微调:作为免调优模型,不需要针对每个新案例进行微调,降低了使用门槛。
  • 可编辑性:支持用户用文本提示控制视频内容,包括人物动作、表情和背景等。
  • 泛化能力:能处理训练数据领域之外的人物,提高模型的泛化能力。

ConsisID 的技术原理

  • 频率分解
    • 低频控制:用全局人脸特征提取器,将参考图像和人脸关键点编码为低频特征,集成到网络的浅层,缓解训练难度。
    • 高频控制:设计局部人脸特征提取器,捕获高频细节注入到Transformer模块,增强模型对细粒度特征的保留能力。
  • 层次化训练策略
    • 粗到细训练:先让模型学习全局信息,再细化到局部信息,保持视频在空间和时间维度上的一致性。
    • 动态掩码损失:用人脸mask约束损失函数的计算,让模型专注于人脸区域。
    • 动态跨脸损失:引入跨面部的参考图像,提高模型对未见身份的泛化能力。
  • 特征融合:用人脸识别骨干网络和CLIP图像编码器提取特征,基于Q-Former融合特征,生成包含高频语义信息的内在身份特征。
  • 交叉注意力机制:基于交叉注意力机制,让模型能与预训练模型生成的视觉标记交互,有效增强DiT中的高频信息。

如何运行 ConsisID

环境配置

git clone --depth=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID
conda create -n consisid python=3.11.0
conda activate consisid
pip install -r requirements.txt

下载模型权重

# 方法1
# 如果你在中国大陆,运行这个命令:export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --repo-type model \
BestWishYsh/ConsisID-preview \
--local-dir BestWishYsh/ConsisID-preview

# 方法2
git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git

运行示例

python app.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
存储 NoSQL Linux
JuiceFS-开源分布式文件系统入门(一篇就够了)(下)
JuiceFS-开源分布式文件系统入门(一篇就够了)(下)
995 0
|
机器学习/深度学习 人工智能 文字识别
AI加持的WPS来了:金山开源全球首个办公DL框架KSAI-Lite
自动生成 PPT,自动图片转文字 + 翻译,甚至自动辅助写文章…… 办公自动化的未来已来。
1239 0
AI加持的WPS来了:金山开源全球首个办公DL框架KSAI-Lite
|
监控 数据挖掘 API
探索淘宝商品评论接口:功能、应用与开发者指南
在电子商务蓬勃发展的今天,商品评论已成为消费者购买决策的重要依据之一。作为国内最大的电商平台,淘宝通过其强大的商品评论系统,不仅为消费者提供了丰富的购物参考,也为商家提供了宝贵的用户反馈。而这一切的背后,离不开高效、稳定的商品评论接口支持。本文将深入探讨淘宝商品评论接口的功能、应用场景以及为开发者提供的指南,帮助大家更好地理解并利用这一资源。
|
机器学习/深度学习 供应链 搜索推荐
深度学习与日常生活的融合
本文旨在探索深度学习技术在日常生活中的应用,分析其对各行各业的影响以及未来发展趋势。通过具体案例,展示深度学习如何改变我们的生活方式和工作模式,为读者提供全面而深入的理解。
|
机器学习/深度学习 人工智能 文字识别
一种基于YOLOv8改进的高精度红外小目标检测算法 (原创自研)
【7月更文挑战第2天】 💡💡💡创新点: 1)SPD-Conv特别是在处理低分辨率图像和小物体等更困难的任务时优势明显; 2)引入Wasserstein Distance Loss提升小目标检测能力; 3)YOLOv8中的Conv用cvpr2024中的DynamicConv代替;
1824 4
|
机器学习/深度学习 计算机视觉
YOLOv10实战:红外小目标实战 | 多头检测器提升小目标检测精度
本文改进: 在进行目标检测时,小目标会出现漏检或检测效果不佳等问题。YOLOv10有3个检测头,能够多尺度对目标进行检测,但对微小目标检测可能存在检测能力不佳的现象,因此添加一个微小物体的检测头,能够大量涨点,map提升明显; 多头检测器提升小目标检测精度,1)mAP50从0.666提升至0.677
2407 3
|
边缘计算 运维 容灾
重磅发布!阿里云发布《应用多活技术白皮书》,并开源首个多活项目AppActive
1月11日,在上海的云原生实战峰会上,阿里云智能研究员丁宇发布了“应用多活技术白皮书”,同时为了推动业界容灾的发展,建立云原生业务容灾标准,阿里云开源了“应用多活”项目AppActive。
63063 112
重磅发布!阿里云发布《应用多活技术白皮书》,并开源首个多活项目AppActive
|
存储 安全 C++
【C++ 17 新特性 std::variant】C++ std::variant 的 深入探讨
【C++ 17 新特性 std::variant】C++ std::variant 的 深入探讨
1040 1
|
Shell Linux C语言
【Shell 命令集合 系统设置 】Linux 配置鼠标设备的相关设置 mouseconfig命令 使用指南
【Shell 命令集合 系统设置 】Linux 配置鼠标设备的相关设置 mouseconfig命令 使用指南
728 0

热门文章

最新文章