ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 身份保持:在视频生成过程中保持人物身份的一致性。
  2. 高质量视频生成:生成视觉上逼真、细节丰富的视频内容。
  3. 无需微调:作为免调优模型,不需要针对每个新案例进行微调。

正文(附运行示例)

ConsisID 是什么

公众号: 蚝油菜花 - ConsisID

ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。

ConsisID通过结合低频全局特征和高频内在特征,采用分层训练策略生成高质量、可编辑且身份一致性强的视频。模型在多个评估维度上超越现有技术,推动了身份一致性视频生成技术的发展。

ConsisID 的主要功能

  • 身份保持:在视频生成过程中保持人物身份的一致性,确保视频中的人物特征与提供的参考图像相匹配。
  • 高质量视频生成:生成视觉上逼真、细节丰富的视频内容。
  • 无需微调:作为免调优模型,不需要针对每个新案例进行微调,降低了使用门槛。
  • 可编辑性:支持用户用文本提示控制视频内容,包括人物动作、表情和背景等。
  • 泛化能力:能处理训练数据领域之外的人物,提高模型的泛化能力。

ConsisID 的技术原理

  • 频率分解
    • 低频控制:用全局人脸特征提取器,将参考图像和人脸关键点编码为低频特征,集成到网络的浅层,缓解训练难度。
    • 高频控制:设计局部人脸特征提取器,捕获高频细节注入到Transformer模块,增强模型对细粒度特征的保留能力。
  • 层次化训练策略
    • 粗到细训练:先让模型学习全局信息,再细化到局部信息,保持视频在空间和时间维度上的一致性。
    • 动态掩码损失:用人脸mask约束损失函数的计算,让模型专注于人脸区域。
    • 动态跨脸损失:引入跨面部的参考图像,提高模型对未见身份的泛化能力。
  • 特征融合:用人脸识别骨干网络和CLIP图像编码器提取特征,基于Q-Former融合特征,生成包含高频语义信息的内在身份特征。
  • 交叉注意力机制:基于交叉注意力机制,让模型能与预训练模型生成的视觉标记交互,有效增强DiT中的高频信息。

如何运行 ConsisID

环境配置

git clone --depth=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID
conda create -n consisid python=3.11.0
conda activate consisid
pip install -r requirements.txt

下载模型权重

# 方法1
# 如果你在中国大陆,运行这个命令:export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --repo-type model \
BestWishYsh/ConsisID-preview \
--local-dir BestWishYsh/ConsisID-preview

# 方法2
git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git

运行示例

python app.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
6天前
|
存储 机器学习/深度学习
首个多模态连续学习综述,港中文、清华、UIC联合发布
多模态连续学习(MMCL)旨在使模型在不断学习新数据的同时,不遗忘已有知识。香港中文大学、清华大学和伊利诺伊大学芝加哥分校的研究人员发布了首个关于MMCL的全面综述。该综述介绍了MMCL的基本背景和设置,提出了基于正则化、架构、重放和提示四类方法的分类体系,并讨论了其挑战与未来研究方向。论文链接:https://arxiv.org/abs/2410.05352
47 28
|
1月前
|
人工智能 算法 测试技术
Insight-V:腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型
Insight-V是由南洋理工大学、腾讯公司和清华大学联合推出的多模态模型,旨在提升长链视觉推理能力。通过渐进式数据生成、多智能体系统和两阶段训练流程,Insight-V在多个视觉推理基准测试中表现出色,展现出强大的视觉推理能力。
99 42
Insight-V:腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型
|
1月前
|
机器学习/深度学习 人工智能 达摩院
MVGenMaster:复旦联合阿里等实验室推出的多视图扩散模型
MVGenMaster是由复旦大学、阿里巴巴达摩院和湖潘实验室联合推出的多视图扩散模型,专注于新视角合成(NVS)任务。该模型通过整合3D先验信息,显著提升了NVS的泛化和3D一致性,并能从单一图像生成多达100个新视图。此外,研究团队还推出了包含160万场景的大型多视图图像数据集MvD-1M,以支持模型的训练和优化。
89 27
MVGenMaster:复旦联合阿里等实验室推出的多视图扩散模型
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
VMB:中科院联合多所高校推出多模态音乐生成框架,能够通过文本、图像和视频等多种输入生成音乐
VMB(Visuals Music Bridge)是由中科院联合多所高校机构推出的多模态音乐生成框架,能够从文本、图像和视频等多种输入模态生成音乐。该框架通过文本桥接和音乐桥接解决了数据稀缺、跨模态对齐弱和可控性有限的问题。
71 7
VMB:中科院联合多所高校推出多模态音乐生成框架,能够通过文本、图像和视频等多种输入生成音乐
|
1月前
|
人工智能 编解码 虚拟化
See3D:智源研究院开源的无标注视频学习 3D 生成模型
See3D 是智源研究院推出的无标注视频学习 3D 生成模型,能够从大规模无标注的互联网视频中学习 3D 先验,实现从视频中生成 3D 内容。See3D 采用视觉条件技术,支持从文本、单视图和稀疏视图到 3D 的生成,并能进行 3D 编辑与高斯渲染。
108 13
See3D:智源研究院开源的无标注视频学习 3D 生成模型
|
1月前
|
数据采集 人工智能 编解码
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。
110 7
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
|
2月前
|
人工智能 API
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。
55 0
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
|
5月前
|
存储 人工智能 编解码
大模型检索X一键成片,巴黎奥运的AI新演绎
巴黎奥运会,AI上演媒体新科技。
154 10
大模型检索X一键成片,巴黎奥运的AI新演绎
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
哈佛、麻省推出面向医学多模态助手—PathChat
【7月更文挑战第18天】哈佛+麻省理工推出PathChat,多模态AI助手革新医学病理学。融合Vision-Language模型,PathChat能处理自然语言和医学图像,提供高准确性的诊断支持与文本描述。在实验中,其性能超越同类产品,但面临数据偏见、可解释性及临床应用验证的挑战。[ Nature article: https://www.nature.com/articles/s41586-024-07618-3 ]**
199 3
|
7月前
|
人工智能 人机交互 语音技术
让大模型更懂你的情绪——通义实验室与中科院自动化所联合开源中英双语共情语音对话模型BLSP-Emo
BLSP-Emo模型展示了情感智能在人机交互中的重要性,未来的多模态模型将更加注重情感的识别和表达,使得机器能够更加准确地理解和回应用户的情感状态,甚至生成富有情感的语音反馈。同时,BLSP-Emo展示了将副语言信号对齐到大语言模型语义空间的可能性,我们期待着更加人性化、更具有共情力的对话交互模型的出现。

热门文章

最新文章