EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

创新框架:阿里巴巴和南洋理工大学联合推出的文本到图像生成模型训练技术。
高效训练:通过API交互和预训练VLMs动态优化数据集,减少数据量和训练成本。
性能提升:从多个高级模型中选择最佳样本,提升生成图像的质量和多样性。

正文(附运行示例)

EvolveDirector 是什么

公众号: 蚝油菜花 - EvolveDirector

EvolveDirector是由阿里巴巴和南洋理工大学联合推出的创新框架,旨在通过公开资源和高级模型的API接口训练一个高性能的文本到图像生成模型。该框架的核心在于通过与现有高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,从而显著减少所需的数据量和训练成本。

EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有的高级模型。这种创新的方法不仅提高了模型的生成质量,还大大降低了训练成本和时间。

EvolveDirector 的主要功能

  • 文本到图像生成:将文本描述转换成高质量的图像。
  • API交互:基于与高级文本到图像模型的API交互,获取文本-图像数据对,训练基础模型。
  • 数据集优化:利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,基于智能选择、扩展、删除和变异操作。
  • 模型进化:指导基础模型的进化,模拟、超越高级模型的生成能力。
  • 多模型学习:从多个高级模型中选择最佳样本进行学习,提升生成图像的质量和多样性。
  • 在线训练:基于在线训练策略,让基础模型持续不间断地训练,同时动态更新训练数据集。

EvolveDirector 的技术原理

  • API数据获取:基于与高级模型的公共API交互,获取大量的文本-图像数据对。
  • VLM评估与指导:利用预训练的VLMs对生成的图像进行评估,选择与文本描述最匹配的图像,指导数据集的构建。
  • 动态数据集维护:在训练过程中,VLM持续评估基础模型的性能,根据评估结果动态更新训练数据集。
  • 智能选择:VLM选择与文本提示最匹配的图像,保留高质量数据,删除低质量或冗余数据。

如何运行 EvolveDirector

环境配置

  1. 首先克隆本仓库。
  2. 为EvolveDirector构建虚拟环境:
    conda create -n evolvedirector python=3.9
    conda activate evolvedirector
    pip install --upgrade pip
    pip install torch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1 --index-url https://download.pytorch.org/whl/cu121
    pip install -r requirements.txt
    pip install -U transformers accelerate diffusers SentencePiece ftfy beautifulsoup4
    
  3. 为LLava构建虚拟环境:
    git clone https://github.com/haotian-liu/LLaVA.git
    cd LLaVA
    conda create -n llava python=3.10 -y
    conda activate llava
    pip install --upgrade pip
    pip install -e .
    

模型权重

  1. 下载Edgen模型权重、VAE和T5权重:https://huggingface.co/ruizhaocv/Edgen。在脚本"AdGenerator/base_img_gen.py"、"AdGenerator/extract_features.py"和训练配置中更改权重路径。
  2. 下载LLava权重:https://huggingface.co/liuhaotian/llava-v1.6-34b。在脚本"VLM/vlm_script.py"中更改权重路径。下载clip:https://huggingface.co/openai/clip-vit-large-patch14-336,并将其放在与LLava权重相同的父文件夹下。
  3. 下载高级模型权重,例如Playground 1.5:https://huggingface.co/playgroundai/playground-v2.5-1024px-aesthetic。在脚本"AdGenerator/advanced_gen_scripts/img_gen_playground.py"中更改权重路径。

使用示例

  1. 512px单尺度训练:

    CUDA_VISIBLE_DEVICES=0 python Synchronizer/server.py --task_stamp dynamic_0000
    CUDA_VISIBLE_DEVICES=0 python AdGenerator/base_img_gen.py --task_stamp dynamic_0000
    CUDA_VISIBLE_DEVICES=1 python AdGenerator/advanced_img_gen.py --task_stamp dynamic_0000
    CUDA_VISIBLE_DEVICES=1 python AdGenerator/advanced_gen_scripts/img_gen_playground.py --task_stamp dynamic_0000 --rank 0
    CUDA_VISIBLE_DEVICES=2 python VLM/vlm_server.py --task_stamp dynamic_0000
    CUDA_VISIBLE_DEVICES=2 python VLM/vlm_script.py --task_stamp dynamic_0000 --rank 0
    CUDA_VISIBLE_DEVICES=3 python /mnt/data/ruizhao/code/EvolveDirector/AdGenerator/extract_features.py --task_stamp dynamic_0000
    CUDA_VISIBLE_DEVICES=4 python Train/train.py configs/evolve_director_512.py --work-dir output/evolve_director_512 --task_stamp dynamic_0000
    CUDA_VISIBLE_DEVICES=4,5,6,7 python -m torch.distributed.launch --nproc_per_node=4 Train/train.py configs/evolve_director_512.py --work-dir output/EvolveDirector_512 --task_stamp dynamic_0000
    
  2. 1024px多尺度训练:

    CUDA_VISIBLE_DEVICES=2 python VLM/vlm_script.py --task_stamp dynamic_0000 --rank 0 --multi_scale
    CUDA_VISIBLE_DEVICES=3 python /mnt/data/ruizhao/code/EvolveDirector/AdGenerator/extract_features.py --task_stamp dynamic_0000 --img_size 1024 --multi_scale
    CUDA_VISIBLE_DEVICES=4 python Train/train.py configs/evolve_director_1024.py --work-dir output/evolve_director_1024 --task_stamp dynamic_0000
    CUDA_VISIBLE_DEVICES=4,5,6,7 python -m torch.distributed.launch --nproc_per_node=4 Train/train.py configs/evolve_director_1024.py --work-dir output/evolve_director_1024 --task_stamp dynamic_0000
    
  3. 推理:

    python Inference/inference.py --image_size=1024 \
     --t5_path "/path/to/Edgen" \
     --tokenizer_path "/path/to/Edgen/sd-vae-ft-ema" \
     --txt_file "Inference/text_prompts.txt" \
     --model_path "/path/to/Edgen/ckpt.pth" \
     --save_folder "output/test_model"
    

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
机器学习/深度学习 人工智能 计算机视觉
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。
154 73
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
|
1月前
|
人工智能 算法 物联网
Lyra:SmartMore 联合香港多所高校推出的多模态大型语言模型,专注于提升语音、视觉和语言模态的交互能力
Lyra是由香港中文大学、SmartMore和香港科技大学联合推出的高效多模态大型语言模型,专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型和多模态LoRA模块,减少训练成本和数据需求,支持多种模态理解和推理任务。
116 33
Lyra:SmartMore 联合香港多所高校推出的多模态大型语言模型,专注于提升语音、视觉和语言模态的交互能力
|
1月前
|
机器学习/深度学习 人工智能 达摩院
MVGenMaster:复旦联合阿里等实验室推出的多视图扩散模型
MVGenMaster是由复旦大学、阿里巴巴达摩院和湖潘实验室联合推出的多视图扩散模型,专注于新视角合成(NVS)任务。该模型通过整合3D先验信息,显著提升了NVS的泛化和3D一致性,并能从单一图像生成多达100个新视图。此外,研究团队还推出了包含160万场景的大型多视图图像数据集MvD-1M,以支持模型的训练和优化。
89 27
MVGenMaster:复旦联合阿里等实验室推出的多视图扩散模型
|
1月前
|
人工智能 编解码 虚拟化
See3D:智源研究院开源的无标注视频学习 3D 生成模型
See3D 是智源研究院推出的无标注视频学习 3D 生成模型,能够从大规模无标注的互联网视频中学习 3D 先验,实现从视频中生成 3D 内容。See3D 采用视觉条件技术,支持从文本、单视图和稀疏视图到 3D 的生成,并能进行 3D 编辑与高斯渲染。
106 13
See3D:智源研究院开源的无标注视频学习 3D 生成模型
|
1月前
|
机器学习/深度学习 人工智能
一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入一键生成时代
智源研究院推出OmniGen,一种全新的扩散模型,旨在克服现有图像生成模型的局限性。OmniGen能处理文本到图像、图像编辑等多任务,具备高效、简洁的架构,仅含VAE和预训练Transformer。通过大规模统一数据集X2I训练,OmniGen展现了强大的多任务处理能力和知识转移能力,适用于虚拟试穿、图像修复等多个领域。尽管如此,OmniGen在特定任务上的性能、训练资源需求及可解释性等方面仍面临挑战。
41527 20
|
5月前
|
存储 人工智能 编解码
大模型检索X一键成片,巴黎奥运的AI新演绎
巴黎奥运会,AI上演媒体新科技。
153 10
大模型检索X一键成片,巴黎奥运的AI新演绎
|
7月前
|
自然语言处理 搜索推荐 vr&ar
SIGGRAPH2024:上科大、影眸联合提出DressCode:从文本生成3D服装板片
【6月更文挑战第22天】SIGGRAPH2024见证了上海科技大学与影眸科技合作推出DressCode,这是一个利用文本生成3D服装板片的创新框架。借助SewingGPT(基于GPT模型),DressCode能根据描述创建缝纫图案,结合改良的Stable Diffusion模型产生逼真纹理。通过自然语言交互,设计师可轻松转换概念为3D设计,支持编辑和微调,适用于虚拟试穿等应用场景。尽管面临真实度与个性化挑战,DressCode仍展现了强大的设计潜力。[论文链接:](https://arxiv.org/abs/2401.16465)
153 7
|
算法 自动驾驶 测试技术
华中科大、百度&港大联合出品 | ByteTrackV2: 一种简单且强大的 2D/3D 多目标跟踪框架,横扫多项任务SOTA!
华中科大、百度&港大联合出品 | ByteTrackV2: 一种简单且强大的 2D/3D 多目标跟踪框架,横扫多项任务SOTA!
684 0
华中科大、百度&港大联合出品 | ByteTrackV2: 一种简单且强大的 2D/3D 多目标跟踪框架,横扫多项任务SOTA!
|
人工智能 算法 网络架构
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(1)
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
208 0
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(2)
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
239 0

热门文章

最新文章