SCEdit:轻量级高效可控的AI图像生成微调框架(附魔搭社区训练实践教程)

简介: SCEdit是一个高效的生成式微调框架,由阿里巴巴通义实验室基础视觉智能团队所提出。

以大规模预训练的图像扩散模型为基础,研究人员专注于各种下游任务和应用,包括文生图、可控图像生成和图像编辑等。然而,在大多数定制化场景中,由于受到训练数据和计算资源的限制,完全微调一个基础图像扩散模型往往是低效甚至不切实际的。

SCEdit是一个高效的生成式微调框架,由阿里巴巴通义实验室基础视觉智能团队所提出。该框架支持文生图下游任务的微调能力,实现快速迁移到特定的生成场景中,可相比LoRA节省30%-50%的训练显存开销;进一步地,还可以直接扩展到可控图像生成任务中,仅需ControlNet条件生成7.9%的参数量并节省30%的显存开销,支持边缘图、深度图、分割图、姿态、颜色图、图像补全等条件生成任务。


目前项目已开源,魔搭社区可体验,本文将提供社区训练教程,欢迎各位开发者小伙伴来玩!



SCEdit技术解析

Paper:SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing

arXiv:https://arxiv.org/abs/2312.11392

Project Page:https://scedit.github.io/

Official Repo:https://github.com/ali-vilab/SCEdit




视频链接

https://live.csdn.net/v/357091

图像扩散模型已经被广泛应用于各种任务中,比如文生图、可控图像生成和图像编辑等。最近的研究引入了微调方法,通过对原始模型进行细微的调整,并在基础图像扩散模型的特定应用上取得了不错的结果。尽管如此,许多这类流行的高效微调方法仍然受到因网络扩展导致训练资源消耗大的困扰。


该方法深入研究了扩散模型U-Net中跳跃连接的作用,并揭示了在编码器和解码器之间聚合远距离信息的分层特征对图像生成的内容和质量有着显著的影响。基于这一观察,提出了一个高效的生成微调框架,称为SCEdit (Skip Connection Editing),该框架整合并编辑跳跃连接,并使用了名为SC-Tuner的轻量级微调模块。此外,所提出的框架允许通过可控的SC-Tuner注入不同的条件,直接扩展到可控图像生成任务上,简化并统一了多条件输入的网络设计。 由于采用了轻量级微调器同时反向传播仅经过解码器,SCEdit大幅度降低了训练参数量、内存消耗和计算开销。在文生图和可控图像生成任务上进行的广泛实验证明了我们方法在效率和性能方面的优越性。


图1:SCEdit框架示意图


通过编辑跳跃连接上的中间特征来实现高效的微调,利用 (a) SC-Tuner进行文本到图像生成的微调,进一步可以在 (b) CSC-Tuner 和 (c) 级联稠密卷积的共同作用下实现可控图像合成。


SCEdit可以利用少量可训练参数和较低的内存使用量,实现了对特定数据集的高效微调(图2左上)并支持使用少量样本进行风格等样式的迁移学习(图2右上)。此外,它支持各种条件作为输入以实现高效的可控生成(图2中间),同时单个条件模型可以轻松组合,提供无限的生成可能性(图2底部)。


图2:SCEdit图像生成结果

SCEdit框架能够适应广泛的图像生成任务,并通过将U-Net中的编码器模块解耦,即仅需在解码器中进行反向传播,实现了高效灵活的训练。对于文本到图像生成任务,在COCO2017数据集上的FID得分和质量结果方面优于现有方法,同时在训练阶段减少了52%的内存消耗。同时在可控生成任务上,可以在各种条件输入下实现对生成结果的精准控制,仅需使用ControlNet所需参数的7.9%,并实现了30%的内存使用减少。

图3:文本到图像生成(圆形标记)和可控图像合成(五边形标记)任务的性能和效率比较。标记面积反映了参数量的相对大小。

如需进行快速集成,请参阅SWIFThttps://github.com/modelscope/swift

如需查看完整实现,请参阅SCEPTERhttps://github.com/modelscope/scepter



魔搭社区实践教程

环境配置与安装 


1. python 3.8及以上版本

2. pytorch 1.12及以上版本,推荐2.0及以上版本

3. 建议使用CUDA 11.4及以上

本文主要演示的模型推理代码可在魔搭社区免费实例PAI-DSW的配置下运行(显存24G) :


第一步:点击模型右侧Notebook快速开发按钮,选择GPU环境


第二步:新建Notebook


安装依赖库

pip install ms_swift -U


模型训练

SCEdit的文生图微调训练目前在SWIFT中已经支持。SWIFT是ModelScope提供的LLM&AIGC模型训练和推理框架。


训练代码可参照如下:https://github.com/modelscope/swift/blob/main/examples/pytorch/multi_modal/notebook/text_to_image_synthesis.py


在SWIFT中我们基于 风格迁移数据集https://modelscope.cn/datasets/damo/style_custom_dataset/dataPeview提供的30张3D风格数据进行了训练,并使用相同的`Prompt: A boy in a camouflage jacket with a scarf`进行测试,具体的定性和定量的结果如下:


Method

Bs

Ep

Target 

Module

Param. 

(M)

Mem.

 (MiB)

3D style

LoRA/r=64

1

50

q/k/v/out/mlp

23.94

 (2.20%)

8440

SCEdit/rto=1

1

50

up_blocks

19.68

 (1.81%)

7556

LoRA/r=64

10

100

q/k/v/out/mlp

23.94

 (2.20%)

26300

SCEdit/rto=1

10

100

up_blocks

19.68

 (1.81%)

18634

LoRA/r=64

30

200

q/k/v/out/mlp

23.94

 (2.20%)

69554

SCEdit/rto=1

30

200

up_blocks

19.68

 (1.81%)

43350


点击直达训练实践教程~

https://github.com/modelscope/swift/blob/main/examples/pytorch/multi_modal/notebook/text_to_image_synthesis.py

相关文章
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
DiffSensei:AI 漫画生成框架,能生成内容可控的黑白漫画面板,支持多角色和布局控制
DiffSensei 是一个由北京大学、上海AI实验室及南洋理工大学共同推出的AI漫画生成框架,能够生成可控的黑白漫画面板。该框架整合了基于扩散的图像生成器和多模态大型语言模型(MLLM),支持多角色控制和精确布局控制,适用于漫画创作、个性化内容生成等多个领域。
66 17
DiffSensei:AI 漫画生成框架,能生成内容可控的黑白漫画面板,支持多角色和布局控制
|
4天前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
38 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
9天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
93 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
1天前
|
存储 人工智能 安全
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
|
10天前
|
人工智能 安全 PyTorch
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
SPDL是Meta AI推出的开源高性能AI模型数据加载解决方案,基于多线程技术和异步事件循环,提供高吞吐量、低资源占用的数据加载功能,支持分布式系统和主流AI框架PyTorch。
44 10
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
|
10天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
73 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
12天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
54 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
4天前
|
机器学习/深度学习 人工智能 算法
AI框架的赢者法则:生态繁荣的昇思MindSpore,成为大模型时代的新选择
2024年被视为大模型应用的元年。昇思MindSpore AI框架凭借其强大的开源社区和技术创新,在全球范围内迅速崛起。截至2024年11月,该框架的下载量已超过1100万次,覆盖130多个国家和地区的2400多个城市,拥有3.7万名贡献者。昇思MindSpore不仅在人才培养和社区治理方面表现出色,还在大模型的开发、训练和应用中发挥了关键作用,支持了50多个主流大模型,覆盖15个行业。随着其市场份额预计达到30%,昇思MindSpore正逐步成为行业共识,推动大模型在各领域的广泛应用。
32 12
|
3天前
|
人工智能 计算机视觉
幻觉不一定有害,新框架用AI的幻觉优化图像分割技术
在图像分割领域,传统方法依赖大量手动标注数据,效率低下且难以适应复杂场景。为解决这一问题,研究人员提出了“任务通用可提示分割”方法,利用多模态大型语言模型(MLLM)生成实例特定提示。然而,MLLM常出现幻觉,影响分割精度。为此,研究团队开发了“Prompt-Mask Cycle”(ProMaC)框架,通过迭代生成和验证提示及掩码,有效利用幻觉信息,提高了分割精度和效率。实验结果表明,ProMaC在多个基准数据集上表现出色,为图像分割技术的发展提供了新思路。
14 6
|
2天前
|
机器学习/深度学习 人工智能 算法
【AI系统】AI 框架之争
本文介绍了AI框架在数学上对自动微分的表达和处理,以及其在多线程算子加速、GPU/NPU支持、代码编译优化等方面的技术挑战。文章详细梳理了AI框架的发展历程,从萌芽阶段到深化阶段,探讨了不同阶段的关键技术和代表性框架。同时,文章展望了AI框架的未来趋势,包括全场景支持、易用性提升、大规模分布式支持和科学计算融合。
21 0
下一篇
DataWorks