Kandinsky-3：开源的文本到图像生成框架，适应多种图像生成任务

2024-11-28 577

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Kandinsky-3 是一个开源的文本到图像生成框架，基于潜在扩散模型，能够适应多种图像生成任务。该框架支持高质量和逼真的图像合成，包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等功能。Kandinsky-3 通过简化模型架构，提高了推理速度，同时保持了图像质量。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

生成任务：支持文本到图像、图像修复、图像融合等多种生成任务。
技术架构：基于潜在扩散模型，使用 Flan-UL2 文本编码器和 U-Net 网络。
性能优化：提供简化版本模型，推理速度提高3倍，仅需4步逆向过程。

正文（附运行示例）

Kandinsky-3 是什么

公众号: 蚝油菜花 - Kandinsky-3

Kandinsky-3 是一个基于潜在扩散模型的文本到图像（T2I）生成框架，旨在支持高质量和逼真的图像合成。该框架能够适应多种图像生成任务，包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等。

Kandinsky-3 的显著特点在于其架构的简洁性和高效性。研究者们推出一个简化版本的 T2I 模型，该版本在保持图像质量的同时，将推理速度提高了3倍，仅需4步逆向过程即可完成。

Kandinsky-3 的主要功能

文本到图像生成：根据用户提供的文本提示生成相应的图像。
图像修复（Inpainting/Outpainting）：智能填补图像中缺失或指定区域的内容，与周围视觉内容无缝融合。
图像融合：将多个图像或图像与文本提示融合，创造出新的视觉效果。
文本-图像融合：结合文本描述和图像内容生成新的图像。
图像变化生成：基于原始图像生成风格或内容上的变化。
视频生成：包括图像到视频（I2V）和文本到视频（T2V）的生成。
模型蒸馏：提供简化版本的模型，提高推理速度，同时保持图像质量。

Kandinsky-3 的技术原理

潜在扩散模型：基于潜在扩散模型，在潜在空间中逐步去除噪声生成图像。
文本编码器：使用 Flan-UL2 20B 模型的文本编码器处理用户输入的文本提示，将其转换为被模型理解的潜在表示。
U-Net 网络：U-Net 结构的网络能预测去噪过程中的噪声，逐步构建出清晰的图像。
图像解码器：使用 Sber-MoVQGAN 的图像解码器从潜在表示重建图像。
全局交互：在 U-Net 的早期阶段仅用卷积块处理潜在表示，后期阶段引入变换层，确保图像元素之间的全局交互。

如何运行 Kandinsky-3

以下是一个简单的 Python 代码示例，展示如何使用 Kandinsky-3 进行文本到图像的生成：

import torch
from kandinsky3 import get_T2I_pipeline

device_map = torch.device('cuda:0')
dtype_map = {
   
    'unet': torch.float32,
    'text_encoder': torch.float16,
    'movq': torch.float32,
}

t2i_pipe = get_T2I_pipeline(
    device_map, dtype_map
)

res = t2i_pipe("A cute corgi lives in a house made out of sushi.")

代码解释

导入必要的库：首先导入 torch 和 kandinsky3 库。
设置设备和数据类型：定义设备映射和数据类型映射，确保模型在 GPU 上运行。
获取文本到图像的管道：使用 get_T2I_pipeline 函数获取文本到图像的生成管道。
生成图像：调用 t2i_pipe 函数，传入文本提示，生成相应的图像。

资源

项目官网：https://ai-forever.github.io/Kandinsky-3
GitHub 仓库：https://github.com/ai-forever/Kandinsky-3
HuggingFace 模型库：https://huggingface.co/kandinsky-community/kandinsky-3
arXiv 技术论文：https://arxiv.org/pdf/2410.21061