绘梦有形,快手开源「可图 Kolors」,等你来玩

简介: 近期,快手开源了名为Kolors(可图)的文本到图像生成模型,该模型具有对英语和汉语的深刻理解,并能够生成高质量、逼真的图像。

引言

近期,快手开源了名为Kolors(可图)的文本到图像生成模型,该模型具有对英语和汉语的深刻理解,并能够生成高质量、逼真的图像。技术报告中也提了几个重要的工作内容:

首先,Kolors基于通用语言模型(ChatGLM),而不是像Imagen和Stable Diffusion 3基于大语言模型T5,这增强了其对英语和汉语的理解能力,并利用多模态大型语言模型CogVLM重新为训练数据集中的图像生成更详细的描述;

其次,Kolors训练分为两个阶段,即概念学习阶段和质量改进阶段,并使用特定的数据集进行训练以提高视觉吸引力,通过引入高质量的数据和优化高分辨率训练技术来改善图像质量;

最后,Kolors团队提出了一种平衡类别的基准数据集KolorsPrompts,用于指导Kolors的训练和评估。

实验结果表明,即使使用U-Net backbone,可图Kolors也表现出色,在人类评价中超越了现有的开源模型,性能达到了Midjourney-v6水平。Kolors代码和权重已经开源!

image.gif

代码开源链接:https://github.com/Kwai-Kolors/Kolors

模型开源链接:https://modelscope.cn/models/Kwai-Kolors/Kolors

技术报告链接:https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf

下载和体验可图

模型链接直达:

https://modelscope.cn/models/Kwai-Kolors/Kolors?from=alizishequ__text

下载方式:

sdk下载:

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('Kwai-Kolors/Kolors')

image.gif

git下载

git clone https://www.modelscope.cn/Kwai-Kolors/Kolors.git

image.gif

CLI下载

modelscope download --model=Kwai-Kolors/Kolors --local_dir ./Kolors/

image.gif

最佳实践

参考开源项目:https://github.com/kijai/ComfyUI-KwaiKolorsWrapper,我们在魔搭社区免费GPU算力上,完成了Kolors的ComfyUI环境搭建和体验实践。

体验环境

使用魔搭社区的Notebook运行Kolors可图模型:

image.gif image.gif

搭建 ComfyUI

从最新的ComfyUI的代码安装

# #@title Environment Setup
from pathlib import Path
OPTIONS = {}
UPDATE_COMFY_UI = True  #@param {type:"boolean"}
INSTALL_COMFYUI_MANAGER = True  #@param {type:"boolean"}
INSTALL_KOLORS = True  #@param {type:"boolean"}
INSTALL_CUSTOM_NODES_DEPENDENCIES = True  #@param {type:"boolean"}
OPTIONS['UPDATE_COMFY_UI'] = UPDATE_COMFY_UI
OPTIONS['INSTALL_COMFYUI_MANAGER'] = INSTALL_COMFYUI_MANAGER
OPTIONS['INSTALL_KOLORS'] = INSTALL_KOLORS
OPTIONS['INSTALL_CUSTOM_NODES_DEPENDENCIES'] = INSTALL_CUSTOM_NODES_DEPENDENCIES
current_dir = !pwd
WORKSPACE = f"{current_dir[0]}/ComfyUI"
%cd /mnt/workspace/
![ ! -d $WORKSPACE ] && echo -= Initial setup ComfyUI =- && git clone https://github.com/comfyanonymous/ComfyUI
%cd $WORKSPACE
if OPTIONS['UPDATE_COMFY_UI']:
  !echo "-= Updating ComfyUI =-"
  !git pull
if OPTIONS['INSTALL_COMFYUI_MANAGER']:
  %cd custom_nodes
  ![ ! -d ComfyUI-Manager ] && echo -= Initial setup ComfyUI-Manager =- && git clone https://github.com/ltdrdata/ComfyUI-Manager
  %cd ComfyUI-Manager
  !git pull
if OPTIONS['INSTALL_KOLORS']:
  %cd ../
  ![ ! -d ComfyUI-KwaiKolorsWrapper ] && echo -= Initial setup KOLORS =- && git clone https://github.com/kijai/ComfyUI-KwaiKolorsWrapper.git
  %cd ComfyUI-KwaiKolorsWrapper
  !git pull
%cd $WORKSPACE
if OPTIONS['INSTALL_CUSTOM_NODES_DEPENDENCIES']:
  !pwd
  !echo "-= Install custom nodes dependencies =-"
  ![ -f "custom_nodes/ComfyUI-Manager/scripts/colab-dependencies.py" ] && python "custom_nodes/ComfyUI-Manager/scripts/colab-dependencies.py"

image.gif

下载模型权重

#@markdown ###Download standard resources
OPTIONS = {}
#@markdown **unet**
!wget -c "https://modelscope.cn/models/Kwai-Kolors/Kolors/resolve/master/unet/diffusion_pytorch_model.fp16.safetensors" -P ./models/diffusers/Kolors/unet/
!wget -c "https://modelscope.cn/models/Kwai-Kolors/Kolors/resolve/master/unet/config.json" -P ./models/diffusers/Kolors/unet/
#@markdown **encoder**
!modelscope download --model=ZhipuAI/chatglm3-6b-base --local_dir ./models/diffusers/Kolors/text_encoder/
#@markdown **vae**
!wget -c "https://modelscope.cn/models/AI-ModelScope/sdxl-vae-fp16-fix/resolve/master/sdxl.vae.safetensors" -P ./models/vae/ #sdxl-vae-fp16-fix.safetensors
#@markdown **scheduler**
!wget -c "https://modelscope.cn/models/Kwai-Kolors/Kolors/resolve/master/scheduler/scheduler_config.json" -P ./models/diffusers/Kolors/scheduler/
#@markdown **modelindex**
!wget -c "https://modelscope.cn/models/Kwai-Kolors/Kolors/resolve/master/model_index.json" -P ./models/diffusers/Kolors/

image.gif

通过cloudflareg启动ComfyUI

!wget "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/cloudflared-linux-amd64.deb"
!dpkg -i cloudflared-linux-amd64.deb
%cd /mnt/workspace/ComfyUI
import subprocess
import threading
import time
import socket
import urllib.request
def iframe_thread(port):
  while True:
      time.sleep(0.5)
      sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
      result = sock.connect_ex(('127.0.0.1', port))
      if result == 0:
        break
      sock.close()
  print("\nComfyUI finished loading, trying to launch cloudflared (if it gets stuck here cloudflared is having issues)\n")
  p = subprocess.Popen(["cloudflared", "tunnel", "--url", "http://127.0.0.1:{}".format(port)], stdout=subprocess.PIPE, stderr=subprocess.PIPE)
  for line in p.stderr:
    l = line.decode()
    if "trycloudflare.com " in l:
      print("This is the URL to access ComfyUI:", l[l.find("http"):], end='')
    #print(l, end='')
threading.Thread(target=iframe_thread, daemon=True, args=(8188,)).start()
!python main.py --dont-print-server

image.gif

点击右侧 load,加载ComfyUI-KwaiKolorsWrapper项目提供的 workflow

文生图体验:

image.gif image.gif

图生图体验(一辆白色小汽车):

image.gif image.gif

显存占用:

image.gif

效果测试

简单 Prompt

image.gif

 

复杂 Prompt
image.gif

多实体生成能力很能打,颜色能做到分别控制,空间关系也比较完美

多风格

image.gif

多风格,强!

文本

image.gif

可以处理简单的文本

多样性

image.gif

多样性还不错

性能测试

1024 分辨率,A10,生成一张图片(25步)耗时7秒。

 

后续魔搭社区将继续探索可图模型,并推出微调教程,请期待哦!

相关文章
|
5月前
|
消息中间件 人工智能 Java
活动回顾丨云原生开源开发者沙龙上海站回放 & PPT 下载
8 月 2 日,云原生开源开发者沙龙 AI 原生应用架构专场在上海举办,现场围绕 AI 应用开发和 Agent 编排、API 网关、可观测、智能编程、消息队列等视角分享了我们的开源成果和进展,以及落地实践。以下为分享回顾。
243 27
|
6月前
|
Web App开发 Shell Python
重磅来袭!MoneyPrinterPlus一键发布短视频到视频号,抖音,快手,小红书上线了
一键发布短视频到视频号,抖音,快手,小红书,MoneyPrinterPlus解放你的双手。
重磅来袭!MoneyPrinterPlus一键发布短视频到视频号,抖音,快手,小红书上线了
|
SQL 弹性计算 分布式计算
阿里云开源大数据平台E-MapReduce 产品新动态及开源大数据前沿技术分享 2023-2月刊
开源大数据平台 EMR 产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。
10250 8
阿里云开源大数据平台E-MapReduce 产品新动态及开源大数据前沿技术分享 2023-2月刊
|
人工智能 大数据 云栖大会
|
人工智能 算法 安全
快手做云,加快To B
8月10日,推出视频云服务品牌StreamLake、自研SoC芯片SL200以及发布视频AI三类解决方案,正式进军B端市场。
262 0
|
传感器 人工智能 Oracle
云+社区技术沙龙丨解析腾讯最新开源项目背后的技术栈
云+社区技术沙龙丨解析腾讯最新开源项目背后的技术栈
云+社区技术沙龙丨解析腾讯最新开源项目背后的技术栈
|
存储 消息中间件 机器学习/深度学习
Flink 在爱奇艺广告业务的实践
5 月 22 日北京站 Flink Meetup 分享的议题。
Flink 在爱奇艺广告业务的实践
|
SQL 小程序 JavaScript
美团 5 大最受欢迎的开源项目,牛批!
美团 5 大最受欢迎的开源项目,牛批!
609 0
|
存储 消息中间件 分布式计算
快手大数据架构演进实录,真的不一般
快手大数据架构演进实录,真的不一般
649 0
|
流计算 SQL 消息中间件
趣头条基于 Flink 的实时平台建设实践
本文由趣头条实时平台负责人席建刚分享趣头条实时平台的建设,整理者叶里君。文章将从平台的架构、Flink 现状,Flink 应用以及未来计划四部分分享。
趣头条基于 Flink 的实时平台建设实践