❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦
🎨 "设计师集体破防!开源文生图模型竟把中文玩出花:4K海报秒出+汉字零违和"
大家好,我是蚝油菜花。你是不是也经历过——
- 👉 用英文提示词反复翻译,生成"火锅"变"hot pot"的诡异logo
- 👉 做电商海报时,AI总把"折扣"写成火星文
- 👉 想输出4K大图,显存却秒崩到怀疑人生...
今天开箱的 智谱CogView4 ,堪称中文创意者的外挂大脑!这个登顶DPG-Bench的开源模型,不仅能完美驾驭中文语义:
- ✅ 汉字如书法:从"佛跳墙"菜谱到"敦煌飞天"都能自然融入画面
- ✅ 分辨率自由:512x512到4K大图随心切换,显存占用直降50%
- ✅ 协议真开源:Apache 2.0商用无忧,二次开发不用跪求授权
无论是广告设计、教育插图,还是儿童绘本创作,CogView4 都能轻松应对。接下来,我们将深入探讨它的功能和技术原理。
🚀 快速阅读
CogView4 是智谱推出的开源文生图模型,支持中英双语输入和任意分辨率图像生成。
- 核心功能:支持中文文字生成、任意分辨率图像生成、强大的语义对齐能力。
- 技术原理:采用扩散模型结合 Transformer 的架构,支持多阶段训练策略和显存优化技术。
CogView4 是什么

CogView4 是智谱推出的开源文生图模型,具有60亿参数,支持原生中文输入和中文文字生成。模型在 DPG-Bench 基准测试中综合评分排名第一,达到开源文生图模型的最先进水平(SOTA)。CogView4 是首个遵循 Apache 2.0 协议的图像生成模型,支持任意分辨率图像生成,能根据复杂文本描述生成高质量图像。
CogView4 特别优化了中文文字生成能力,能够将汉字自然地融入图像中,适合广告、短视频等创意领域。通过模型 CPU 卸载和文本编码器量化等技术,CogView4 显著降低了显存占用,提升了推理效率。
CogView4 的主要功能
- 支持中英双语输入:CogView4 是首个支持生成汉字的开源文生图模型,能够根据中文或英文提示词生成高质量图像。
- 任意分辨率图像生成:该模型支持生成分辨率在 512×512 到 2048×2048 之间的图像,满足不同场景的创作需求。
- 强大的语义对齐能力:在 DPG-Bench 基准测试中,CogView4 综合评分排名第一,展现了其在复杂语义对齐和指令跟随方面的卓越性能。
- 中文文字绘画:CogView4 特别优化了中文文字生成能力,能够将汉字自然地融入图像中,适合广告、短视频等创意领域。
- 显存优化与高效推理:通过模型 CPU 卸载和文本编码器量化等技术,CogView4 显著降低了显存占用,提升了推理效率。
CogView4 的技术原理
- 架构设计:CogView4 采用了扩散模型结合 Transformer 的架构。扩散模型通过逐步去除噪声来生成图像,Transformer 负责处理文本和图像的联合表示。模型使用了 6B 参数的配置,支持任意长度的文本输入和任意分辨率的图像生成。
- 文本编码器与 Tokenizer:CogView4 使用了双语(中英文)的 GLM-4 编码器,能处理复杂的语义对齐任务。文本通过 Tokenizer 转化为嵌入向量,随后与图像的潜在表示结合。
- 图像编码与解码:图像通过 Variational Auto-Encoder(VAE)编码为潜在空间的表示,通过扩散模型逐步去噪生成最终图像。使模型能高效地处理图像的生成任务。
- 扩散过程与去噪:扩散模型的核心是通过一系列的去噪步骤逐步生成图像。CogView4 使用了 FlowMatch Euler Discrete Scheduler 来控制去噪过程,用户可以通过调整去噪步数(num_inference_steps)来平衡生成质量和速度。
- 多阶段训练策略:CogView4 采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。确保生成图像的高质量和美感。
- 优化与效率:为了提升训练和推理效率,CogView4 采用了显存优化技术,如模型 CPU 卸载和文本编码器量化。模型支持 Apache 2.0 协议,便于开源社区的进一步开发。
如何运行 CogView4
1. 安装依赖
首先,确保你已经安装了 Python 3.8 或更高版本,并安装了以下依赖:
pip install torch diffusers transformers
2. 运行模型
使用以下代码运行 CogView4 模型:
from diffusers import CogView4Pipeline
import torch
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16).to("cuda")
# 开启显存优化
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."
image = pipe(
prompt=prompt,
guidance_scale=3.5,
num_images_per_prompt=1,
num_inference_steps=50,
width=1024,
height=1024,
).images[0]
image.save("cogview4.png")
资源
- GitHub 仓库:https://github.com/THUDM/CogView4
- HuggingFace 仓库:https://huggingface.co/THUDM/CogView4-6B
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦