CogView4:智谱开源中文文生图新标杆,中文海报+任意分辨率一键生成

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: CogView4 是智谱推出的开源文生图模型,支持中英双语输入和任意分辨率图像生成,特别优化了中文文字生成能力,适合广告、创意设计等场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎨 "设计师集体破防!开源文生图模型竟把中文玩出花:4K海报秒出+汉字零违和"

大家好,我是蚝油菜花。你是不是也经历过——

  • 👉 用英文提示词反复翻译,生成"火锅"变"hot pot"的诡异logo
  • 👉 做电商海报时,AI总把"折扣"写成火星文
  • 👉 想输出4K大图,显存却秒崩到怀疑人生...

今天开箱的 智谱CogView4 ,堪称中文创意者的外挂大脑!这个登顶DPG-Bench的开源模型,不仅能完美驾驭中文语义:

  • ✅ 汉字如书法:从"佛跳墙"菜谱到"敦煌飞天"都能自然融入画面
  • ✅ 分辨率自由:512x512到4K大图随心切换,显存占用直降50%
  • ✅ 协议真开源:Apache 2.0商用无忧,二次开发不用跪求授权

无论是广告设计、教育插图,还是儿童绘本创作,CogView4 都能轻松应对。接下来,我们将深入探讨它的功能和技术原理。

🚀 快速阅读

CogView4 是智谱推出的开源文生图模型,支持中英双语输入和任意分辨率图像生成。

  1. 核心功能:支持中文文字生成、任意分辨率图像生成、强大的语义对齐能力。
  2. 技术原理:采用扩散模型结合 Transformer 的架构,支持多阶段训练策略和显存优化技术。

CogView4 是什么

CogView4-showcase

CogView4 是智谱推出的开源文生图模型,具有60亿参数,支持原生中文输入和中文文字生成。模型在 DPG-Bench 基准测试中综合评分排名第一,达到开源文生图模型的最先进水平(SOTA)。CogView4 是首个遵循 Apache 2.0 协议的图像生成模型,支持任意分辨率图像生成,能根据复杂文本描述生成高质量图像。

CogView4 特别优化了中文文字生成能力,能够将汉字自然地融入图像中,适合广告、短视频等创意领域。通过模型 CPU 卸载和文本编码器量化等技术,CogView4 显著降低了显存占用,提升了推理效率。

CogView4 的主要功能

  • 支持中英双语输入:CogView4 是首个支持生成汉字的开源文生图模型,能够根据中文或英文提示词生成高质量图像。
  • 任意分辨率图像生成:该模型支持生成分辨率在 512×512 到 2048×2048 之间的图像,满足不同场景的创作需求。
  • 强大的语义对齐能力:在 DPG-Bench 基准测试中,CogView4 综合评分排名第一,展现了其在复杂语义对齐和指令跟随方面的卓越性能。
  • 中文文字绘画:CogView4 特别优化了中文文字生成能力,能够将汉字自然地融入图像中,适合广告、短视频等创意领域。
  • 显存优化与高效推理:通过模型 CPU 卸载和文本编码器量化等技术,CogView4 显著降低了显存占用,提升了推理效率。

CogView4 的技术原理

  • 架构设计:CogView4 采用了扩散模型结合 Transformer 的架构。扩散模型通过逐步去除噪声来生成图像,Transformer 负责处理文本和图像的联合表示。模型使用了 6B 参数的配置,支持任意长度的文本输入和任意分辨率的图像生成。
  • 文本编码器与 Tokenizer:CogView4 使用了双语(中英文)的 GLM-4 编码器,能处理复杂的语义对齐任务。文本通过 Tokenizer 转化为嵌入向量,随后与图像的潜在表示结合。
  • 图像编码与解码:图像通过 Variational Auto-Encoder(VAE)编码为潜在空间的表示,通过扩散模型逐步去噪生成最终图像。使模型能高效地处理图像的生成任务。
  • 扩散过程与去噪:扩散模型的核心是通过一系列的去噪步骤逐步生成图像。CogView4 使用了 FlowMatch Euler Discrete Scheduler 来控制去噪过程,用户可以通过调整去噪步数(num_inference_steps)来平衡生成质量和速度。
  • 多阶段训练策略:CogView4 采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。确保生成图像的高质量和美感。
  • 优化与效率:为了提升训练和推理效率,CogView4 采用了显存优化技术,如模型 CPU 卸载和文本编码器量化。模型支持 Apache 2.0 协议,便于开源社区的进一步开发。

如何运行 CogView4

1. 安装依赖

首先,确保你已经安装了 Python 3.8 或更高版本,并安装了以下依赖:

pip install torch diffusers transformers

2. 运行模型

使用以下代码运行 CogView4 模型:

from diffusers import CogView4Pipeline
import torch

pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16).to("cuda")

# 开启显存优化
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."
image = pipe(
    prompt=prompt,
    guidance_scale=3.5,
    num_images_per_prompt=1,
    num_inference_steps=50,
    width=1024,
    height=1024,
).images[0]

image.save("cogview4.png")

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
7月前
|
机器学习/深度学习 人工智能 编解码
快速生成商业级高清图!SimpleAR:复旦联合字节推出图像生成黑科技,5亿参数秒出高清大图
SimpleAR是复旦大学与字节Seed团队联合研发的自回归图像生成模型,仅用5亿参数即可生成1024×1024分辨率的高质量图像,在GenEval等基准测试中表现优异。
304 4
快速生成商业级高清图!SimpleAR:复旦联合字节推出图像生成黑科技,5亿参数秒出高清大图
|
JSON 数据格式
易语言 精易模块 操作json数据
作者主页:https://www.couragesteak.com/
易语言 精易模块 操作json数据
|
8月前
|
开发者 异构计算
高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!
通义万相Wan2.1开源不到一周,已登顶HuggingFace Model 和 Space 榜双榜首,在HuggingFace和ModelScope平台的累计下载量突破100万次,社区热度持续攀升!为响应小伙伴们对ComfyUI工作流运行Wan2.1的强烈需求,社区开发者整理了实战教程👇
6857 23
高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!
|
8月前
|
编解码 人工智能 测试技术
CogView4开源发布!智谱AI文生图模型支持任意长度双语输入,汉字生成能力突出,可商用!
今天智谱AI正式发布并开源了最新的图像生成模型——CogView4。
668 10
CogView4开源发布!智谱AI文生图模型支持任意长度双语输入,汉字生成能力突出,可商用!
|
8月前
|
人工智能 数据库 决策智能
Archon – 开源 AI 智能体框架,自主生成代码构建 AI 智能体
Archon 是一个开源的 AI 智能体框架,能够自主生成代码并优化智能体性能,支持多智能体协作、领域知识集成和文档爬取等功能,适用于企业、教育、智能家居等多个领域。
795 10
Archon – 开源 AI 智能体框架,自主生成代码构建 AI 智能体
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI 驱动:如何用AI直接生成矢量 Logo? 技术研究与工具选择
AI 技术革新品牌标志设计,通过深度学习分析数据,精准把握市场趋势,智能生成高辨识度 Logo。矢量格式(SVG)确保清晰不失真,适配各类展示场景。AI 工具高效便捷,支持个性化定制,助力品牌快速打造专业视觉形象,成为市场竞争中的有力武器。
294 0
|
8月前
|
数据采集 编解码 缓存
通义万相,开源!
通义万相,开源!
|
8月前
|
机器学习/深度学习 人工智能 并行计算
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型,基于模仿大型语言模型的训练范式,能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式,显著提升了符号音乐生成的艺术性和可控性。
997 15
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
|
8月前
|
人工智能 自然语言处理 搜索推荐
ViDoRAG:开源多模态文档检索框架,多智能体推理+图文理解精准解析文档
ViDoRAG 是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架,基于多智能体协作和动态迭代推理,显著提升复杂视觉文档的检索和生成效率。
548 8
ViDoRAG:开源多模态文档检索框架,多智能体推理+图文理解精准解析文档
|
10月前
|
人工智能 自然语言处理
联通元景:中国联通开源中文原生的文生图模型,优化对中文长文本和成语语义等理解
联通元景(UniT2IXL)是中国联通AI推出的中文原生文生图模型,基于国产昇腾AI平台,优化中文语义理解,支持高质量图像生成。
652 20
联通元景:中国联通开源中文原生的文生图模型,优化对中文长文本和成语语义等理解

热门文章

最新文章