最近彻底被 AI 画图刷屏了,各种群里都是 gpt-image-2 生成的抖音直播截图,大家也纷纷分享自己生成的图。推特同样疯狂,刷新时间线几乎每次都有新爆款。我常用的社交平台几乎全军覆没。
无处可逃。
我刷了一会儿,脑子里突然闪过一个念头——Nano Banana 刚出现的时候、GPT-4o 原生生图带动的吉卜力风潮,那几天也是一片疯狂,案例满天飞。一波接一波。但 AI 生图究竟是如何一步步发展到今天的,我好像从未系统梳理过。
于是我决定把近几年的生成图模型梳一遍:StyleGAN、DALL·E、Stable Diffusion、Midjourney、Flux、GPT-4o 原生生图、Nano Banana、gpt-image-2。每一代模型的诞生背景、解决的痛点,梳理清楚后再写这篇文章。
我本身学设计出身,画过画,也做过建模,对 AI 生图的变化感受比普通人直接。
01. 从「画不出人脸」到「以假乱真」
AI 生图经历了三个技术阶段,每一阶段都是为了解决上一阶段的局限。
第一阶段:GAN 时代(2014-2021)
生成对抗网络(GAN)原理像两人对练:一个负责造假,一个负责鉴别真假。造假者不断改进,经过数百万次博弈,最终生成的图连鉴定师都辨不出。
这一时期最知名的是 2018 年英伟达的 StyleGAN。网站 thispersondoesnotexist 每刷新一次就生成一张不存在的人脸。GAN 的局限是明显的:它只能画训练过的类型。比如训练人脸,它只能画人脸。想让它画“穿宇航服的柴犬在月球喝咖啡”?不行。能力狭窄,像一个只会肖像画的画师。
第二阶段:Diffusion 时代(2021-2023)
2021 年 DALL·E、2022 年 DALL·E 2 是转折点。
DALL·E 1 可以根据文字生成图像,但画质低、像素小,画风稚嫩。不过它标志着AI 第一次能听懂文字描述画东西。扩散模型(Diffusion Model)原理是反向还原:先给图像加噪成一团杂点,再训练模型学会去噪生成清晰图。训练稳定,画质提升明显。
2022 年 Stable Diffusion 出现,实现了完全开源。任何人用消费级显卡都能生成高质量图像,推动了 ComfyUI、WebUI、ControlNet、LoRA 等生态发展。与此同时,Midjourney 在 Discord 社区走红,输出质量接近摄影级。
第三阶段:原生多模态时代(2023-2026)
扩散模型解决了画质和理解问题,但图像依旧有“AI 感”,文字渲染也不完美。
2023 年 DALL·E 3 集成 ChatGPT,理解能力大幅提升,文字可以准确渲染。
2024 年 Flux 使用 DiT 架构,将扩散模型与 Transformer 结合,文字渲染准确率提升至 88-92%。
真正的质变是 2025 年 GPT-4o 原生生图:文字和图像在同一个模型里生成,无需中间调用,边聊边生成图像,用户体验如同与画师互动。吉卜力风格潮流由此而起。
随后 Google 推出 Nano Banana 系列,重点在角色一致性和多图融合,可以保证同一角色在多场景中保持一致,适合插画、游戏立绘、系列视觉创作。
2026 年 gpt-image-2 增加 Thinking Mode,AI 会先“思考”构图、配色、文字位置再作图,文字准确率高达 99%,极大提高了效率。
总结三个阶段:
GANDiffusion原生多模态画得像画得多、稳、听得懂画得准、画得一致、可对话迭代
02. AI 能替代什么
目前 AI 替代的主要是执行层工作:写作、排版、文案初稿、海报文字、产品描述等。图片生成方面,证件照、修图、写真、详情页配图等标准化任务,AI 已能覆盖 80% 以上。
我个人用 AI 跑教育行业项目,一个月就完成一个全流程项目,实现收入 26,540 元。以前人工无法在短时间完成,现在一个人加一套工作流就能搞定。
可复制经验总结三点:
客户不会用 AI,你帮他交付,这是利润空间。
批量任务价值高,单张生成价值低。
理解行业规则和客户需求的人少,懂得优化输出的人更值钱。
AI 替代的是执行,但思考和决策仍需人类。
03. 工具变了,但需求没变
从毛笔、油画、铅笔、PS 到 AI,每一次工具变革都会引发恐慌,但消失的只是重复劳动,不是创作本身。
AI 已替代标准化、重复性的 80% 任务,剩下的 20% 才是核心价值:思考、判断、审美、创意。
同样一张高质量 AI 图,价值差别取决于使用者的思维与创意。
AI 只是工具,把你的想法放大百倍:想割韭菜,效率更高;想提升行业效率,也能事半功倍。
剩下的 20%,才是最值钱的。