当 AI 邂逅绘画艺术,能迸发出怎样的火花?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 2021年初,OpenAI 团队发布了能够根据文本描述生成图像的 DALL-E 模型。由于其强大的跨模态图像生成能力,引起自然语言和视觉圈技术爱好者的强烈追捧。仅仅一年多的时间,多模态图像生成技术如雨后春笋般开始涌现。本文从技术兴趣出发,对多模态图像生成技术与经典工作进行介绍,最后探索如何使用多模态图像生成进行神奇的 AI 绘画艺术创作。

image.png

作者 | 心诚 煁光
来源 | 阿里开发者公众号

前言

什么是 AI?在你的脑海中可能浮现由一个个神经元堆叠起来的神经网络。那什么是绘画艺术?是达芬奇的《蒙娜丽莎的微笑》,是梵高的《星空夜》、《向日葵》,还是约翰内斯·维米尔的《戴珍珠耳环的少女》?当 AI 遇上绘画艺术,它们之间能擦出什么样的火花呢?

2021年初,OpenAI 团队发布了能够根据文本描述生成图像的 DALL-E 模型。由于其强大的跨模态图像生成能力,引起自然语言和视觉圈技术爱好者的强烈追捧。仅仅一年多的时间,多模态图像生成技术如雨后春笋般开始涌现,期间也诞生了许多利用这些技术进行 AI 艺术创作的应用,比如最近火得一塌糊涂的 Disco Diffusion。如今,这些应用正逐渐走进艺术创作者和普通大众的视野,成为了很多人口中的“神笔马良”。

本文从技术兴趣出发,对多模态图像生成技术与经典工作进行介绍,最后探索如何使用多模态图像生成进行神奇的 AI 绘画艺术创作。

image.png

笔者使用 Disco Diffusion 创作的 AI 绘画艺术作品


多模态图像生成概念

多模态图像生成(Multi-Modal Image Generation)旨在利用文本、音频等模态信息作为指导条件,生成具有自然纹理的逼真图像。不像传统的根据噪声生成图像的单模态生成技术,多模态图像生成一直以来就是一件很有挑战的任务,要解决的问题主要包括:

(1)如何跨越“语义鸿沟”,打破各模态之间固有的隔阂?

(2)如何生成合乎逻辑的,多样性的,且高分辨率的图像?

近两年,随着 Transformer 在自然语言处理(如 GPT)、计算机视觉(如 ViT)、多模态预训练(如 CLIP)等领域的成功应用,以及以 VAE、GAN 为代表的图像生成技术有逐渐被后起之秀——扩散模型(Diffusion Model)赶超之势,多模态图像生成的发展一发不可收拾。


多模态图像生成技术与经典工作

分类

按照训练方式采用的是 Transformer 自回归还是扩散模型的方式,近两年多模态图像生成重点工作分类如下:

image.png

Transformer 自回归

采取 Transformer 自回归方式的做法往往将文本和图像分别转化成 tokens 序列,然后利用生成式的 Transformer 架构从文本序列(和可选图像序列)中预测图像序列,最后使用图像生成技术(VAE、GAN等)对图像序列进行解码,得到最终生成图像。以 DALL-E (OpenAI)[1] 为例:

image.png

图像和文本通过各自编码器转化成序列,拼接到一起送入到 Transformer(这里用的是 GPT3)进行自回归序列生成。在推理阶段,使用预训练好的 CLIP 计算文本与生成图像的相似度,进行排序后得到最终生成图像的输出。与 DALL-E 类似,清华的 CogView 系列 [2, 3] 与百度的 ERNIE-ViLG [4] 同样使用 VQ-VAE + Transformer 的架构设计,谷歌的 Parti [5] 则将图像编解码器换成了 ViT-VQGAN。而微软的 NUWA-Infinity [6] 使用自回归方式可以做到无限视觉生成。

扩散模型

扩散模型(Diffusion Model)是一种图像生成技术,最近一年发展迅速,被喻为 GAN 的终结者。如图所示,扩散模型分为两阶段:(1)加噪:沿着扩散的马尔可夫链过程,逐渐向图像中添加随机噪声;(2)去噪:学习逆扩散过程恢复图像。常见变体有去噪扩散概率模型(DDPM)等。

image.png

采取扩散模型方式的多模态图像生成做法,主要是通过带条件引导的扩散模型学习文本特征到图像特征的映射,并对图像特征进行解码得到最终生成图像。以 DALL-E-2(OpenAI)[7] 举例,其虽然是 DALL-E 的续作,但是采取的技术路线与 DALL-E 截然不同,其原理更像是 GLIDE [8](有人称 GLIDE 为 DALL-E-1.5)。DALL-E-2 的整体架构如图所示:

image.png

DALL-E-2 使用 CLIP 对文本进行编码,并使用扩散模型学习一个先验(prior)过程,得到文本特征到图像特征的一个映射;最后学习一个反转 CLIP 的过程,将图像特征解码成最终的图像。相比于 DALL-E-2,谷歌的 Imagen [9] 则使用预训练好的 T5-XXL 来取代 CLIP 进行文本编码,然后使用超分扩散模型(U-Net 架构)增大图像尺寸,得到 1024✖️1024 高清的生成图像。

小结

自回归 Transformer 的引入与 CLIP 对比学习的方式,建立了文本和图像之间的桥梁;同时基于带条件引导的扩散模型,为生成多样性且高分辨率的图像奠定了基础。然而,评估图像生成质量往往带有主观因素,因此在这里比较 Transformer 自回归还是扩散模型的技术谁更胜一筹是一件困难的事情。并且像 DALL-E 系列、Imagen 以及 Parti 等模型在大规模数据集上训练,使用会存在伦理问题以及社会偏见,因此这些模型尚未开源。但是还是有很多爱好者在尝试使用其中的技术,期间也产生了很多可玩的应用。


AI 艺术创作

多模态图像生成技术的发展,为 AI 艺术创作提供了更多的可能。目前,被广泛使用的 AI 创作应用及工具包括 CLIPDraw,VQGAN-CLIP,Disco Diffusion,DALL-E Mini,Midjourney(需被邀请资格),DALL-E-2(需内测资格),Dream By Wombo(App),Meta ”Make-A-Scene”,Tiktok “AI 绿幕” 功能,Stable Diffusion [10],百度“一格”等。本文主要利用在艺术创作圈火爆的 Disco Diffusion 进行 AI 艺术创作。
Disco Diffusion 简介

Disco Diffusion [11] 是一个在 Github 上由众多技术爱好者共同维护的 AI 艺术创作应用,目前已经迭代了多个版本。从 Disco Diffusion 的名字不难看出,其采用的技术主要是用 CLIP 引导的扩散模型。Disco Diffusion 可以根据指定的文本描述(和可选底图)来生成艺术图像或视频。比如输入“花海”,模型就会随机产生一张噪声图像,通过 Diffusion 的去噪扩散过程一步步迭代,达到一定步数后就能渲染出一张美丽的图像。得益于扩散模型多样化的生成方式,每次运行程序都会得到不同的图像,这种“开盲盒”的体验着实让人着迷。

Disco Diffsion 存在问题

基于多模态图像生成模型 Disco Diffusion(DD)进行 AI 创作目前存在以下几个问题:

(1)生成图像质量参差不齐:根据生成任务的难易程度,粗略估算描述内容较难的生成任务良品率 20%~30%,描述内容较容易的生成任务良品率 60%~70%,大多数任务良品率在 30~40% 之间。

(2)生成速度较慢+内存消耗较大:以迭代 250 steps 生成一张 1280*768 图像为例,需要大约花费 6分钟,以及使用 V100 16G 显存。

(3)严重依赖专家经验:选取一组合适的描述词需要经过大量文本内容试错及权重设置、画家画风及艺术社区的了解以及文本修饰词的选取等;调整参数需要对 DD 包含的 CLIP 引导次数/饱和度/对比度/噪点/切割次数/内外切/梯度大小/对称/... 等概念深刻了解,同时要有一定的美术功底。众多的参数也意味着需要较强的专家经验才能获得一张还不错的生成图像。

技能储备

针对上述问题,我们做了一些数据与技术储备,同时 YY 了一些未来可能的应用。如下图所示:

image.png

  • 针对第一个问题,我们从艺术创作社区爬取了近 2w 张 AI 生成的艺术作品,从生成图像的基础属性以及内容合理性进行三分类打标:质量好/质量一般/质量差,训练一个艺术作品质量评估模型。该模型能自动评估 AI 生成图像的质量并挑选出良品率高的图像,解决手动挑选高质量图像效率低的问题。
  • 针对第二个问题,我们通过减少迭代次数+生成小尺寸图像,然后利用超分辨率算法 ESRGAN 进行高分辨率图像重建的方式,来提高 DD 的生成效率。该方法能达到与 DD 正常迭代生成的图像效果,生成效率与显存优化至少提升了一倍。
  • 针对第三个问题,我们沉淀了一套底图预处理逻辑,包括色温色调调整/前背景调色/添加噪点等,能快速应用不同底图生成任务;同时,我们也积累了海量的文本提示词,进行了大量的 DD 调参试错,依赖专家经验生成个性化、多样化的高质量图像。

利用这些数据与技术储备,我们已经积累了手机/电脑壁纸、艺术姓/名、地标城市风格化、数字藏品等多模态图像生成应用方式。下面我们将展示具体的 AI 生成艺术作品。

AI 艺术作品

城市地标建筑风格化

通过输入文本描述与地标城市底图,生成不同风格的画作(动漫风格 / 赛博朋克风格 / 像素画风格):

(1) A building with anime style, by makoto shinkai and beeple, Trending on artstation.

(2) A building with cyberpunk style, by Gregory Grewdson, Trending on artstation.

(3) A building with pixel style, by Stefan Bogdanovi, Trending on artstation.

image.png
image.png

数字藏品

通过输入文本描述与底图,在底图上进行创作。
蚂蚁 Logo 系列(蚂蚁森林 / 蚂蚁小屋 / 蚂蚁飞船):
(1) A landscape with vegetation and lake, by RAHDS and beeple, Trending on artstation.
(2) Enchanted cottage on the edge of a cliff foreboding ominous fantasy landscape, by RAHDS and beeple, Trending on artstation.
(3) A spacecraft by RAHDS and beeple, Trending on artstation.

image.png

蚂蚁小鸡系列(小鸡之变形金刚 / 小鸡之海绵宝宝):

(1) Transformers with machine armor, by Alex Milne, Trending on artstation.

(2) Spongebob by RAHDS and beeple, Trending on artstation.

image.png

手机/电脑壁纸

通过输入文本描述,生成手机壁纸:

(1) The esoteric dreamscape by Dan Luvisi, trending on Artstation, matte painting vast landscape.

(2) Scattered terraces, winter, snow, by Makoto Shinka, trending on Artstation, 4k wallpaper.

(3) A beautiful cloudpunk painting of Atlantis arising from the abyss heralded by steampunk whales by Pixar rococo style, Artstation, volumetric lighting.

image.png

(4~8) A scenic view of the planets rotating through chantilly cream by Ernst Haeckel and Pixar trending on Artstation, 4k wallpaper.

image.png

通过输入文本描述,生成电脑壁纸:

(1) Fine, beautiful country fields, super wide angle, overlooking, morning by Makoto Shinkai.

(2) A beautiful painting of a starry night, shining its light across a sunflower sea by James Gurney, Trending on artstation.

(3) Fairy tale steam country by greg rutkowski and thomas kinkade Trending on artstation.

(4) A beautiful render of a magical building in a dreamy landscape by daniel merriam, soft lighting, 4k hd wallpaper, Trending on artstation and behance.

image.png

AI 艺术姓

通过输入文本描述与姓氏底图,生成不同风格的艺术姓:

(1) Large-scale military factories, mech testing machines, Semi-finished mechs, engineering vehicles, automation management, indicators, future, sci-fi, light effect, high-definition picture.

(2) A beautiful painting of mashroom, tree, artstation, Artstation, 4k hd wallpaper.

(3) A beautiful painting of sunflowers, fog, unreal engine, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Artstation, Andreas Rocha, Greg Rutkowski.

(4) A beautiful painting of the pavilion on the water presents a reflection, by John Howe, Albert Bierstadt, Alena Aenami, and dan mumford concept art wallpaper 4k, trending on artstation, concept art, cinematic, unreal engine, trending on behance.

(5) A beautiful landscape of a lush jungle with exotic plants and trees, by John Howe, Albert Bierstadt, Alena Aenami, and dan mumford concept art wallpaper 4k, trending on artstation, concept art, cinematic, unreal engine, trending on behance.

(6) Contra Force, Red fortress, spacecraft, by Ernst Haeckel and Pixar, wallpaper hd 4k, trending on artstation.

image.png

其他 AI 艺术创作应用

Stable Diffusion [10, 12] 展现了比 Disco Diffusion [11] 更加高效且稳定的创作能力,尤其是在“物”的刻画上更加突出。下图是笔者利用 Stable Diffusion,根据文本创作的 AI 绘画作品:

image.png

总结展望

本文主要介绍了近两年来多模态图像生成技术及相关的进展工作,并尝试使用多模态图像生成进行多种 AI 艺术创作。接下来,我们还将探索多模态图像生成技术在消费级 CPU 上运行的可能性,以及结合业务为 AI 智能创作赋能,并尝试更多如电影、动漫主题封面,游戏,元宇宙内容创作等更多相关应用。

使用多模态图像生成技术进行艺术创作只是 AI 自主生产内容(AIGC,AI generated content)的一种应用方式。得益于当前海量数据与预训练大模型的发展,AIGC 能够加速落地,为人类提供更多优质内容。或许,通用人工智能又迈进了一小步?

如果你对本文涉及到的技术或者应用感兴趣,欢迎共创交流。

参考文献

[1] Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation[C]//International Conference on Machine Learning. PMLR, 2021: 8821-8831.

[2] Ding M, Yang Z, Hong W, et al. Cogview: Mastering text-to-image generation via transformers[J]. Advances in Neural Information Processing Systems, 2021, 34: 19822-19835.

[3] Ding M, Zheng W, Hong W, et al. CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers[J]. arXiv preprint arXiv:2204.14217, 2022.

[4] Zhang H, Yin W, Fang Y, et al. ERNIE-ViLG: Unified generative pre-training for bidirectional vision-language generation[J]. arXiv preprint arXiv:2112.15283, 2021.

[5] Yu J, Xu Y, Koh J Y, et al. Scaling Autoregressive Models for Content-Rich Text-to-Image Generation[J]. arXiv preprint arXiv:2206.10789, 2022.

[6] Wu C, Liang J, Hu X, et al. NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis[J]. arXiv preprint arXiv:2207.09814, 2022.

[7] Ramesh A, Dhariwal P, Nichol A, et al. Hierarchical text-conditional image generation with clip latents[J]. arXiv preprint arXiv:2204.06125, 2022.

[8] Nichol A, Dhariwal P, Ramesh A, et al. Glide: Towards photorealistic image generation and editing with text-guided diffusion models[J]. arXiv preprint arXiv:2112.10741, 2021.

[9] Saharia C, Chan W, Saxena S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding[J]. arXiv preprint arXiv:2205.11487, 2022.

[10] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.

大数据&AI实战派 第1期

《大数据&AI实战派》系列电子书由阿里云开发者社区与阿里灵杰共同打造,覆盖数据计算、数据分析、数据湖/湖仓一体、机器学习等多个领域,解读各技术领域基础原理,剖析行业实践案例。电子书第1期以《阿里云大数据知识图谱》为核心,通过阿里云大数据&AI产品能力介绍结合操作实践,培养大数据开发者从“生产-采集-存储-分析-开发-治理-价值体现”的技术能力。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
人工智能 Windows Python
Windows下体验Stable Diffusion 近距离感受AI魔法绘画
Windows下体验Stable Diffusion 近距离感受AI魔法绘画
122 2
|
9月前
|
人工智能 弹性计算 Serverless
基于函数计算FC3.0 部署AI数字绘画stable-diffusion自定义模型
基于函数计算FC3.0 部署AI数字绘画stable-diffusion自定义模型
|
13天前
|
人工智能 计算机视觉 Python
AI计算机视觉笔记八:基于mediapipe的虚拟绘画
该项目利用MediaPipe手部关键点识别技术,实现了隔空绘画功能。用户可以通过手势控制绘画工具,选择颜色或橡皮擦。环境配置基于`mediapipe_env`,在PyCharm中运行。项目包括两个文件:`AiVirtualPainter.py`负责绘画逻辑,`HandTrackingModule.py`用于手部关键点检测。此项目展示了AI技术在互动应用中的潜力,适合初学者实践与学习。
35 10
|
2月前
|
机器学习/深度学习 人工智能 算法
解决方案评测:通义万相 AI 绘画创作
通义万相 AI 绘画创作工具在功能、使用体验等方面表现出色,为用户提供了一种便捷、高效的绘画创作方式。虽然存在一些不足之处,但随着技术的不断发展和优化,相信其性能和表现会不断提升。对于艺术家、设计师、创意工作者以及普通爱好者来说,通义万相都是一款值得尝试和探索的 AI 绘画工具。
251 4
解决方案评测:通义万相 AI 绘画创作
|
2月前
|
人工智能 弹性计算 自然语言处理
通义万相AI创作绘画产品方案产品体验
本次我有幸接触并体验了阿里云通义万相这一创新的AI绘画工具方案。该方案它是在利用人工智能技术,为用户提供创新、便捷的绘画创作体验。在体验过程中,我主要关注了产品的易用性、功能性、创新性、用户体验及方案本身等方面。
124 3
|
2月前
|
弹性计算 人工智能 对象存储
来自通义万相的创意加速器:AI 绘画创作
【7月更文挑战第11天】来自通义万相的创意加速器:AI 绘画创作
|
3月前
|
人工智能 算法
AIGC创作活动 | 智"绘"AI,使用PAI创造风格百变绘画助手
使用阿里云人工智能平台PAIx Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理,实现文本驱动的图像编辑功能单卡即可完成AIGC图片风格变化、背景变化和主体变化等功能。让我们一同开启这场旅程,为您的图像编辑添上无限可能性的翅膀吧。
|
4月前
|
机器学习/深度学习 人工智能 TensorFlow
Python AI 绘画
Python AI 绘画
115 1
|
3月前
|
人工智能 开发工具 git
Python AI 绘画
Python AI 绘画
|
4月前
|
人工智能 Serverless API
AI 绘画平台难开发,难变现?试试 Stable Diffusion API Serverless 版解决方案
AI 绘画平台难开发,难变现?试试 Stable Diffusion API Serverless 版解决方案
10220 132

热门文章

最新文章