DALLE · 2 模型的图像生成

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: DALLE-2模型的图像生成,让一批设计师下岗了。

OpenAI公司,为致敬《WALL-E》以及超现实主义画派达利,推出了新型人工智能模型 DALL-E。

与WALL-E不同的是,这个人工智能不是用来清扫垃圾的,而是用来画画的。并且画风也不局限于达利画派的超现实主义。

这个模型用起来很简单,你只需要把你想要的图像用文字描述出来,输入到模型里,它就会根据你的描述,输出对应的图像。

怎么样,像不像是一个机器设计师?

你告诉它,喂,给我画一张狗狗在湖边玩耍的图片。

于是,它给了你两张。

image.png

(DALL-E 2 生成:一只狗狗在湖边玩耍)

DALL-E 推出一年之后,DALL-E 就升级到 DALL-E-2。

从此,开启了吊打人类平面设计师的旅程。

文本与图像的结合

一直以来,文本和图像都是人工智能研究的宠儿。

图片的数据是规则的,有着长和宽的参数,以及RGB三个色彩通道,即使最原始的全连接神经网络,在处理图片上的结果也不错,更别提大放异彩的卷积神经网络(CNN)。

文本的数据是变化的,有着不定长度的特点,就像一句话,一个单词,一个排比句。但是随着循环神经网络(RNN)、长短时记忆网络(LSTM)以及注意力机制(attention)等算法的深入,文本的处理也变得简洁高效,并且识别越来越高。

但是,在一个AI模型中,既需要处理文本,又需要处理图像,却不多见。

更别说将文本作为输入,图像作为输出了,而 DALL-E 就是这种。

简单来说。

DALL-E 是在训练阶段将文本和图像同时编码到一个数据空间。

在推理阶段,也就是图像生成阶段,模型从这个数据空间中,根据输入的文本信息,得到对应的图像信息,然后解码进行输出。
image.png

这种融合了文本与图像数据的编码空间,可以很轻松愉悦的完成文本描述到图像生成之间的衔接。

那么,模型的效果怎么样呢?

不看广告看疗效

DALL-E 2 模型的输出效果好的惊人。

比如,当我输入“一只泰迪在时代广场上玩滑板”,你会得到如下的图片。

image.png

不错吧。各种滑板造型来一遍。

高产吧。几秒钟一幅画,人类设计师还得一幅一幅的画呢。

而且照片是独一无二生成的,几乎无法在现实中的照片库中找到。

不仅如此,它还可以随意切换风格,比如输入“一个雨夜,一个超级英雄栖息在城市上空,风格就像一本漫画书。”

image.png

酷不酷。

油画风格的再来一个,输入“一只柯基带着party hat, 油画风”。

image.png

天马星空的绘画想象,只要你能用文字描述出来,DALL-E-2 就能输出出来。

下面的九宫格图片全是模型生成的。

image.png

人工智能对设计师下手了

写到这,我只想说,各位平面设计师们,你们手里的画笔还拿得住么?

俗话说,天下设计师苦需求修改久矣。

DALL-E 2 一出,需求修改没了,设计师也没了。

自从阿尔法狗战胜人类之后,我一直觉得,AI能战胜的智力领域,应该是集中在有清晰规则的领域,比如围棋。

但是,像绘画这种具有艺术创作与灵感的领域,AI也开始侵入了。

而且,刚侵入,效果就让人瞠目。

有人的地方,就有江湖。

有AI的地方,就不让人好好工作了么?

设计师的饭碗,一直被设计师们用千万遍的画图修改牢牢地攥在手里。

我画的稿,只有我知道它的含义,除了我,别人都不能改。

老板眉头一皱:你威胁我?

...

image.png

DALLE-2 就像一颗炸弹,在图像生成领域炸开了一朵属于自己的蘑菇云。

也在平面设计师心里安装了一颗炸弹。

如果哪一天,你的老板拎着一张图来找你。

气势汹汹的对你说:你看看,你画的图还不如一个机器生成的好。

你被开除了!

这个时候,你千万不要生气。

因为,代替你的不是一个机器。

而是无数可爱的科学家和工程师。

他们仅仅是想找到一个好的图像学习算法,只不过,一顺手,把设计师给得罪了。

One More Thing

芯片设计领域有一个著名的摩尔定律,大致是芯片的性能每隔18个月大致翻一倍。这个定律是建立在芯片晶体管的体积缩小和工艺水平的逐步提升的基础上的。

而放在软件算法上,这个定律并不适用。

因为软件算法带来的提升,可能是指数级,甚至是飞跃式的。

DALL-E-2刚推出不久,一代卷王Google就发布了自家产品—Imagen,从字面上将就是图像生成,并且直接对标DALL-E-2。

图像输出效果直接让DALL-E-2按在地上摩擦,用Google的话说,DALL-E-2 你们就是在玩过家家,而且还有很多图像生成的是错误的。

相关文章
|
10天前
|
机器学习/深度学习 人工智能 编解码
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,支持生成高分辨率的多视角图像。
74 18
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
|
4月前
|
数据采集 存储 算法
【2024泰迪杯】B 题:基于多模态特征融合的图像文本检索20页论文及Python代码
本文介绍了2024年泰迪杯B题的解决方案,该题目要求构建基于多模态特征融合的图像文本检索模型和算法,通过深入分析和预处理数据集,构建了OFA、BertCLIP和ChineseCLIP三种多模态特征融合模型,并通过投票融合机制优化检索效果,实验结果表明所提模型在图像与文本检索任务中显著提高了检索准确性和效率。
136 3
|
7月前
|
机器学习/深度学习 编解码 数据可视化
Mamba入局遥感图像分割 | Samba: 首个基于SSM的遥感高分图像语义分割框架
Mamba入局遥感图像分割 | Samba: 首个基于SSM的遥感高分图像语义分割框架
165 3
|
7月前
|
机器学习/深度学习 编解码 并行计算
深度学习的图像超分技术综述-输入单张图像(SISR)和输入多张图像的基于参考的图像(RefSR)
深度学习的图像超分技术综述-输入单张图像(SISR)和输入多张图像的基于参考的图像(RefSR)
377 0
|
机器学习/深度学习 人工智能 算法
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
349 1
|
编解码 人工智能 自然语言处理
只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型
只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型
133 0
|
编解码 测试技术 网络架构
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天(2)
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
190 0
|
编解码 人工智能 C++
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天(1)
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
170 0
|
编解码 人工智能 自然语言处理
扩散+超分辨率模型强强联合,谷歌图像生成器Imagen背后的技术
扩散+超分辨率模型强强联合,谷歌图像生成器Imagen背后的技术
237 0
|
机器学习/深度学习 人工智能 数据可视化
AAAI 2022 Oral | 无需人工标注,清华、快手提出基于参考图像的单张生成图像质量评价方法
AAAI 2022 Oral | 无需人工标注,清华、快手提出基于参考图像的单张生成图像质量评价方法
122 0

热门文章

最新文章