OpenAI公司,为致敬《WALL-E》以及超现实主义画派达利,推出了新型人工智能模型 DALL-E。
与WALL-E不同的是,这个人工智能不是用来清扫垃圾的,而是用来画画的。并且画风也不局限于达利画派的超现实主义。
这个模型用起来很简单,你只需要把你想要的图像用文字描述出来,输入到模型里,它就会根据你的描述,输出对应的图像。
怎么样,像不像是一个机器设计师?
你告诉它,喂,给我画一张狗狗在湖边玩耍的图片。
于是,它给了你两张。
(DALL-E 2 生成:一只狗狗在湖边玩耍)
DALL-E 推出一年之后,DALL-E 就升级到 DALL-E-2。
从此,开启了吊打人类平面设计师的旅程。
文本与图像的结合
一直以来,文本和图像都是人工智能研究的宠儿。
图片的数据是规则的,有着长和宽的参数,以及RGB三个色彩通道,即使最原始的全连接神经网络,在处理图片上的结果也不错,更别提大放异彩的卷积神经网络(CNN)。
文本的数据是变化的,有着不定长度的特点,就像一句话,一个单词,一个排比句。但是随着循环神经网络(RNN)、长短时记忆网络(LSTM)以及注意力机制(attention)等算法的深入,文本的处理也变得简洁高效,并且识别越来越高。
但是,在一个AI模型中,既需要处理文本,又需要处理图像,却不多见。
更别说将文本作为输入,图像作为输出了,而 DALL-E 就是这种。
简单来说。
DALL-E 是在训练阶段将文本和图像同时编码到一个数据空间。
在推理阶段,也就是图像生成阶段,模型从这个数据空间中,根据输入的文本信息,得到对应的图像信息,然后解码进行输出。
这种融合了文本与图像数据的编码空间,可以很轻松愉悦的完成文本描述到图像生成之间的衔接。
那么,模型的效果怎么样呢?
不看广告看疗效
DALL-E 2 模型的输出效果好的惊人。
比如,当我输入“一只泰迪在时代广场上玩滑板”,你会得到如下的图片。
不错吧。各种滑板造型来一遍。
高产吧。几秒钟一幅画,人类设计师还得一幅一幅的画呢。
而且照片是独一无二生成的,几乎无法在现实中的照片库中找到。
不仅如此,它还可以随意切换风格,比如输入“一个雨夜,一个超级英雄栖息在城市上空,风格就像一本漫画书。”
酷不酷。
油画风格的再来一个,输入“一只柯基带着party hat, 油画风”。
天马星空的绘画想象,只要你能用文字描述出来,DALL-E-2 就能输出出来。
下面的九宫格图片全是模型生成的。
人工智能对设计师下手了
写到这,我只想说,各位平面设计师们,你们手里的画笔还拿得住么?
俗话说,天下设计师苦需求修改久矣。
DALL-E 2 一出,需求修改没了,设计师也没了。
自从阿尔法狗战胜人类之后,我一直觉得,AI能战胜的智力领域,应该是集中在有清晰规则的领域,比如围棋。
但是,像绘画这种具有艺术创作与灵感的领域,AI也开始侵入了。
而且,刚侵入,效果就让人瞠目。
有人的地方,就有江湖。
有AI的地方,就不让人好好工作了么?
设计师的饭碗,一直被设计师们用千万遍的画图修改牢牢地攥在手里。
我画的稿,只有我知道它的含义,除了我,别人都不能改。
老板眉头一皱:你威胁我?
...
DALLE-2 就像一颗炸弹,在图像生成领域炸开了一朵属于自己的蘑菇云。
也在平面设计师心里安装了一颗炸弹。
如果哪一天,你的老板拎着一张图来找你。
气势汹汹的对你说:你看看,你画的图还不如一个机器生成的好。
你被开除了!
这个时候,你千万不要生气。
因为,代替你的不是一个机器。
而是无数可爱的科学家和工程师。
他们仅仅是想找到一个好的图像学习算法,只不过,一顺手,把设计师给得罪了。
One More Thing
芯片设计领域有一个著名的摩尔定律,大致是芯片的性能每隔18个月大致翻一倍。这个定律是建立在芯片晶体管的体积缩小和工艺水平的逐步提升的基础上的。
而放在软件算法上,这个定律并不适用。
因为软件算法带来的提升,可能是指数级,甚至是飞跃式的。
DALL-E-2刚推出不久,一代卷王Google就发布了自家产品—Imagen,从字面上将就是图像生成,并且直接对标DALL-E-2。
图像输出效果直接让DALL-E-2按在地上摩擦,用Google的话说,DALL-E-2 你们就是在玩过家家,而且还有很多图像生成的是错误的。