DALLE · 2 模型的图像生成

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: DALLE-2模型的图像生成,让一批设计师下岗了。

OpenAI公司,为致敬《WALL-E》以及超现实主义画派达利,推出了新型人工智能模型 DALL-E。

与WALL-E不同的是,这个人工智能不是用来清扫垃圾的,而是用来画画的。并且画风也不局限于达利画派的超现实主义。

这个模型用起来很简单,你只需要把你想要的图像用文字描述出来,输入到模型里,它就会根据你的描述,输出对应的图像。

怎么样,像不像是一个机器设计师?

你告诉它,喂,给我画一张狗狗在湖边玩耍的图片。

于是,它给了你两张。

image.png

(DALL-E 2 生成:一只狗狗在湖边玩耍)

DALL-E 推出一年之后,DALL-E 就升级到 DALL-E-2。

从此,开启了吊打人类平面设计师的旅程。

文本与图像的结合

一直以来,文本和图像都是人工智能研究的宠儿。

图片的数据是规则的,有着长和宽的参数,以及RGB三个色彩通道,即使最原始的全连接神经网络,在处理图片上的结果也不错,更别提大放异彩的卷积神经网络(CNN)。

文本的数据是变化的,有着不定长度的特点,就像一句话,一个单词,一个排比句。但是随着循环神经网络(RNN)、长短时记忆网络(LSTM)以及注意力机制(attention)等算法的深入,文本的处理也变得简洁高效,并且识别越来越高。

但是,在一个AI模型中,既需要处理文本,又需要处理图像,却不多见。

更别说将文本作为输入,图像作为输出了,而 DALL-E 就是这种。

简单来说。

DALL-E 是在训练阶段将文本和图像同时编码到一个数据空间。

在推理阶段,也就是图像生成阶段,模型从这个数据空间中,根据输入的文本信息,得到对应的图像信息,然后解码进行输出。
image.png

这种融合了文本与图像数据的编码空间,可以很轻松愉悦的完成文本描述到图像生成之间的衔接。

那么,模型的效果怎么样呢?

不看广告看疗效

DALL-E 2 模型的输出效果好的惊人。

比如,当我输入“一只泰迪在时代广场上玩滑板”,你会得到如下的图片。

image.png

不错吧。各种滑板造型来一遍。

高产吧。几秒钟一幅画,人类设计师还得一幅一幅的画呢。

而且照片是独一无二生成的,几乎无法在现实中的照片库中找到。

不仅如此,它还可以随意切换风格,比如输入“一个雨夜,一个超级英雄栖息在城市上空,风格就像一本漫画书。”

image.png

酷不酷。

油画风格的再来一个,输入“一只柯基带着party hat, 油画风”。

image.png

天马星空的绘画想象,只要你能用文字描述出来,DALL-E-2 就能输出出来。

下面的九宫格图片全是模型生成的。

image.png

人工智能对设计师下手了

写到这,我只想说,各位平面设计师们,你们手里的画笔还拿得住么?

俗话说,天下设计师苦需求修改久矣。

DALL-E 2 一出,需求修改没了,设计师也没了。

自从阿尔法狗战胜人类之后,我一直觉得,AI能战胜的智力领域,应该是集中在有清晰规则的领域,比如围棋。

但是,像绘画这种具有艺术创作与灵感的领域,AI也开始侵入了。

而且,刚侵入,效果就让人瞠目。

有人的地方,就有江湖。

有AI的地方,就不让人好好工作了么?

设计师的饭碗,一直被设计师们用千万遍的画图修改牢牢地攥在手里。

我画的稿,只有我知道它的含义,除了我,别人都不能改。

老板眉头一皱:你威胁我?

...

image.png

DALLE-2 就像一颗炸弹,在图像生成领域炸开了一朵属于自己的蘑菇云。

也在平面设计师心里安装了一颗炸弹。

如果哪一天,你的老板拎着一张图来找你。

气势汹汹的对你说:你看看,你画的图还不如一个机器生成的好。

你被开除了!

这个时候,你千万不要生气。

因为,代替你的不是一个机器。

而是无数可爱的科学家和工程师。

他们仅仅是想找到一个好的图像学习算法,只不过,一顺手,把设计师给得罪了。

One More Thing

芯片设计领域有一个著名的摩尔定律,大致是芯片的性能每隔18个月大致翻一倍。这个定律是建立在芯片晶体管的体积缩小和工艺水平的逐步提升的基础上的。

而放在软件算法上,这个定律并不适用。

因为软件算法带来的提升,可能是指数级,甚至是飞跃式的。

DALL-E-2刚推出不久,一代卷王Google就发布了自家产品—Imagen,从字面上将就是图像生成,并且直接对标DALL-E-2。

图像输出效果直接让DALL-E-2按在地上摩擦,用Google的话说,DALL-E-2 你们就是在玩过家家,而且还有很多图像生成的是错误的。

相关文章
|
3月前
|
人工智能 编解码 自然语言处理
AI文生图模型DALL·E 3
8月更文挑战第15天
|
人工智能 关系型数据库 Serverless
向量加成,基于ChatGLM6B生成专属图片
基于ChatGLM6B 提供的能力,可以通过在线对话的方式与用户进行交互,接收用户的问题,并根据问题内容做出相应的回答。基于用户上传语料内容,语言大模型会对问题进行理解,并生成相应回答,提供用户所需的各种知识和信息,AI 知识库问答应用可适用于多种场景,例如在线教育、智能客服、信息查询等。
120 0
|
XML JSON 算法
计算机视觉,算法应用自定义数据集制作
计算机视觉,算法应用自定义数据集制作
125 0
|
自然语言处理 数据库 开发者
AudioLDM一作解读:文本生成高质量音频,单GPU即可
AudioLDM一作解读:文本生成高质量音频,单GPU即可
188 0
|
编解码 测试技术 网络架构
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天(2)
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
180 0
|
编解码 人工智能 C++
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天(1)
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
159 0
|
机器学习/深度学习 人工智能 自然语言处理
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
184 0
|
机器学习/深度学习 自然语言处理 文字识别
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾(1)
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
356 0
|
存储 人工智能 开发者
中文多模态模型问世!IDPChat生成图像文字,只需5步+单GPU
中文多模态模型问世!IDPChat生成图像文字,只需5步+单GPU
181 0
|
编解码 自然语言处理 数据可视化
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
166 0

热门文章

最新文章