【OpenAI】DALL·E 2，让我来带你认识一下这位来自AI界的艺术家

2023-05-23 689

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【OpenAI】DALL·E 2，让我来带你认识一下这位来自AI界的艺术家

前言

DALL-E 2 是一种基于语言的人工智能图像生成器，可以根据文本提示创建高质量的图像和艺术作品。它使用CLIP、先验和 unCLIP 模型来生成图像，其质量取决于文本提示的具体性。这也是我今天要介绍的主角

什么是DALL-E 2 ？

DALL-E 2是一款人工智能图像生成器，它可以根据自然语言的文本描述创建图像和艺术形式。简单来说，它是一个根据文本生成图像的人工智能系统。2021年1月，OpenAI 推出了 DALL-E 模型，DALL-E 2 是其升级版。“DALL-E”这个名字源于西班牙著名艺术家Salvador Dalí 和广受欢迎的皮克斯动画机器人 “Wall-E” 的组合。2022年7月，DALL-E 2 进入测试阶段，可供白名单中的用户使用。同年9月28日，OpenAI 取消了白名单的要求，推出了任何人都可以访问并且使用的开放测试版。

DALL·E2是OpenAI创建的语言模型的第二个版本，能够从文本描述中生成图像。它基于与GPT-3相同的架构，GPT-3是一种广泛使用的自然语言处理模型，但已在图像字幕对的大型数据集上进行了训练，以生成与给定描述相对应的图像。与前代DALL·E类似，DALL·E2能够生成各种各样的图像，包括物体、场景，甚至抽象概念。

介绍的怎么厉害，它又能干啥呢？

基本功能

图像生成：可以根据文本描述生成图片，也可以通过图片生成相关的文本描述。

图像编辑：可以对生成的图片进行编辑，例如改变颜色、添加/删除物体等。

图像转换：可以将某种图像转换成另一种图像，例如将手绘图转换成真实图片。

图像分类：可以将图片分类到不同的类别中。

物体检测：可以检测图片中的物体，并给出它们的类别和位置信息。

语义分割：可以将图片中的物体分割出来。

图像识别：可以对图片进行识别，例如识别人脸、车辆等。

图像压缩：可以将图片压缩成更小的尺寸，同时保持较好的图像质量。

新功能

编辑

DALL-E 2的一个值得关注的新功能是编辑，用户可以从现有图片开始，选择一个区域，然后告诉模型对其进行编辑。

编辑功能的演示，DALL-E 2在一个现有图片的房间角落加一个火烈鸟摆设

2021年DALL-E的text to image生成效果，让人们一窥多模态的潜力，也带动着多模态图像合成与编辑方向的大火，前有 DALL-E、GauGAN2，后有统一的多模态预训练模型“女娲”。这些连接文本和视觉领域的技术创新使我们更接近实现多模态AI系统。

OpenAI表示将继续在该系统的基础上进行开发，同时检查图像生成中的偏见或错误信息的产生等潜在危险。

OpenAI试图通过技术保障措施和新的内容政策来解决这些问题，同时还降低了计算负载，推进了模型的基本功能。

变体功能

用户可以上传一张起始图片，然后创建一系列类似的变体，还可以混合两个图像，生成具有这两种元素的图像。

“一碗看起来像怪物、用羊毛织成的汤”

DALL-E 2基于CLIP，一个由OpenAI去年发布的计算机视觉系统。OpenAI推出的两个连接文本与图像的神经网络DALL-E 和 CLIP中，DALL-E 可以基于文本直接生成图像，而CLIP 则能够完成图像与文本类别的匹配。

CLIP embeddings 具有许多理想的特性：对图像分布变化具有鲁棒性，并且已经过微调以在各种视觉和语言任务上实现最先进的结果。同时，diffusion models已经成为一种有前途的生成建模框架，推动了图像和视频生成任务的最新技术。在这项工作中，OpenAI团队结合这两种方法来解决文本条件图像生成问题。

OpenAI研究科学家Prafulla Dhariwal表示：“DALL-E 1刚刚从语言中采用了GPT-3方法，并将其应用于生成图像：我们将图像压缩成一系列单词，然后才学会预测接下来会发生什么”。

但是单词匹配并不一定能捕捉到重点，而且预测过程限制了图像的真实性。

CLIP的设计目的，是以人类的方式查看图像并总结其内容，而OpenAI在这个过程中迭代创建了 “unCLIP”——一个以描述开始并朝着图像生成目标运行的版本。

DALL-E2使用一种 diffusion model 生成图像，Dhariwal将其描述为从“一袋点状物”开始，然后以越来越大的细节填充图案。

一份关于unCLIP的研究表示，它部分地躲开了CLIP一个非常有趣的缺点：人们可以通过在一个对象（比如史密斯奶奶的苹果）上标记一个表示其他东西（比如iPod）的单词，来愚弄模型的识别能力。

总结

除此之外，DALL·E 2仍具有许多有趣的功能值得我们去开发，我们也期待未来它给我们带来更亮眼的表现。

Dhariwal表示：“我们希望继续进行分阶段的过程，这样就可以不断从得到的反馈中评估如何安全地发布这项技术”。

【OpenAI】DALL·E 2，让我来带你认识一下这位来自AI界的艺术家

前言

什么是DALL-E 2 ？

介绍的怎么厉害，它又能干啥呢？

基本功能

新功能

编辑

变体功能

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【OpenAI】DALL·E 2，让我来带你认识一下这位来自AI界的艺术家

前言

什么是DALL-E 2 ？

介绍的怎么厉害，它又能干啥呢？

基本功能

新功能

编辑

变体功能

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景