【OpenAI】DALL·E 2,让我来带你认识一下这位来自AI界的艺术家

简介: 【OpenAI】DALL·E 2,让我来带你认识一下这位来自AI界的艺术家

前言


DALL-E 2 是一种基于语言的人工智能图像生成器,可以根据文本提示创建高质量的图像和艺术作品。它使用CLIP、先验和 unCLIP 模型来生成图像,其质量取决于文本提示的具体性。这也是我今天要介绍的主角


1684829765305.png


什么是DALL-E 2 ?


DALL-E 2是一款人工智能图像生成器,它可以根据自然语言的文本描述创建图像和艺术形式。简单来说,它是一个根据文本生成图像的人工智能系统。2021年1月,OpenAI 推出了 DALL-E 模型,DALL-E 2 是其升级版。“DALL-E”这个名字源于西班牙著名艺术家Salvador Dalí 和广受欢迎的皮克斯动画机器人 “Wall-E” 的组合。2022年7月,DALL-E 2 进入测试阶段,可供白名单中的用户使用。同年9月28日,OpenAI 取消了白名单的要求,推出了任何人都可以访问并且使用的开放测试版。


DALL·E2是OpenAI创建的语言模型的第二个版本,能够从文本描述中生成图像。它基于与GPT-3相同的架构,GPT-3是一种广泛使用的自然语言处理模型,但已在图像字幕对的大型数据集上进行了训练,以生成与给定描述相对应的图像。与前代DALL·E类似,DALL·E2能够生成各种各样的图像,包括物体、场景,甚至抽象概念。


介绍的怎么厉害,它又能干啥呢?


基本功能


图像生成:可以根据文本描述生成图片,也可以通过图片生成相关的文本描述。

图像编辑:可以对生成的图片进行编辑,例如改变颜色、添加/删除物体等。

图像转换:可以将某种图像转换成另一种图像,例如将手绘图转换成真实图片。

图像分类:可以将图片分类到不同的类别中。

物体检测:可以检测图片中的物体,并给出它们的类别和位置信息。

语义分割:可以将图片中的物体分割出来。

图像识别:可以对图片进行识别,例如识别人脸、车辆等。

图像压缩:可以将图片压缩成更小的尺寸,同时保持较好的图像质量。


新功能


编辑


DALL-E 2的一个值得关注的新功能是编辑,用户可以从现有图片开始,选择一个区域,然后告诉模型对其进行编辑。


1684829785776.png


编辑功能的演示,DALL-E 2在一个现有图片的房间角落加一个火烈鸟摆设


2021年DALL-E的text to image生成效果,让人们一窥多模态的潜力,也带动着多模态图像合成与编辑方向的大火,前有 DALL-E、GauGAN2,后有统一的多模态预训练模型“女娲”。这些连接文本和视觉领域的技术创新使我们更接近实现多模态AI系统。

OpenAI表示将继续在该系统的基础上进行开发,同时检查图像生成中的偏见或错误信息的产生等潜在危险。

OpenAI试图通过技术保障措施和新的内容政策来解决这些问题,同时还降低了计算负载,推进了模型的基本功能。


变体功能


用户可以上传一张起始图片,然后创建一系列类似的变体,还可以混合两个图像,生成具有这两种元素的图像。


1684829805930.png


1684829815711.png


“一碗看起来像怪物、用羊毛织成的汤”


DALL-E 2基于CLIP,一个由OpenAI去年发布的计算机视觉系统。OpenAI推出的两个连接文本与图像的神经网络DALL-E 和 CLIP中,DALL-E 可以基于文本直接生成图像,而CLIP 则能够完成图像与文本类别的匹配。

CLIP embeddings 具有许多理想的特性:对图像分布变化具有鲁棒性,并且已经过微调以在各种视觉和语言任务上实现最先进的结果。同时,diffusion models已经成为一种有前途的生成建模框架,推动了图像和视频生成任务的最新技术。在这项工作中,OpenAI团队结合这两种方法来解决文本条件图像生成问题。

OpenAI研究科学家Prafulla Dhariwal表示:“DALL-E 1刚刚从语言中采用了GPT-3方法,并将其应用于生成图像:我们将图像压缩成一系列单词,然后才学会预测接下来会发生什么”。

但是单词匹配并不一定能捕捉到重点,而且预测过程限制了图像的真实性。

CLIP的设计目的,是以人类的方式查看图像并总结其内容,而OpenAI在这个过程中迭代创建了 “unCLIP”——一个以描述开始并朝着图像生成目标运行的版本。

DALL-E2使用一种 diffusion model 生成图像,Dhariwal将其描述为从“一袋点状物”开始,然后以越来越大的细节填充图案。

一份关于unCLIP的研究表示,它部分地躲开了CLIP一个非常有趣的缺点:人们可以通过在一个对象(比如史密斯奶奶的苹果)上标记一个表示其他东西(比如iPod)的单词,来愚弄模型的识别能力。


总结


除此之外,DALL·E 2仍具有许多有趣的功能值得我们去开发,我们也期待未来它给我们带来更亮眼的表现。

Dhariwal表示:“我们希望继续进行分阶段的过程,这样就可以不断从得到的反馈中评估如何安全地发布这项技术”。

目录
相关文章
|
6月前
|
人工智能 自然语言处理 数据可视化
Mini DALL·E 3:设计师福音!开源AI绘画神器:对话式修图+智能问答,草图秒变商业大作
Mini DALL·E 3是由北京理工大学联合多所高校开发的交互式文生图框架,通过多轮对话实现高质量图像生成与编辑,结合LLM和T2I模型技术,无需额外训练即可生成符合描述的图像。
409 47
Mini DALL·E 3:设计师福音!开源AI绘画神器:对话式修图+智能问答,草图秒变商业大作
|
6月前
|
人工智能 测试技术 API
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
PaperBench是OpenAI推出的开源评测框架,通过8316个评分节点系统评估AI智能体复现学术论文的能力,涵盖理论理解、代码实现到实验执行全流程。
351 30
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
|
5月前
|
人工智能 自然语言处理 安全
💻 Codex 来了:OpenAI 推出多任务软件工程 AI 代理,开发者工作方式将被重塑?
Codex 是 OpenAI 推出的一款云端智能开发代理,基于优化后的 Codex-1 模型,能够执行从代码编写、Bug 修复到 PR 提交的完整工程任务。通过 ChatGPT 的界面,用户可向 Codex 分配任务,它将在独立沙盒中运行并返回结果。Codex 支持多任务异步处理,遵循项目规范(AGENTS.md),并生成日志与测试报告以确保透明性。作为“AI 参与式开发”的里程碑,Codex 不仅提升效率,还可能重塑开发者角色,使他们从具体编码转向指导 AI 完成任务,推动软件工程进入意图驱动的新时代。
344 16
|
6月前
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
322 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
|
6月前
|
人工智能 自然语言处理 测试技术
自然语言生成代码一键搞定!Codex CLI:OpenAI开源终端AI编程助手,代码重构+测试全自动
Codex CLI是OpenAI推出的轻量级AI编程智能体,基于自然语言指令帮助开发者高效生成代码、执行文件操作和进行版本控制,支持代码生成、重构、测试及数据库迁移等功能。
930 0
自然语言生成代码一键搞定!Codex CLI:OpenAI开源终端AI编程助手,代码重构+测试全自动
|
8月前
|
人工智能 搜索推荐 API
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
node-DeepResearch 是一个开源 AI 智能体项目,支持多步推理和复杂查询,帮助用户逐步解决问题。
798 27
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
|
9月前
|
机器学习/深度学习 人工智能 安全
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
454 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
|
7月前
|
Web App开发 人工智能 JavaScript
Nanobrowser:开源版OpenAI Operator!AI自动操控浏览器,复杂网页任务一键搞定
Nanobrowser 是一款开源的 Chrome 扩展工具,基于多智能体系统实现复杂的网页任务自动化,支持多种大型语言模型,完全免费且注重隐私保护。
798 1
|
8月前
|
人工智能
D1net阅闻 | OpenAI进军虚拟助手领域 AI智能体加速迈入商业化阶段
D1net阅闻 | OpenAI进军虚拟助手领域 AI智能体加速迈入商业化阶段
|
8月前
|
人工智能 搜索推荐 机器人
用户破4亿、企业客户翻倍!OpenAI的GPT-5将推进全球AI战争进入白热化阶段!
用户破4亿、企业客户翻倍!OpenAI的GPT-5将推进全球AI战争进入白热化阶段!