多模态图像版「GPT-3」来了!OpenAI推出DALL-E模型,一句话即可生成对应图像

简介: 【新智元导读】OpenAI又放大招了!今天,其博客宣布,推出了两个结合计算机视觉和NLP结合的多模态模型:DALL-E和CLIP,它们可以通过文本,直接生成对应图像,堪称图像版「GPT-3」。

比GPT-3更牛的东西,还真被Open AI 搞出来了。 最近,OpenAI官宣了一个基于Transformer的语言模型--DALL-E,使用了GPT-3的120亿参数版本。取名DALL-E,是为了向艺术家萨尔瓦多-达利(Salvador Dali )和皮克斯的机器人WALL-E致敬。 19.jpg图: 从文本「一个穿着芭蕾舞裙遛狗的萝卜宝宝」生成的图像示例 根据文字提示,DALL-E生成的图像可以像在现实世界中拍摄的一样。 20.gif 同时测试表明,DALL-E也有能力对生成的图像中的物体进行操作和重新排列,但也能创造出一些根本不存在的东西,比如一个鳄梨形状的扶手椅:  21.jpg又或者是「一个长颈鹿乌龟」 22.jpg

GPT-3表明,语言可以用来指导大型神经网络执行各种文本生成任务。而Image GPT表明,同样类型的神经网络也可以用来生成高保真度的图像。这个突破说明通过文字语言来操纵视觉概念现在已经触手可及。 此外,它还展示了一些意想不到但有用的行为,包括使用直觉逻辑来理解请求,比如要求它为同一只(不存在的)猫画多幅草图: 23.jpg DALL·E:很强大,但仍有缺陷


和GPT-3一样,DALL-E也是一个Transformer语言模型。它同时接收文本和图像作为单一数据流,其中包含多达1280个token,并使用最大似然估计来进行训练,以一个接一个地生成所有的token。这个训练过程不仅允许DALL-E可以从头开始生成图像,而且还可以重新生成现有图像的任何矩形区域,与文本提示内容基本一致。 研究人员测试了DALLe修改一个对象的几个属性的能力,以及它出现的次数。 例如,用豪猪做成的立方体vs有豪猪纹理的立方体: 24.jpg 有些也有语义上的歧义,比如:a collection of glasses sitting on the table 25.jpg 同时控制多个对象、它们的属性以及它们的空间关系,对模型提出了新的挑战。例如,考虑 "一只刺猬戴着红色的帽子、黄色的手套、蓝色的衬衫和绿色的裤子 "这句话,为了正确解释这个句子,DALL-E不仅要正确地将每件衣服与动物结合起来,而且要形成(帽子,红色)、(手套,黄色)、(衬衫,蓝色)和(裤子,绿色)的关联,不能将它们混为一谈。 研究人员测试了DALLe在相对定位、堆叠对象和控制多个属性方面的能力。例如:一个Emoji的小企鹅,带着蓝帽子,红手套,穿着黄裤子。 26.jpg 虽然DALL-E确实在一定程度上提供了对少量物体属性和位置的可控性,但成功率可能取决于文字的措辞。当引入更多的对象时,DALL-E容易混淆对象及其颜色之间的关联,成功率会急剧下降。研究人员还注意到,在这些情况下,DALL-E对于文字的重新措辞是很脆弱的:替代的、语义等同的标题往往也不会产生正确的解释. 而有趣的是,OpenAI 的另一个新系统 CLIP 可以与 DALL-E 联合使用,以理解和排序问题中的图像。 CLIP:减少对海量数据集的依赖


OpenAI一起推出的CLIP(Contrastive Language–Image Pre-training)是一个从互联网上收集的4亿对图像和文本来进行训练的多模态模型。 27.jpg 它可以从自然语言监督中有效地学习视觉概念,可以应用于任何视觉分类基准,只需提供要识别的视觉类别的名称,类似于 GPT-2和GPT-3的”zero-shot learning”能力。 CLIP使用了丰富的互联网上的与图像配对的文本,这些数据被用来为CLIP创建一个训练任务:通过预训练图像编码器和文本编码器来预测给定一张图像与数据集中的一组32768个随机采样的文本片段中的哪些文本真正配对。然后使用结果将 CLIP 转换为zero-shot分类器。最后,将一个数据集的所有类别转换成文字 ,并预测文本的类别与给定图像的最佳对应关系。 28.jpg "我们发现,CLIP与GPT类似,在前期训练中可以学习执行一系列广泛的任务,包括物体字符识别(OCR)、地理定位、动作识别等。我们通过在超过30个现有数据集上对CLIP的zero-shot转移性能进行基准测试来衡量,发现它可以与之前的特定任务监督模型相媲美。"12位OpenAI合作者关于该模型的论文中写道。 虽然深度学习给计算机视觉带来了革命性的变化,但目前的方法存在几个主要问题:典型的视觉数据集的创建需要耗费大量的人力和成本,标准的视觉模型只擅长一种任务和一种任务,需要付出巨大的努力才能适应新的任务;在基准上表现良好的模型在压力测试中的表现令人失望,这让人们对整个计算机视觉的深度学习方法产生了怀疑。 设计 CLIP 就是为了解决计算机视觉深度学习方法中的一些主要问题: 1.昂贵的数据集: 深度学习需要大量的数据,而视觉模型传统上采用人工标注的数据集进行训练,这些数据集的构建成本很高,而且只能提供有限数量的预先确定的视觉概念。例如,ImageNet 数据集就需要超过25000名工作人员为22000个对象类别标注1400万张图像。 而相比之下,CLIP 可以从互联网上已经公开可用的文本图像对中学习。减少昂贵的大型标注数据集的需求已经被广泛研究,尤其是自监督学习、对比方法、自训练方法和生成式模型等。 2.范围狭窄: 一个ImageNet模型擅长预测1000个ImageNet类别,但如果我们希望它执行其他的任务,就需要建立一个新的数据集,添加一个输出,并对模型进行微调。 相比之下,CLIP可以适应执行各种各样的视觉分类任务,而不需要额外的训练样本。为了将CLIP应用于一个新的任务,我们只需要将任务的视觉概念名称 "告诉 "CLIP的文本编码器,它就会输出一个CLIP视觉表示的线性分类器。这个分类器的准确度通常可以和监督模型相媲美。 通过设计,该网络可以用自然语言指导它执行大量的分类基准,而不直接优化基准的性能,类似于GPT-2和GPT-3的 "zero-shot "能力。 29.jpg 这是一个关键的变化:通过不直接优化基准,使得结果变得更有代表性:CLIP系统将这种 "robustness gap" 缩小了75%,同时在不使用任何原始的1.28M个已标注样本的情况下,在ImageNet zero-shot上接近ResNet50的性能。 虽然测试发现 CLIP 精通多项任务,但测试也发现 CLIP 在诸如卫星地图分类或淋巴结肿瘤检测等专业任务上存在不足。 这一初步分析旨在说明通用计算机视觉模型所带来的一些挑战,并对其偏差和影响一窥究竟。研究人员希望这项工作能够激励未来对此类模型的能力、缺点和偏见的表征进行研究,以便加速这一领域的发展。 OpenAI首席科学家Ilya Sutskever是这篇详细介绍CLIP的论文作者之一,他最近表示,多模态模型将在2021年成为机器学习的主要趋势。 而谷歌AI负责人Jeff Dean也在2020年做出了类似的预测。

 

DALL-E和CLIP等类似的一系列生成模型,都具有模拟或扭曲现实来预测人们如何绘制风景和静物艺术的能力。比如StyleGAN,就表现出了种族偏见的倾向。

 

而从事CLIP和DALL-E的OpenAI研究人员呼吁对这两个系统的潜在社会影响进行更多的研究。GPT-3显示出显著的黑人偏见,因此同样的缺点也可存在于DALL-E中。在CLIP论文中包含的偏见测试发现,该模型最有可能将20岁以下的人错误地归类为罪犯或非人类,被归类为男性的人相比女性更有可能被贴上罪犯的标签,这表明数据集中包含的一些标签数据存在严重的性别差异。

相关文章
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
253 2
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1375 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
1月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
256 120
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
542 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
2月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
724 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
1月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
389 2
|
2月前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
408 2
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
1月前
|
存储 机器学习/深度学习 人工智能
54_模型优化:大模型的压缩与量化
随着大型语言模型(LLM)的快速发展,模型规模呈指数级增长,从最初的数亿参数到如今的数千亿甚至万亿参数。这种规模扩张带来了惊人的能源消耗和训练成本,同时也给部署和推理带来了巨大挑战。2025年,大模型的"瘦身"已成为行业发展的必然趋势。本文将深入剖析大模型压缩与量化的核心技术、最新进展及工程实践,探讨如何通过创新技术让大模型在保持高性能的同时实现轻量化部署,为企业和开发者提供全面的技术指导。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
38_多模态模型:CLIP的视觉-语言对齐_深度解析
想象一下,当你看到一张小狗在草地上奔跑的图片时,你的大脑立刻就能将视觉信息与"小狗"、"草地"、"奔跑"等概念联系起来。这种跨模态的理解能力对于人类来说似乎是理所当然的,但对于人工智能系统而言,实现这种能力却经历了长期的技术挑战。多模态学习的出现,标志着AI从单一模态处理向更接近人类认知方式的综合信息处理迈出了关键一步。

热门文章

最新文章

下一篇
oss云网关配置