多模态图像版「GPT-3」来了!OpenAI推出DALL-E模型,一句话即可生成对应图像

简介: 【新智元导读】OpenAI又放大招了!今天,其博客宣布,推出了两个结合计算机视觉和NLP结合的多模态模型:DALL-E和CLIP,它们可以通过文本,直接生成对应图像,堪称图像版「GPT-3」。

比GPT-3更牛的东西,还真被Open AI 搞出来了。 最近,OpenAI官宣了一个基于Transformer的语言模型--DALL-E,使用了GPT-3的120亿参数版本。取名DALL-E,是为了向艺术家萨尔瓦多-达利(Salvador Dali )和皮克斯的机器人WALL-E致敬。 19.jpg图: 从文本「一个穿着芭蕾舞裙遛狗的萝卜宝宝」生成的图像示例 根据文字提示,DALL-E生成的图像可以像在现实世界中拍摄的一样。 20.gif 同时测试表明,DALL-E也有能力对生成的图像中的物体进行操作和重新排列,但也能创造出一些根本不存在的东西,比如一个鳄梨形状的扶手椅:  21.jpg又或者是「一个长颈鹿乌龟」 22.jpg

GPT-3表明,语言可以用来指导大型神经网络执行各种文本生成任务。而Image GPT表明,同样类型的神经网络也可以用来生成高保真度的图像。这个突破说明通过文字语言来操纵视觉概念现在已经触手可及。 此外,它还展示了一些意想不到但有用的行为,包括使用直觉逻辑来理解请求,比如要求它为同一只(不存在的)猫画多幅草图: 23.jpg DALL·E:很强大,但仍有缺陷


和GPT-3一样,DALL-E也是一个Transformer语言模型。它同时接收文本和图像作为单一数据流,其中包含多达1280个token,并使用最大似然估计来进行训练,以一个接一个地生成所有的token。这个训练过程不仅允许DALL-E可以从头开始生成图像,而且还可以重新生成现有图像的任何矩形区域,与文本提示内容基本一致。 研究人员测试了DALLe修改一个对象的几个属性的能力,以及它出现的次数。 例如,用豪猪做成的立方体vs有豪猪纹理的立方体: 24.jpg 有些也有语义上的歧义,比如:a collection of glasses sitting on the table 25.jpg 同时控制多个对象、它们的属性以及它们的空间关系,对模型提出了新的挑战。例如,考虑 "一只刺猬戴着红色的帽子、黄色的手套、蓝色的衬衫和绿色的裤子 "这句话,为了正确解释这个句子,DALL-E不仅要正确地将每件衣服与动物结合起来,而且要形成(帽子,红色)、(手套,黄色)、(衬衫,蓝色)和(裤子,绿色)的关联,不能将它们混为一谈。 研究人员测试了DALLe在相对定位、堆叠对象和控制多个属性方面的能力。例如:一个Emoji的小企鹅,带着蓝帽子,红手套,穿着黄裤子。 26.jpg 虽然DALL-E确实在一定程度上提供了对少量物体属性和位置的可控性,但成功率可能取决于文字的措辞。当引入更多的对象时,DALL-E容易混淆对象及其颜色之间的关联,成功率会急剧下降。研究人员还注意到,在这些情况下,DALL-E对于文字的重新措辞是很脆弱的:替代的、语义等同的标题往往也不会产生正确的解释. 而有趣的是,OpenAI 的另一个新系统 CLIP 可以与 DALL-E 联合使用,以理解和排序问题中的图像。 CLIP:减少对海量数据集的依赖


OpenAI一起推出的CLIP(Contrastive Language–Image Pre-training)是一个从互联网上收集的4亿对图像和文本来进行训练的多模态模型。 27.jpg 它可以从自然语言监督中有效地学习视觉概念,可以应用于任何视觉分类基准,只需提供要识别的视觉类别的名称,类似于 GPT-2和GPT-3的”zero-shot learning”能力。 CLIP使用了丰富的互联网上的与图像配对的文本,这些数据被用来为CLIP创建一个训练任务:通过预训练图像编码器和文本编码器来预测给定一张图像与数据集中的一组32768个随机采样的文本片段中的哪些文本真正配对。然后使用结果将 CLIP 转换为zero-shot分类器。最后,将一个数据集的所有类别转换成文字 ,并预测文本的类别与给定图像的最佳对应关系。 28.jpg "我们发现,CLIP与GPT类似,在前期训练中可以学习执行一系列广泛的任务,包括物体字符识别(OCR)、地理定位、动作识别等。我们通过在超过30个现有数据集上对CLIP的zero-shot转移性能进行基准测试来衡量,发现它可以与之前的特定任务监督模型相媲美。"12位OpenAI合作者关于该模型的论文中写道。 虽然深度学习给计算机视觉带来了革命性的变化,但目前的方法存在几个主要问题:典型的视觉数据集的创建需要耗费大量的人力和成本,标准的视觉模型只擅长一种任务和一种任务,需要付出巨大的努力才能适应新的任务;在基准上表现良好的模型在压力测试中的表现令人失望,这让人们对整个计算机视觉的深度学习方法产生了怀疑。 设计 CLIP 就是为了解决计算机视觉深度学习方法中的一些主要问题: 1.昂贵的数据集: 深度学习需要大量的数据,而视觉模型传统上采用人工标注的数据集进行训练,这些数据集的构建成本很高,而且只能提供有限数量的预先确定的视觉概念。例如,ImageNet 数据集就需要超过25000名工作人员为22000个对象类别标注1400万张图像。 而相比之下,CLIP 可以从互联网上已经公开可用的文本图像对中学习。减少昂贵的大型标注数据集的需求已经被广泛研究,尤其是自监督学习、对比方法、自训练方法和生成式模型等。 2.范围狭窄: 一个ImageNet模型擅长预测1000个ImageNet类别,但如果我们希望它执行其他的任务,就需要建立一个新的数据集,添加一个输出,并对模型进行微调。 相比之下,CLIP可以适应执行各种各样的视觉分类任务,而不需要额外的训练样本。为了将CLIP应用于一个新的任务,我们只需要将任务的视觉概念名称 "告诉 "CLIP的文本编码器,它就会输出一个CLIP视觉表示的线性分类器。这个分类器的准确度通常可以和监督模型相媲美。 通过设计,该网络可以用自然语言指导它执行大量的分类基准,而不直接优化基准的性能,类似于GPT-2和GPT-3的 "zero-shot "能力。 29.jpg 这是一个关键的变化:通过不直接优化基准,使得结果变得更有代表性:CLIP系统将这种 "robustness gap" 缩小了75%,同时在不使用任何原始的1.28M个已标注样本的情况下,在ImageNet zero-shot上接近ResNet50的性能。 虽然测试发现 CLIP 精通多项任务,但测试也发现 CLIP 在诸如卫星地图分类或淋巴结肿瘤检测等专业任务上存在不足。 这一初步分析旨在说明通用计算机视觉模型所带来的一些挑战,并对其偏差和影响一窥究竟。研究人员希望这项工作能够激励未来对此类模型的能力、缺点和偏见的表征进行研究,以便加速这一领域的发展。 OpenAI首席科学家Ilya Sutskever是这篇详细介绍CLIP的论文作者之一,他最近表示,多模态模型将在2021年成为机器学习的主要趋势。 而谷歌AI负责人Jeff Dean也在2020年做出了类似的预测。

 

DALL-E和CLIP等类似的一系列生成模型,都具有模拟或扭曲现实来预测人们如何绘制风景和静物艺术的能力。比如StyleGAN,就表现出了种族偏见的倾向。

 

而从事CLIP和DALL-E的OpenAI研究人员呼吁对这两个系统的潜在社会影响进行更多的研究。GPT-3显示出显著的黑人偏见,因此同样的缺点也可存在于DALL-E中。在CLIP论文中包含的偏见测试发现,该模型最有可能将20岁以下的人错误地归类为罪犯或非人类,被归类为男性的人相比女性更有可能被贴上罪犯的标签,这表明数据集中包含的一些标签数据存在严重的性别差异。

相关文章
|
14天前
|
API 云栖大会
通义千问升级旗舰模型Qwen-Max,性能接近GPT-4o
通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o
|
18天前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
213 73
|
28天前
|
人工智能 Serverless API
一键服务化:从魔搭开源模型到OpenAI API服务
在多样化大模型的背后,OpenAI得益于在领域的先发优势,其API接口今天也成为了业界的一个事实标准。
一键服务化:从魔搭开源模型到OpenAI API服务
|
8天前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
13天前
|
搜索推荐 算法
模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert
【9月更文挑战第21天】香港大学研究者开发了一种名为EasyRec的新推荐系统,利用语言模型的强大文本理解和生成能力,解决了传统推荐算法在零样本学习场景中的局限。EasyRec通过文本-行为对齐框架,结合对比学习和协同语言模型调优,提升了推荐准确性。实验表明,EasyRec在多个真实世界数据集上的表现优于现有模型,但其性能依赖高质量文本数据且计算复杂度较高。论文详见:http://arxiv.org/abs/2408.08821
35 7
|
23天前
|
机器学习/深度学习 人工智能 供应链
【通义】AI视界|OpenAI的“草莓”模型预计两周内上线!像人类一样思考!
本文介绍了近期科技领域的五大亮点:OpenAI即将推出的新一代AI模型“草莓”,具备高级推理能力;亚马逊测试AI技术加速有声读物生产,通过语音克隆提高效率;Kimi API新增联网搜索功能,拓宽信息来源;顺丰发布物流行业专用大语言模型“丰语”,提升工作效率;钉钉推出“AI班级群”功能,改善家校沟通体验。更多详情,请访问[通义官网]。
|
27天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
25天前
|
测试技术 人机交互
没有等来OpenAI开源GPT-4o,等来了开源版VITA
【9月更文挑战第9天】近日,论文《Towards Open-Source Interactive Omni Multimodal LLM》介绍了VITA,一种基于Mixtral 8×7B的新型开源多模态大语言模型,能处理视频、图像、文本和音频等多模态数据,并提供先进的人机交互体验,填补了开源模型在多模态能力上的空白。经多任务学习及指令微调,VITA在多个基准测试中表现出色,但仍存在基础能力和嘈杂音频处理等方面的局限。更多详情见论文:https://arxiv.org/pdf/2408.05211
35 3
|
1月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
62 10
|
8天前
|
人工智能 测试技术 开发者
微软发布强大的新Phi-3.5模型,击败谷歌、OpenAI等
微软发布强大的新Phi-3.5模型,击败谷歌、OpenAI等
下一篇
无影云桌面