多模态图像版「GPT-3」来了!OpenAI推出DALL-E模型,一句话即可生成对应图像

简介: 【新智元导读】OpenAI又放大招了!今天,其博客宣布,推出了两个结合计算机视觉和NLP结合的多模态模型:DALL-E和CLIP,它们可以通过文本,直接生成对应图像,堪称图像版「GPT-3」。

比GPT-3更牛的东西,还真被Open AI 搞出来了。 最近,OpenAI官宣了一个基于Transformer的语言模型--DALL-E,使用了GPT-3的120亿参数版本。取名DALL-E,是为了向艺术家萨尔瓦多-达利(Salvador Dali )和皮克斯的机器人WALL-E致敬。 19.jpg图: 从文本「一个穿着芭蕾舞裙遛狗的萝卜宝宝」生成的图像示例 根据文字提示,DALL-E生成的图像可以像在现实世界中拍摄的一样。 20.gif 同时测试表明,DALL-E也有能力对生成的图像中的物体进行操作和重新排列,但也能创造出一些根本不存在的东西,比如一个鳄梨形状的扶手椅:  21.jpg又或者是「一个长颈鹿乌龟」 22.jpg

GPT-3表明,语言可以用来指导大型神经网络执行各种文本生成任务。而Image GPT表明,同样类型的神经网络也可以用来生成高保真度的图像。这个突破说明通过文字语言来操纵视觉概念现在已经触手可及。 此外,它还展示了一些意想不到但有用的行为,包括使用直觉逻辑来理解请求,比如要求它为同一只(不存在的)猫画多幅草图: 23.jpg DALL·E:很强大,但仍有缺陷


和GPT-3一样,DALL-E也是一个Transformer语言模型。它同时接收文本和图像作为单一数据流,其中包含多达1280个token,并使用最大似然估计来进行训练,以一个接一个地生成所有的token。这个训练过程不仅允许DALL-E可以从头开始生成图像,而且还可以重新生成现有图像的任何矩形区域,与文本提示内容基本一致。 研究人员测试了DALLe修改一个对象的几个属性的能力,以及它出现的次数。 例如,用豪猪做成的立方体vs有豪猪纹理的立方体: 24.jpg 有些也有语义上的歧义,比如:a collection of glasses sitting on the table 25.jpg 同时控制多个对象、它们的属性以及它们的空间关系,对模型提出了新的挑战。例如,考虑 "一只刺猬戴着红色的帽子、黄色的手套、蓝色的衬衫和绿色的裤子 "这句话,为了正确解释这个句子,DALL-E不仅要正确地将每件衣服与动物结合起来,而且要形成(帽子,红色)、(手套,黄色)、(衬衫,蓝色)和(裤子,绿色)的关联,不能将它们混为一谈。 研究人员测试了DALLe在相对定位、堆叠对象和控制多个属性方面的能力。例如:一个Emoji的小企鹅,带着蓝帽子,红手套,穿着黄裤子。 26.jpg 虽然DALL-E确实在一定程度上提供了对少量物体属性和位置的可控性,但成功率可能取决于文字的措辞。当引入更多的对象时,DALL-E容易混淆对象及其颜色之间的关联,成功率会急剧下降。研究人员还注意到,在这些情况下,DALL-E对于文字的重新措辞是很脆弱的:替代的、语义等同的标题往往也不会产生正确的解释. 而有趣的是,OpenAI 的另一个新系统 CLIP 可以与 DALL-E 联合使用,以理解和排序问题中的图像。 CLIP:减少对海量数据集的依赖


OpenAI一起推出的CLIP(Contrastive Language–Image Pre-training)是一个从互联网上收集的4亿对图像和文本来进行训练的多模态模型。 27.jpg 它可以从自然语言监督中有效地学习视觉概念,可以应用于任何视觉分类基准,只需提供要识别的视觉类别的名称,类似于 GPT-2和GPT-3的”zero-shot learning”能力。 CLIP使用了丰富的互联网上的与图像配对的文本,这些数据被用来为CLIP创建一个训练任务:通过预训练图像编码器和文本编码器来预测给定一张图像与数据集中的一组32768个随机采样的文本片段中的哪些文本真正配对。然后使用结果将 CLIP 转换为zero-shot分类器。最后,将一个数据集的所有类别转换成文字 ,并预测文本的类别与给定图像的最佳对应关系。 28.jpg "我们发现,CLIP与GPT类似,在前期训练中可以学习执行一系列广泛的任务,包括物体字符识别(OCR)、地理定位、动作识别等。我们通过在超过30个现有数据集上对CLIP的zero-shot转移性能进行基准测试来衡量,发现它可以与之前的特定任务监督模型相媲美。"12位OpenAI合作者关于该模型的论文中写道。 虽然深度学习给计算机视觉带来了革命性的变化,但目前的方法存在几个主要问题:典型的视觉数据集的创建需要耗费大量的人力和成本,标准的视觉模型只擅长一种任务和一种任务,需要付出巨大的努力才能适应新的任务;在基准上表现良好的模型在压力测试中的表现令人失望,这让人们对整个计算机视觉的深度学习方法产生了怀疑。 设计 CLIP 就是为了解决计算机视觉深度学习方法中的一些主要问题: 1.昂贵的数据集: 深度学习需要大量的数据,而视觉模型传统上采用人工标注的数据集进行训练,这些数据集的构建成本很高,而且只能提供有限数量的预先确定的视觉概念。例如,ImageNet 数据集就需要超过25000名工作人员为22000个对象类别标注1400万张图像。 而相比之下,CLIP 可以从互联网上已经公开可用的文本图像对中学习。减少昂贵的大型标注数据集的需求已经被广泛研究,尤其是自监督学习、对比方法、自训练方法和生成式模型等。 2.范围狭窄: 一个ImageNet模型擅长预测1000个ImageNet类别,但如果我们希望它执行其他的任务,就需要建立一个新的数据集,添加一个输出,并对模型进行微调。 相比之下,CLIP可以适应执行各种各样的视觉分类任务,而不需要额外的训练样本。为了将CLIP应用于一个新的任务,我们只需要将任务的视觉概念名称 "告诉 "CLIP的文本编码器,它就会输出一个CLIP视觉表示的线性分类器。这个分类器的准确度通常可以和监督模型相媲美。 通过设计,该网络可以用自然语言指导它执行大量的分类基准,而不直接优化基准的性能,类似于GPT-2和GPT-3的 "zero-shot "能力。 29.jpg 这是一个关键的变化:通过不直接优化基准,使得结果变得更有代表性:CLIP系统将这种 "robustness gap" 缩小了75%,同时在不使用任何原始的1.28M个已标注样本的情况下,在ImageNet zero-shot上接近ResNet50的性能。 虽然测试发现 CLIP 精通多项任务,但测试也发现 CLIP 在诸如卫星地图分类或淋巴结肿瘤检测等专业任务上存在不足。 这一初步分析旨在说明通用计算机视觉模型所带来的一些挑战,并对其偏差和影响一窥究竟。研究人员希望这项工作能够激励未来对此类模型的能力、缺点和偏见的表征进行研究,以便加速这一领域的发展。 OpenAI首席科学家Ilya Sutskever是这篇详细介绍CLIP的论文作者之一,他最近表示,多模态模型将在2021年成为机器学习的主要趋势。 而谷歌AI负责人Jeff Dean也在2020年做出了类似的预测。

 

DALL-E和CLIP等类似的一系列生成模型,都具有模拟或扭曲现实来预测人们如何绘制风景和静物艺术的能力。比如StyleGAN,就表现出了种族偏见的倾向。

 

而从事CLIP和DALL-E的OpenAI研究人员呼吁对这两个系统的潜在社会影响进行更多的研究。GPT-3显示出显著的黑人偏见,因此同样的缺点也可存在于DALL-E中。在CLIP论文中包含的偏见测试发现,该模型最有可能将20岁以下的人错误地归类为罪犯或非人类,被归类为男性的人相比女性更有可能被贴上罪犯的标签,这表明数据集中包含的一些标签数据存在严重的性别差异。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
204 2
|
14天前
|
Go 开发工具
百炼-千问模型通过openai接口构建assistant 等 go语言
由于阿里百炼平台通义千问大模型没有完善的go语言兼容openapi示例,并且官方答复assistant是不兼容openapi sdk的。 实际使用中发现是能够支持的,所以自己写了一个demo test示例,给大家做一个参考。
|
9天前
|
数据采集 人工智能 数据可视化
InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o
近期Internvl2.5发布,性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美,成为首个在MMMU上超过70%的开源模型,通过链式思考(CoT)推理实现了3.7个百分点的提升,展示了强大的测试时间可扩展性潜力。
|
17天前
|
人工智能 自然语言处理 计算机视觉
OpenAI发布sCM提升50倍效率,扩散模型重大技术突破!
OpenAI近期发布了Simplified Consistency Models (sCM) 技术,这是在扩散模型基础上的重大改进,实现了50倍效率提升。sCM通过简化和稳定连续时间一致性模型的训练过程,解决了传统模型中的离散化误差和训练不稳定性问题,显著提升了生成模型的性能和效率。在多个数据集上的测试结果表明,sCM不仅超越了现有模型,还在生成模型的实际应用中展现了巨大潜力。论文地址:https://arxiv.org/abs/2410.11081
37 3
|
23天前
|
自然语言处理 搜索推荐 Serverless
基于函数计算部署GPT-Sovits模型实现语音生成
阿里云开发者社区邀请您参加“基于函数计算部署GPT-Sovits模型实现语音生成”活动。完成指定任务即可获得收纳箱一个。活动时间从即日起至2024年12月13日24:00:00。快来报名吧!
|
23天前
|
弹性计算 自然语言处理 搜索推荐
活动实践 | 基于函数计算部署GPT-Sovits模型实现语音生成
通过阿里云函数计算部署GPT-Sovits模型,可快速实现个性化声音的文本转语音服务。仅需少量声音样本,即可生成高度仿真的语音。用户无需关注服务器维护与环境配置,享受按量付费及弹性伸缩的优势,轻松部署并体验高质量的语音合成服务。
|
29天前
|
人工智能 计算机视觉 网络架构
OpenAI攻克扩散模型短板,清华校友路橙、宋飏合作最新论文
扩散模型在生成AI领域取得显著成果,但其训练不稳定性和采样速度慢限制了发展。OpenAI与清华校友合作,提出连续时间一致性模型(CMs),通过TrigFlow等创新解决了这些问题,大幅提升了训练稳定性和计算效率,实现了与最优模型相当的样本质量,同时减少了计算资源消耗。
39 2
|
28天前
|
SQL 机器学习/深度学习 人工智能
今日 AI 开源|共 4 项|DeepSeek 推出新一代 AI 推理模型,实力比肩 OpenAI o1-preview!
本文介绍了四个最新的 AI 开源项目,涵盖多模态生成式 AI、自然语言到 SQL 转化、多模态数学推理和复杂逻辑推理等多个领域,为 AI 应用开发提供了丰富的资源和工具。
113 0
今日 AI 开源|共 4 项|DeepSeek 推出新一代 AI 推理模型,实力比肩 OpenAI o1-preview!
|
1月前
|
人工智能 测试技术 人机交互
mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVA
【10月更文挑战第24天】EMOVA(EMotionally Omni-present Voice Assistant)是一项多模态全能助手的研究,旨在实现更自然、更智能的人机交互。该模型不仅能够处理图像、文本和语音,还具备丰富的情感表达能力。通过语义-声学解耦的语音标记器、全模态对齐和轻量级风格模块,EMOVA在视觉-语言和语音基准测试中表现出色,适用于智能助手、虚拟现实、教育和娱乐等领域。
28 3
|
5月前
|
存储 SQL 数据库
Python 金融编程第二版(GPT 重译)(四)(4)
Python 金融编程第二版(GPT 重译)(四)
53 3

热门文章

最新文章