哈佛大学砸场子:DALL-E 2只是「粘合怪」,生成正确率只有22%

简介: 哈佛大学砸场子:DALL-E 2只是「粘合怪」,生成正确率只有22%
【新智元导读】DALL-E 2生成的图像确实令人惊叹,但它也有弊端,哈佛大学最新研究表明,文本提示内的关系它根本都不懂,生成图像的正确率仅有22%!


DALL-E 2刚发布的时候,生成的画作几乎能完美复现输入的文本,高清的分辨率、强大的绘图脑洞也是让各路网友直呼「太炫酷」。

 

 

但最近哈佛大学的一份新研究论文表明,尽管DALL-E 2生成的图像很精致,但它可能只是把文本中的几个实体粘合在一起,甚至都没有理解文本中表述的空间关系

 

论文链接:https://arxiv.org/pdf/2208.00005.pdf

数据链接:https://osf.io/sm68h/

 

比如说给出一句文本提示为「A cup on a spoon」,可以看到DALL-E 2生成的图像中,可以看到有部分图像就没有满足「on」关系。

 

 

但在训练集中,DALL-E 2可能见到的茶杯和勺子的组合都是「in」,而「on」则比较少见,所以在两种关系的生成上,准确率也并不相同

 

 

所以为了探究DALL-E 2是否真的能理解文本中的语义关系,研究人员选择了15类关系,其中8个为空间关系(physical relation),包括in, on, under, covering, near, occluded by, hanging over和tied to;7个动作关系(agentic relation),包括pushing, pulling, touching, hitting, kicking, helping和hindering.

 

文本中的实体集合限制为12个,选取的都是简单的、各个数据集中常见的物品,分别为:box, cylinder, blanket, bowl, teacup, knife; man, woman, child, robot, monkey和iguana(鬣蜥).

 

 

对于每类关系,创建5个prompts,每次随机选择2个实体进行替换,最终生成75个文本提示。提交到DALL-E 2渲染引擎后,选择前18张生成图像,最终获得1350张图像。

 

随后研究人员从180名标注人员中通过常识推理测试选拔出169名参与到标注的过程。

 

实验结果发现,DALL-E 2生成的图像和用于生成图像的文本提示之间一致性的平均值在75个prompt中仅为22.2%

 

 

不过很难说DALL-E 2到底是否真正「理解」了文本中的关系,通过观察标注人员的一致性评分,按照0%、25%和50%的一致同意阈值来看,对每个关系进行的Holm-corrected的单样本显著性检验表明,所有15个关系的参与者同意率在α = 0.95(pHolm < 0.05)时都明显高于0%;但只有3个关系的一致性明显高于25%,即touching, helping和kicking,没有关系的一致性高于50%。

 

所以即使不对多重比较进行校正,事实就是DALL-E 2生成的图像并不能理解文本中两个物体的关系。

 

 

结果还表明,DALL-E在把两个不相关物体联系在一起的能力可能没有想象中那么强,比如说「A child touching a bowl」的一致性达到了87%,因为在现实世界中的图像,孩子和碗出现在一起的频率很高。

 

 

而「A monkey touching an iguana」生成的图像,最终一致率只有11%,而且在渲染出来的图像中甚至会出现物种错误。

 

 

所以DALL-E 2中的图像部分类别是开发较完善的,比如孩子与食物,但有些类别的数据中还需要继续训练。

 

不过当前DALL-E 2在官网上还是主要展示其高清晰度和写实风格,还没有搞清楚其内在到底是把两个物体「粘在一起」,还是真正理解文本信息后再进行图像生成。

 

研究人员表示,关系理解是人类智力的基本组成部分,DALL-E 2在基本的空间关系方面表现不佳(例如on,of)表明,它还无法像人类一样如此灵活、稳健地构建和理解这个世界。

 

不过网友表示,能开发出「胶水」把东西粘在一起已经是一个相当伟大的成就了!DALL-E 2并非AGI,未来仍然有很大的进步空间,至少我们已经开启了自动化生成图像的大门!

 

 

DALL-E 2还有啥问题?

 

实际上,DALL-E 2一发布,就有大量的从业者对其优点与缺陷进行了深入剖析。

博客链接:https://www.lesswrong.com/posts/uKp6tBFStnsvrot5t/what-dall-e-2-can-and-cannot-do

 

用GPT-3写小说略显单调,DALL-E 2可以为文本生成一些插图,甚至对长文本生成连环画。

 

比如说DALL-E 2可以为图片增加特征,如「A woman at a coffeeshop working on her laptop and wearing headphones, painting by Alphonse Mucha」,可以精确生成绘画风格、咖啡店、戴耳机、笔记本电脑,等等。

 

 

但如果文本中的特征描述涉及两个人,DALL-E 2可能就会忘了哪些特征属于哪个人物,比如输入文本为:

a young dark-haired boy resting in bed, and a grey-haired older woman sitting in a chair beside the bed underneath a window with sun streaming through, Pixar style digital art.


一个年轻的黑发男孩躺在床上,一个灰头发的老妇坐在窗户下面的床旁边的椅子上,阳光穿过,皮克斯风格的数字艺术。

 

 

可以看到,DALL-E 2可以正确生成窗户、椅子和床,但在年龄、性别和头发颜色的特征组合上,生成的图像略显迷茫。

 

另一个例子是让「美国队长和钢铁侠并排站」,可以看到生成的结果很明显具有美国队长和钢铁侠的特征,但具体的元素却安在了不同的人身上(比如钢铁侠带着美国队长的盾牌)。

 

 

如果是特别细节的前景与背景,模型可能也无法生成。

 

比如输入文本是:

Two dogs dressed like roman soldiers on a pirate ship looking at New York City through a spyglass.


两只狗在海盗船上像罗马士兵一样用小望远镜看纽约市。

 

这回DALL-E 2直接就罢工了,博文作者花了半个小时也没搞定,最终需要在「纽约市和海盗船」或「带着望远镜、穿着罗马士兵制服的狗」之间进行选择。

 

Dall-E 2可以使用通用的背景来生成图像,比如城市、图书馆中的书架,但如果这不是图像的主要重点,那么想要获得更细的细节往往会变得非常难。

 

尽管DALL-E 2能生成常见的物体,比如各种花里胡哨的椅子,但要是让它生成一个「奥拓自行车」,结果生成的图片和自行车有点像,又不完全是。

 

 

而谷歌图片下搜索的Otto Bicycle则是下面这样的。

 

 

DALL-E 2也无法拼写,但偶尔也会完全巧合地正确拼写出一个单词,比如让它在停车标志上写下STOP

 

虽然模型确实能生成一些「可识别」的英语字母,但连起来的语义和预期的单词还有差别,这也是DALL-E 2不如第一代DALL-E的地方。

 

 

在生成乐器相关的图像时,DALL-E 2似乎是记住了人手在演奏时的位置,但没有琴弦,演奏起来稍显尴尬。

 

 

DALL-E 2还提供了一个编辑功能,比如生成一个图像后,可以使用光标突出显示其区域,并添加修改的完整说明即可。

 

但这项功能并非一直有效,比如想给原图加个「短发」,编辑功能总是能在奇怪的地方加点东西。

 

 

技术还在不断更新发展,期待DALL-E 3!


参考资料:https://www.unite.ai/is-dall-e-2-just-gluing-things-together-without-understanding-their-relationships/

相关文章
|
Java Python
burpsuite安装sqlmap模块---神器合一
今天有点时间,赶紧记录一个坑!哈哈... 都知道burpsuite是web渗透神器,里面不仅模块功能集成好用,而且可以自定义安装扩展模块, 当然牛人也可以自己写一个模块与其对接,这个对于我来说来说目前是望尘莫及 今天要记录的是burp扩展安装sqlmapapi,废话不多说,开始教程 step1.
2329 0
|
弹性计算 搜索推荐 网络安全
使用阿里云ECS搭建Perforce服务器用于Unreal(虚幻,Ue4)项目版本管理
游戏项目通常有很多二进制文件,如游戏贴图和各类游戏资产。使用面向文本文件的版本管理工具如git时,会导致诸多问题:1. 分支和版本的增加使项目迅速膨胀。2. 受到代码仓库的文件大小限制而无法上传文件。虚幻官方推荐面向文件的Perforce或SVN作为版本同步工具,本文介绍如何使用阿里云ECS搭建Perforce版本管理服务器的流程。
使用阿里云ECS搭建Perforce服务器用于Unreal(虚幻,Ue4)项目版本管理
|
机器学习/深度学习 人工智能 编解码
EasyControl Ghibli:在线体验一键生成宫崎骏动画风,开源AI模型让你的照片秒变吉卜力
EasyControl Ghibli是基于扩散模型的AI工具,通过条件注入技术将普通照片转化为吉卜力动画风格,仅需100张训练样本即可精准还原标志性光影与色调特征。
1547 11
EasyControl Ghibli:在线体验一键生成宫崎骏动画风,开源AI模型让你的照片秒变吉卜力
|
设计模式 存储 安全
「全网最细 + 实战源码案例」设计模式——组合模式
组合模式(Composite Pattern)是一种结构型设计模式,用于将对象组合成树形结构以表示“部分-整体”的层次结构。它允许客户端以一致的方式对待单个对象和对象集合,简化了复杂结构的处理。组合模式包含三个主要组件:抽象组件(Component)、叶子节点(Leaf)和组合节点(Composite)。通过这种模式,客户端可以统一处理简单元素和复杂元素,而无需关心其内部结构。适用于需要实现树状对象结构或希望以相同方式处理简单和复杂元素的场景。优点包括支持树形结构、透明性和遵循开闭原则;缺点是可能引入不必要的复杂性和过度抽象。
489 22
|
机器学习/深度学习 人工智能 自然语言处理
还不懂如何与AI高效交流?保姆级且全面的chatGPT提示词工程教程来啦!(一)基础篇
这篇文章是一篇保姆级的教程,旨在全面介绍如何与AI进行高效交流,包括ChatGPT的前世今生、应用场景以及提问的基础技巧。
还不懂如何与AI高效交流?保姆级且全面的chatGPT提示词工程教程来啦!(一)基础篇
|
算法 Java Go
【经典算法】LeetCode 69. x 的平方根(Java/C/Python3/Golang实现含注释说明,Easy)
【经典算法】LeetCode 69. x 的平方根(Java/C/Python3/Golang实现含注释说明,Easy)
351 1
|
人工智能 自然语言处理 小程序
|
缓存 负载均衡 Oracle
面试官:说下你在项目中是如何处理高并发的???
面试官:说下你在项目中是如何处理高并发的???
714 0
面试官:说下你在项目中是如何处理高并发的???
|
数据采集 运维 算法
Best Matching Unit,简称 BMU
最佳匹配单元(Best Matching Unit,简称 BMU)是自组织映射(Self-Organizing Maps,简称 SOM)算法中的一个重要概念。在 SOM 网络中,每个神经元都对应一个权重向量,表示该神经元对输入特征的响应。BMU 是指在 SOM 网络中与输入数据最相似的神经元,即具有与输入数据最接近的权重向量。在训练过程中
846 3
|
人工智能 PyTorch 数据库
AI + Milvus:将时尚应用搭建进行到底
如何利用人工智能技术(例如开源 AI 向量数据库 Milvus 和 Hugging Face 模型)寻找与自己穿搭风格相似的明星。
650 0

热门文章

最新文章