AI图像生成哪家强,Google 的 IMAGEN vs OpenAI 的 DALLE2

简介: 图像生成领域卷起来了。

昨天我们聊到了OpenAI公司出品的DALL-E 2模型,可以轻松加愉悦的完成文本到图像的转换。

可技术创新有可能不是螺旋式上升,波浪式前进的,而是飞跃式的。

仅仅一个月之后,卷王Google就推出了自己的文本到图像生成模型,或者叫模型工厂,因为它的实现不仅仅是依赖于一个简单的模型,而是一堆大小模型的组合,Google给它取名叫做 Imagen。

Imagen 一出,就剑指DALL-E 2,Google 的论文《Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding》中就直接给出Imagen 吊打 DALL-E 2的例子。

Imagen V.S. DALL-E 2

下面从几个角度看看,Imagen是如何吊打DALL-E 2的。

颜色分类

image.png

(一个黄色的书和一个红色的花瓶)

评:文本描述是,一个黄色的书和一个红色的花瓶,看来 DALL-E 2 确实把颜色搞反了。

容易让人误解的文字描述:英文文本理解

image.png

评:

A couple of glasses are sitting on a table. 英语过了6级的我,对这句话的翻译也懵懵的。A couple of glasses 到底应该翻译为一对玻璃杯还是一副眼镜?

查了查资料才明白,原来,a couple of glasses 既可以翻译为一副眼镜,也可以翻译为一对玻璃杯,关键在于动词是不是复数。注意这里用的是 are, 很显然,正确翻译是一对玻璃杯。而 DALL-E 2 中却有的图片生成出现了眼镜。

Imagen 更胜一筹。

文本位置展示

image.png

评:这个例子是希望在纽约天际上空,出现Hello World字样,并且伴有烟花。DALL-E 2 很明显出现了几处 Hellow world 的错误文本。此处Imagen又胜出。

除此之外,论文中还列举了很多例子,不多赘述。

Google凭借 Imagen 的出色发挥,可以说直接吊打了 DALL-E 2,并且顺便碾压了下另一个模型GLIDE。

总结下来就是一句话。

Google借着这篇论文,向其他文本-图像模型说了句:你们都是弟弟。

伦理问题

遥想2013年,快播兴盛至极,风头一时无两。几乎每个电脑的桌面上,都能看到一个红色圆圈的标志。

可突然之间,快播被禁,创始人被抓,锒铛入狱,只留下一句互联网上流传至今的名言:“技术是无罪的。”

没错,技术无罪。

但被滥用了,创始人就被抓了。

Imagen 同样面临这个问题。

你能想象一个人对着模型说。

嘿,给我生成一张吴某某的绯闻照片。

或者更细节的,生成一张吴某某和谁谁谁在哪里,干什么的照片。

想起了死亡笔记。虽然不至于致人身亡,即使莫须有的照片,但社会影响,足以让一个奋斗多年的人,身败名裂。造假的代价太小,而影响太大。

很显然,Google意识到了这个问题。

如果对文本描述不加限制,对图像生成不加限制。最终生成一些越来越真实并且带有社会危害性的图片,那不是Google想看到的。

于是,Google很聪明,做了一些声明。

首先,文本-图像的使用场景多种多样,并且很可能会影响社会,潜在的风险会让人们批判这个项目,因此决定不进行开源和在公开场合进行功能演示。

其次,文本-图像的生成需求,会导致大量各行业从业人员严重依赖AI模型和数据。同时,训练Imagen需要涉及到大量的数据集,包括色情图像、种族主义诽谤和有害的社会刻板印象等相关文件,会进一步增加模型和公众使用的风险,所以决定Imagen不对公众开放。

最后,文本-图像的评估方法还需要进一步研究,以消除社会和文化偏见。

声明的很好,我们的技术很牛,但我们不对外开放。

什么时候解决了社会伦理问题,我们再考虑公开。

One More Thing

《三体2:黑暗森林》中有一个画面。

当三体舰队到达地球时,所有的人类科技在三体文明面前都是渣渣,人类存亡危在旦夕。罗辑站在自己的坟墓前,拿着手枪,对着自己的脑袋,向三体人喊到:“我要和三体人通话。”

...

罗辑赢了,不费一颗子弹,利用他的社会宇宙学——黑暗森林法则,开启了人类与三体人共生共存的威慑纪元。

写到这,我意识到。

自然科学的发展与人文社会学的发展应该是相辅相成的。

自然科技发展快了,社会伦理跟不上,需要等一等。

尤其在人工智能,这种到处都有可能面临伦理道德风险的行业。

自然科学发展的再好,也逃脱不了社会伦理人文的约束。曾经的“学好数理化,走遍天下都不怕”的思想,需要审视一下了。

相关文章
|
2天前
|
人工智能 UED
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
VersaGen 是一款生成式 AI 代理,专注于文本到图像合成中的视觉控制能力,支持多种视觉控制类型,并通过优化策略提升图像生成质量和用户体验。
20 8
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
|
16天前
|
人工智能 数据可视化 JavaScript
NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台
NodeTool 是一个开源的 AI 工作流可视化构建器,通过拖放节点的方式设计复杂的工作流,无需编码即可快速原型设计和测试。它支持本地 GPU 运行 AI 模型,并与 Hugging Face、OpenAI 等平台集成,提供模型访问能力。
92 14
NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台
|
8天前
|
人工智能 自然语言处理 并行计算
ASAL:Sakana AI 联合 OpenAI 推出自动探索人工生命的系统,通过计算机模拟生命进化的过程
ASAL 是由 Sakana AI 联合 OpenAI 等机构推出的自动化搜索人工生命系统,基于基础模型实现多种搜索机制,扩展了人工生命研究的边界。
59 1
ASAL:Sakana AI 联合 OpenAI 推出自动探索人工生命的系统,通过计算机模拟生命进化的过程
|
17天前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
64 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
22天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
123 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
14天前
|
存储 人工智能 安全
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
|
25天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
66 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
25天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
63 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
24天前
|
人工智能 编解码 机器人
OpenAI又出王炸了!正式推出超强AI视频模型Sora
OpenAI正式推出AI视频生成模型Sora,可根据文本提示生成逼真视频,面向美国及其他市场ChatGPT付费用户开放。Sora Turbo支持生成长达20秒的视频及多种变体,具备模拟物理世界的新兴能力,可创建多镜头视频,提供Remix和Storyboard等创新功能。
53 4
OpenAI又出王炸了!正式推出超强AI视频模型Sora
|
11天前
|
人工智能 安全 机器人
OpenAI重拾规则系统,用AI版机器人定律守护大模型安全
在人工智能领域,大语言模型(LLM)展现出强大的语言理解和生成能力,但也带来了安全性和可靠性挑战。OpenAI研究人员提出“规则基于奖励(RBR)”方法,通过明确规则引导LLM行为,确保其符合人类价值观和道德准则。实验显示,RBR方法在安全性与有用性之间取得了良好平衡,F1分数达97.1。然而,规则制定和维护复杂,且难以完全捕捉语言的多样性。论文:https://arxiv.org/pdf/2411.01111。
53 13

热门文章

最新文章