AI图像生成哪家强,Google 的 IMAGEN vs OpenAI 的 DALLE2

简介: 图像生成领域卷起来了。

昨天我们聊到了OpenAI公司出品的DALL-E 2模型,可以轻松加愉悦的完成文本到图像的转换。

可技术创新有可能不是螺旋式上升,波浪式前进的,而是飞跃式的。

仅仅一个月之后,卷王Google就推出了自己的文本到图像生成模型,或者叫模型工厂,因为它的实现不仅仅是依赖于一个简单的模型,而是一堆大小模型的组合,Google给它取名叫做 Imagen。

Imagen 一出,就剑指DALL-E 2,Google 的论文《Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding》中就直接给出Imagen 吊打 DALL-E 2的例子。

Imagen V.S. DALL-E 2

下面从几个角度看看,Imagen是如何吊打DALL-E 2的。

颜色分类

image.png

(一个黄色的书和一个红色的花瓶)

评:文本描述是,一个黄色的书和一个红色的花瓶,看来 DALL-E 2 确实把颜色搞反了。

容易让人误解的文字描述:英文文本理解

image.png

评:

A couple of glasses are sitting on a table. 英语过了6级的我,对这句话的翻译也懵懵的。A couple of glasses 到底应该翻译为一对玻璃杯还是一副眼镜?

查了查资料才明白,原来,a couple of glasses 既可以翻译为一副眼镜,也可以翻译为一对玻璃杯,关键在于动词是不是复数。注意这里用的是 are, 很显然,正确翻译是一对玻璃杯。而 DALL-E 2 中却有的图片生成出现了眼镜。

Imagen 更胜一筹。

文本位置展示

image.png

评:这个例子是希望在纽约天际上空,出现Hello World字样,并且伴有烟花。DALL-E 2 很明显出现了几处 Hellow world 的错误文本。此处Imagen又胜出。

除此之外,论文中还列举了很多例子,不多赘述。

Google凭借 Imagen 的出色发挥,可以说直接吊打了 DALL-E 2,并且顺便碾压了下另一个模型GLIDE。

总结下来就是一句话。

Google借着这篇论文,向其他文本-图像模型说了句:你们都是弟弟。

伦理问题

遥想2013年,快播兴盛至极,风头一时无两。几乎每个电脑的桌面上,都能看到一个红色圆圈的标志。

可突然之间,快播被禁,创始人被抓,锒铛入狱,只留下一句互联网上流传至今的名言:“技术是无罪的。”

没错,技术无罪。

但被滥用了,创始人就被抓了。

Imagen 同样面临这个问题。

你能想象一个人对着模型说。

嘿,给我生成一张吴某某的绯闻照片。

或者更细节的,生成一张吴某某和谁谁谁在哪里,干什么的照片。

想起了死亡笔记。虽然不至于致人身亡,即使莫须有的照片,但社会影响,足以让一个奋斗多年的人,身败名裂。造假的代价太小,而影响太大。

很显然,Google意识到了这个问题。

如果对文本描述不加限制,对图像生成不加限制。最终生成一些越来越真实并且带有社会危害性的图片,那不是Google想看到的。

于是,Google很聪明,做了一些声明。

首先,文本-图像的使用场景多种多样,并且很可能会影响社会,潜在的风险会让人们批判这个项目,因此决定不进行开源和在公开场合进行功能演示。

其次,文本-图像的生成需求,会导致大量各行业从业人员严重依赖AI模型和数据。同时,训练Imagen需要涉及到大量的数据集,包括色情图像、种族主义诽谤和有害的社会刻板印象等相关文件,会进一步增加模型和公众使用的风险,所以决定Imagen不对公众开放。

最后,文本-图像的评估方法还需要进一步研究,以消除社会和文化偏见。

声明的很好,我们的技术很牛,但我们不对外开放。

什么时候解决了社会伦理问题,我们再考虑公开。

One More Thing

《三体2:黑暗森林》中有一个画面。

当三体舰队到达地球时,所有的人类科技在三体文明面前都是渣渣,人类存亡危在旦夕。罗辑站在自己的坟墓前,拿着手枪,对着自己的脑袋,向三体人喊到:“我要和三体人通话。”

...

罗辑赢了,不费一颗子弹,利用他的社会宇宙学——黑暗森林法则,开启了人类与三体人共生共存的威慑纪元。

写到这,我意识到。

自然科学的发展与人文社会学的发展应该是相辅相成的。

自然科技发展快了,社会伦理跟不上,需要等一等。

尤其在人工智能,这种到处都有可能面临伦理道德风险的行业。

自然科学发展的再好,也逃脱不了社会伦理人文的约束。曾经的“学好数理化,走遍天下都不怕”的思想,需要审视一下了。

相关文章
|
1天前
|
人工智能 iOS开发 MacOS
[译][AI OpenAI] 引入 GPT-4o 及更多工具至免费版 ChatGPT 用户
我们推出了最新的旗舰模型 GPT-4o,并为免费版 ChatGPT 用户提供更多功能,包括更快的速度、改进的文本、语音和视觉能力,以及新的桌面应用程序和简化的界面。
[译][AI OpenAI] 引入 GPT-4o 及更多工具至免费版 ChatGPT 用户
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
OpenAI 推出 GPT-4o,免费向所有人提供GPT-4级别的AI ,可以实时对音频、视觉和文本进行推理,附使用详细指南
GPT-4o不仅提供与GPT-4同等程度的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力,无论你是付费用户,还是免费用户,都能通过它体验GPT-4了
28 1
|
2天前
|
机器学习/深度学习 人工智能 安全
[译][AI OpenAI] 您好,GPT-4o
GPT-4o 是OpenAI的新旗舰模型,能够处理文本、音频和图像,并生成各种组合的输出。它在语言理解、视觉感知和音频处理方面表现出色。本文介绍了GPT-4o的能力、评估结果、安全性和局限性,以及其可用性和未来计划。
[译][AI OpenAI] 您好,GPT-4o
|
2天前
|
人工智能 JSON 机器人
[译][AI OpenAI-doc] 延迟优化
本指南涵盖了一系列核心原则,您可以应用这些原则来改善在各种LLM相关用例中的延迟。这些技术来自于与广泛的客户和开发人员在生产应用程序上的合作,因此无论您正在构建什么——从细粒度的工作流程到端到端的聊天机器人,都应该适用!
[译][AI OpenAI-doc] 延迟优化
|
2天前
|
人工智能 监控 安全
[译][AI OpenAI-doc] 安全最佳实践
这篇文章总结了安全最佳实践,涵盖了使用免费 Moderation API 减少不安全内容频率的建议,对抗性测试的重要性,人在环路中审查输出的必要性,以及限制用户输入输出标记和允许用户报告问题的方法。文章强调了理解和沟通模型的限制的重要性,并提供了关于最终用户 ID 的建议。
|
2天前
|
存储 人工智能 缓存
[译][AI OpenAI-doc] 生产最佳实践
本指南提供了一套全面的最佳实践,以帮助您从原型转向生产。无论您是经验丰富的机器学习工程师还是最近的爱好者,本指南都应为您提供成功将平台投入生产环境所需的工具:从确保访问我们的API到设计能够处理高流量的稳健架构。使用本指南帮助制定尽可能平稳有效地部署应用程序的计划。
|
2天前
|
XML 存储 人工智能
[译][AI OpenAI-doc] Prompt工程
这个指南分享了从大型语言模型(有时称为GPT模型)如GPT-4 中获得更好结果的策略和技巧。这里描述的方法有时可以结合使用以达到更好的效果。我们鼓励进行实验,找到最适合您的方法。
[译][AI OpenAI-doc] Prompt工程
|
2天前
|
存储 人工智能 JSON
[译][AI OpenAI-doc] v2 有什么新功能?Beta
2024年4月,我们宣布了一系列新功能和改进的助手API,并将我们的Beta版移至一个新的API版本,OpenAI-Beta: assistants=v2。了解更多详情,请查看我们的迁移指南。
|
2天前
|
存储 人工智能 API
[译][AI OpenAI-doc] 迁移指南 Beta
我们已经改变了助手 API 在 beta 的 v1 版本和 v2 版本之间工具和文件的工作方式。今天,通过 API,两个 beta 版本仍然可以访问,但我们建议尽快迁移到我们 API 的最新版本。我们将在 2024 年底之前废弃 beta 的 v1 版本。
[译][AI OpenAI-doc] 迁移指南 Beta
|
2天前
|
人工智能 API 开发工具
[译][AI OpenAI-doc] 函数调用 Beta
类似于聊天完成 API,助手 API 支持函数调用。函数调用允许您描述函数给助手 API,并让它智能地返回需要调用的函数及其参数。

热门文章

最新文章