AI图像生成哪家强,Google 的 IMAGEN vs OpenAI 的 DALLE2

简介: 图像生成领域卷起来了。

昨天我们聊到了OpenAI公司出品的DALL-E 2模型,可以轻松加愉悦的完成文本到图像的转换。

可技术创新有可能不是螺旋式上升,波浪式前进的,而是飞跃式的。

仅仅一个月之后,卷王Google就推出了自己的文本到图像生成模型,或者叫模型工厂,因为它的实现不仅仅是依赖于一个简单的模型,而是一堆大小模型的组合,Google给它取名叫做 Imagen。

Imagen 一出,就剑指DALL-E 2,Google 的论文《Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding》中就直接给出Imagen 吊打 DALL-E 2的例子。

Imagen V.S. DALL-E 2

下面从几个角度看看,Imagen是如何吊打DALL-E 2的。

颜色分类

image.png

(一个黄色的书和一个红色的花瓶)

评:文本描述是,一个黄色的书和一个红色的花瓶,看来 DALL-E 2 确实把颜色搞反了。

容易让人误解的文字描述:英文文本理解

image.png

评:

A couple of glasses are sitting on a table. 英语过了6级的我,对这句话的翻译也懵懵的。A couple of glasses 到底应该翻译为一对玻璃杯还是一副眼镜?

查了查资料才明白,原来,a couple of glasses 既可以翻译为一副眼镜,也可以翻译为一对玻璃杯,关键在于动词是不是复数。注意这里用的是 are, 很显然,正确翻译是一对玻璃杯。而 DALL-E 2 中却有的图片生成出现了眼镜。

Imagen 更胜一筹。

文本位置展示

image.png

评:这个例子是希望在纽约天际上空,出现Hello World字样,并且伴有烟花。DALL-E 2 很明显出现了几处 Hellow world 的错误文本。此处Imagen又胜出。

除此之外,论文中还列举了很多例子,不多赘述。

Google凭借 Imagen 的出色发挥,可以说直接吊打了 DALL-E 2,并且顺便碾压了下另一个模型GLIDE。

总结下来就是一句话。

Google借着这篇论文,向其他文本-图像模型说了句:你们都是弟弟。

伦理问题

遥想2013年,快播兴盛至极,风头一时无两。几乎每个电脑的桌面上,都能看到一个红色圆圈的标志。

可突然之间,快播被禁,创始人被抓,锒铛入狱,只留下一句互联网上流传至今的名言:“技术是无罪的。”

没错,技术无罪。

但被滥用了,创始人就被抓了。

Imagen 同样面临这个问题。

你能想象一个人对着模型说。

嘿,给我生成一张吴某某的绯闻照片。

或者更细节的,生成一张吴某某和谁谁谁在哪里,干什么的照片。

想起了死亡笔记。虽然不至于致人身亡,即使莫须有的照片,但社会影响,足以让一个奋斗多年的人,身败名裂。造假的代价太小,而影响太大。

很显然,Google意识到了这个问题。

如果对文本描述不加限制,对图像生成不加限制。最终生成一些越来越真实并且带有社会危害性的图片,那不是Google想看到的。

于是,Google很聪明,做了一些声明。

首先,文本-图像的使用场景多种多样,并且很可能会影响社会,潜在的风险会让人们批判这个项目,因此决定不进行开源和在公开场合进行功能演示。

其次,文本-图像的生成需求,会导致大量各行业从业人员严重依赖AI模型和数据。同时,训练Imagen需要涉及到大量的数据集,包括色情图像、种族主义诽谤和有害的社会刻板印象等相关文件,会进一步增加模型和公众使用的风险,所以决定Imagen不对公众开放。

最后,文本-图像的评估方法还需要进一步研究,以消除社会和文化偏见。

声明的很好,我们的技术很牛,但我们不对外开放。

什么时候解决了社会伦理问题,我们再考虑公开。

One More Thing

《三体2:黑暗森林》中有一个画面。

当三体舰队到达地球时,所有的人类科技在三体文明面前都是渣渣,人类存亡危在旦夕。罗辑站在自己的坟墓前,拿着手枪,对着自己的脑袋,向三体人喊到:“我要和三体人通话。”

...

罗辑赢了,不费一颗子弹,利用他的社会宇宙学——黑暗森林法则,开启了人类与三体人共生共存的威慑纪元。

写到这,我意识到。

自然科学的发展与人文社会学的发展应该是相辅相成的。

自然科技发展快了,社会伦理跟不上,需要等一等。

尤其在人工智能,这种到处都有可能面临伦理道德风险的行业。

自然科学发展的再好,也逃脱不了社会伦理人文的约束。曾经的“学好数理化,走遍天下都不怕”的思想,需要审视一下了。

相关文章
|
1月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
315 41
|
7月前
|
人工智能 编解码 物联网
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
UNO是字节跳动开发的AI图像生成框架,通过渐进式跨模态对齐和通用旋转位置嵌入技术,解决了多主体场景下的生成一致性问题。该框架支持单主体特征保持与多主体组合生成,在虚拟试穿、产品设计等领域展现强大泛化能力。
476 4
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
|
7月前
|
机器学习/深度学习 人工智能 计算机视觉
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
美图WHEE推出的Miracle F1采用扩散模型技术,通过精准语义理解和多风格生成能力,可产出具有真实光影质感的专业级图像作品。
350 5
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
|
6月前
|
人工智能 弹性计算 智能设计
🎨 三步打造AI创意工坊 | 通义万相图像生成服务极速部署指南
🚀 从零到大师 | 通义万相智能创作系统部署指南
|
7月前
|
人工智能 测试技术 API
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
PaperBench是OpenAI推出的开源评测框架,通过8316个评分节点系统评估AI智能体复现学术论文的能力,涵盖理论理解、代码实现到实验执行全流程。
520 30
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
|
6月前
|
人工智能 自然语言处理 安全
💻 Codex 来了:OpenAI 推出多任务软件工程 AI 代理,开发者工作方式将被重塑?
Codex 是 OpenAI 推出的一款云端智能开发代理,基于优化后的 Codex-1 模型,能够执行从代码编写、Bug 修复到 PR 提交的完整工程任务。通过 ChatGPT 的界面,用户可向 Codex 分配任务,它将在独立沙盒中运行并返回结果。Codex 支持多任务异步处理,遵循项目规范(AGENTS.md),并生成日志与测试报告以确保透明性。作为“AI 参与式开发”的里程碑,Codex 不仅提升效率,还可能重塑开发者角色,使他们从具体编码转向指导 AI 完成任务,推动软件工程进入意图驱动的新时代。
595 16
|
7月前
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
520 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
|
7月前
|
人工智能 搜索推荐 API
RAG vs. MCP: 你不知道你需要的 AI 充电接口
本文通过“充电接口”比喻,对比了两种AI技术:RAG(特定充电口)和MCP(通用充电口)。RAG像专用数据线,每次需连接外部数据库检索信息,适合动态查询;MCP则似USB-C,依靠内置记忆提供快速、个性化响应,适用于长期交互。两者各有优劣,RAG灵活但效率低,MCP高效却可能缺乏最新数据。未来可能是两者的结合:MCP负责上下文记忆,RAG获取最新资讯,实现更自然的AI对话体验。文章还探讨了如何用Apipost设计适配两者的API,助力AI系统开发。

热门文章

最新文章

推荐镜像

更多