谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型(1)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型

继 Imagen 后,谷歌又推出了文本 - 图像生成模型 Parti。


你见过一只小狗破壳而出吗?或者用飞艇俯瞰蒸汽朋克中的城市?又或者两个机器人在电影院像人类一样看电影…… 这些听起来可能有些天马行空,但一种名为「文本到图像生成」的新型机器学习技术使这些成为可能。

谷歌研究院的科学家和工程师一直致力于探索使用各种 AI 技术生成文本到图像的方法。

今年 5 月底,谷歌推出 AI 创作神器 Imagen,它结合了 Transformer 语言模型和高保真扩散模型的强大功能,在文本到图像的合成中提供前所未有的逼真度和语言理解能力。与仅使用图像 - 文本数据进行模型训练的先前工作相比,Imagen 的关键突破在于:谷歌的研究者发现在纯文本语料库上预训练的大型 LM 的文本嵌入对文本到图像的合成显著有效。Imagen 的文本到图像生成可谓天马行空,能生成多种奇幻却逼真的有趣图像。

Imagen 生成效果是这样的,比如正在户外享受骑行的柴犬(下图左)以及狗狗照镜子发现自己是只猫(下图右):

时隔没多久,谷歌又推出了 Parti(Pathways Autoregressive Text-to-Image),该模型最高可扩展至 200 亿参数,并且随着可使用参数数量的增长,其输出的图像也能够更加逼真。

值得一提的是,这是谷歌大牛 Jeff Dean 提出的多任务 AI 大模型蓝图 Pathways 的一部分。

我们先来看下 Parti 效果,袋熊在瀑布旁,背着书包,拄着拐杖眺望着远方:

埃及阿努比斯肖像,在洛杉矶背景下,戴着飞行员护目镜,穿着白色 t 恤和黑色皮夹克:

一只熊猫戴着一顶巫师帽骑在马上:

下面我们介绍一下 Parti 的实现原理。

Parti 模型

与 DALL-E、CogView 和 Make-A-Scene 类似,Parti 是一个两阶段模型,由图像 tokenizer 和自回归模型组成,如下图 3 所示。第一阶段训练一个 tokenizer,该 tokenizer 可以将图像转换为一系列离散的视觉 token,用于训练并在推理时重建图像。第二阶段训练从文本 token 生成图像 token 的自回归序列到序列模型。


相关文章
|
11月前
|
机器学习/深度学习 供应链 安全
TSMixer:谷歌发布的用于时间序列预测的全新全mlp架构
这是谷歌在9月最近发布的一种新的架构 TSMixer: An all-MLP architecture for time series forecasting ,TSMixer是一种先进的多元模型,利用线性模型特征,在长期预测基准上表现良好。据我们所知,TSMixer是第一个在长期预测基准上表现与最先进的单变量模型一样好的多变量模型,在长期预测基准上,表明交叉变量信息不太有益。”
203 1
|
3月前
|
机器学习/深度学习 语音技术
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩
【6月更文挑战第12天】谷歌DeepMind的Zipper架构解决了多模态大模型灵活性问题,通过分解为单模态模型并用“压缩”过程组合,实现多模态生成。该方法允许独立训练每个模态,提升灵活性和可扩展性,适用于数据有限或领域特定的模态。Zipper利用交叉注意力机制融合模态输出,适用于图像描述、语音识别等任务。尽管需要更多计算资源且性能受限于单模态模型质量,但已在ASR和TTS领域展现潜力。论文链接:https://arxiv.org/pdf/2405.18669
47 3
|
4月前
|
机器学习/深度学习 存储 人工智能
谷歌推出TransformerFAM架构,以更低的消耗处理长序列文本
【5月更文挑战第30天】谷歌推出TransformerFAM架构,模仿人脑工作记忆,通过反馈循环处理无限长序列文本,提高长上下文任务性能,尤其在大规模模型中展现优势。尽管训练资源需求大且短序列处理提升有限,实验显示其在叙事问答、长文本摘要等任务上超越传统Transformer。论文链接:https://arxiv.org/abs/2404.09173
206 1
|
机器学习/深度学习 人工智能 并行计算
谷歌下一代AI架构、Jeff Dean宣传大半年的Pathways终于有论文了
谷歌下一代AI架构、Jeff Dean宣传大半年的Pathways终于有论文了
407 0
|
机器学习/深度学习 人工智能 编解码
谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型(2)
谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型
392 0
|
人工智能 编解码 自然语言处理
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测(2)
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测
170 0
|
机器学习/深度学习 人工智能 编解码
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测(1)
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测
237 0
|
Web App开发 缓存 前端开发
谷歌谈SPA架构是如何影响网站核心指标的?
谷歌谈SPA架构是如何影响网站核心指标的?
227 0
谷歌谈SPA架构是如何影响网站核心指标的?
|
机器学习/深度学习 人工智能 自动驾驶
单芯片每秒1000万亿次运算:谷歌TPU原班团队全新AI架构,晶体管性能提升6倍
2016 年底,谷歌 TPU 团队的十位核心开发者中的八位悄悄离职,创办了一家名为 Groq 的机器学习系统公司。在此后的三年里,这家公司一直很低调。但最近,他们带着一款名为 TSP 的芯片架构出现在公众视野里。
250 0
单芯片每秒1000万亿次运算:谷歌TPU原班团队全新AI架构,晶体管性能提升6倍
|
机器学习/深度学习 人工智能 自动驾驶
单芯片每秒1000万亿次运算:谷歌TPU原班团队全新AI架构,晶体管性能提升6倍
2016 年底,谷歌 TPU 团队的十位核心开发者中的八位悄悄离职,创办了一家名为 Groq 的机器学习系统公司。在此后的三年里,这家公司一直很低调。但最近,他们带着一款名为 TSP 的芯片架构出现在公众视野里。
209 0
单芯片每秒1000万亿次运算:谷歌TPU原班团队全新AI架构,晶体管性能提升6倍