论文推荐:谷歌Masked Generative Transformers 以更高的效率实现文本到图像的 SOTA

简介: 基于文本提示的生成图像模型近年来取得了惊人的进展,这得益于新型的深度学习架构、先进的训练范式(如掩码建模)、大量图像-文本配对训练数据的日益可用,以及新的扩散和基于掩码的模型的发展。

在23年1月新发布的论文 Muse中:Masked Generative Transformers 生成文本到图像利用掩码图像建模方法来达到了最先进的性能,零样本 COCO 评估的 FID 分数为 7.88,CLIP 分数为 0.32——同时明显快于扩散或传统自回归模型。

google团队总结了它们的主要贡献如下:

  • 提出了一个最先进的文本到图像生成模型,该模型获得了出色的 FID 和 CLIP 分数(图像生成质量、多样性和与文本提示对齐的定量测量)。
  • 由于使用了量化图像标记和并行解码,模型明显快于同类模型。
  • 架构支持开箱即用的零样本编辑功能,包括inpainting, outpainting和free mask编辑。

Muse构建在谷歌的T5之上,T5是一个大型语言模型,它接受各种文本到文本任务的训练,可通过掩码transformer 架构生成高质量图像。Muse 从 T5 嵌入中继承了有关对象、动作、视觉属性、空间关系等的丰富信息;并学习将这些丰富的概念与生成的图像相匹配。

Muse一共包含八个核心组件,例如它的语义标记化,它使用VQGAN模型的编码器和解码器对来自不同分辨率的图像进行编码,并输出离散的标记,这些标记捕获图像的更高级别语义,而不受低级别噪声的影响。

超分辨率模型将较低分辨率的潜在映射转换为更高分辨率的潜在映射,并通过更高分辨率的 VQGAN 解码生成最终的高分辨率图像。研究人员还在保持编码器的容量固定的前提下向 VQGAN 解码器添加额外的残差层和通道,然后微调这些新层,同时保持 VQGAN 编码器的权重等固定。由于视觉标记“语言”保持不变,因此可以在不重新训练任何其他模型组件的情况下可以改善生成图像的细节和视觉质量。

为了改进 Muse 的文本图像对齐,还使用了一种无分类器指导 (classifier-free guidance) 的方法,该方法线性增加引导尺度,在低引导或无引导的情况下对早期标记进行采样,对后面的标记逐渐增加条件提示的影响。还采用并行解码来减少推理时间。

在他们的实证研究中,Muse与各种文本到图像生成任务的流行基准模型进行了比较。Muse 900M参数模型在CC3M数据集上实现了新的SOTA, FID评分为6.06(越低越好),而Muse 3B参数模型在零样本COCO获得了7.88的FID评分,CLIP 分数为 0.32。

Muse展示了令人印象深刻的无需微调的零样本编辑功能,进一步证实了冻结的大型预训练语言模型作为文本到图像生成的强大而高效的文本编码器的潜力。

这是一篇非常值得推荐的论文,并且google还为他制作了专门的网站:

https://avoid.overfit.cn/post/55897da82dd241f394372fc76260320d

作者:Synced

目录
相关文章
|
4天前
|
人工智能 运维 安全
|
2天前
|
人工智能 异构计算
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
|
9天前
|
人工智能 JavaScript 测试技术
Qwen3-Coder入门教程|10分钟搞定安装配置
Qwen3-Coder 挑战赛简介:无论你是编程小白还是办公达人,都能通过本教程快速上手 Qwen-Code CLI,利用 AI 轻松实现代码编写、文档处理等任务。内容涵盖 API 配置、CLI 安装及多种实用案例,助你提升效率,体验智能编码的乐趣。
799 109
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
B站开源IndexTTS2,用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推动零样本语音合成在实际场景中的落地能力,B站语音团队对模型架构与训练策略进行了深度优化,推出了全新一代语音合成模型——IndexTTS2 。
375 9
|
2天前
|
人工智能 测试技术 API
智能体(AI Agent)搭建全攻略:从概念到实践的终极指南
在人工智能浪潮中,智能体(AI Agent)正成为变革性技术。它们具备自主决策、环境感知、任务执行等能力,广泛应用于日常任务与商业流程。本文详解智能体概念、架构及七步搭建指南,助你打造专属智能体,迎接智能自动化新时代。
|
3天前
|
机器学习/深度学习 传感器 算法
Edge Impulse:面向微型机器学习的MLOps平台——论文解读
Edge Impulse 是一个面向微型机器学习(TinyML)的云端MLOps平台,致力于解决嵌入式与边缘设备上机器学习开发的碎片化与异构性难题。它提供端到端工具链,涵盖数据采集、信号处理、模型训练、优化压缩及部署全流程,支持资源受限设备的高效AI实现。平台集成AutoML、量化压缩与跨硬件编译技术,显著提升开发效率与模型性能,广泛应用于物联网、可穿戴设备与边缘智能场景。
184 127