2022年最新文本生成图像研究 开源工作速览(Papers with code)

简介: 2022年最新文本生成图像研究 开源工作速览(Papers with code)

@[TOC](Papers with code)

这篇博文将简要介绍一些已经开源的文本生成图像研究工作,基本上都是2022年的最新研究成果:

1、DALL-E 2

《Hierarchical Text-Conditional Image Generation with CLIP Latents》

OpenAI的最新工作,目前是文本到图像的 SOTA

论文:https://cdn.openai.com/papers/dall-e-2.pdf

代码:https://github.com/lucidrains/DALLE2-pytorch(非官方)

2、Recurrent Affine Transformation for Text-to-image Synthesis

《Recurrent Affine Transformation for Text-to-image Synthesis》

提出了一种用于生成对抗网络的递归仿射变换 (RAT),将所有融合块与递归神经网络连接起来,以模拟它们的长期依赖关系,跟DF-GAN很类似。

论文:https://arxiv.org/pdf/2204.10482.pdf

代码:https://github.com/senmaoy/Recurrent-Affine-Transformation-for-Text-to-image-Synthesis

3、Vector Quantized Diffusion Model for Text-to-Image Synthesis

《Vector Quantized Diffusion Model for Text-to-Image Synthesis》

第一次把矢量量化扩散 (VQ-Diffusion) 模型用于文本到图像生成,与之前基于 GAN 的文本到图像的方法相比,VQ-Diffusion 可以处理更复杂的场景并大幅提高合成图像的质量。

会议:CVPR 2022

论文:https://arxiv.org/abs/2111.14822

代码:https://github.com/microsoft/vq-diffusion

4、Autoregressive Image Generation using Residual Quantization

《Autoregressive Image Generation using Residual Quantization》

由残差量化 VAE (RQ-VAE) 和 RQ-Transformer 组成的两阶段框架生成高分辨率图像。RQ-VAE 可以精确地逼近图像的特征图,并将图像表示为离散码的堆叠图。然后,RQ-Transformer 通过预测下一个代码栈来学习预测下一个位置的量化特征向量。

会议:CVPR 2022

论文:https://arxiv.org/abs/2203.01941

代码:https://github.com/kakaobrain/rq-vae-transformer

5、LAFITE

《LAFITE: Towards Language-Free Training for Text-to-Image Generation》

第一次提出在没有任何文本数据的情况下训练文本到图像生成模型的工作,利用了强大的预训练 CLIP 模型。

会议:CVPR 2022

论文:https://arxiv.org/abs/2111.13792

代码:https://github.com/drboog/Lafite

6、DF-GAN

《DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis》

抛弃了传统GAN的堆叠式结构,采用了单级主干,生成器中引入一种新颖的深度文本图像融合块,包含了仿射块的结构,鉴别器引入匹配感知梯度惩罚和单向输出。

会议:CVPR 2022

论文:https://arxiv.org/abs/2008.05865

代码:https://github.com/tobran/DF-GAN

精读:https://blog.csdn.net/air__Heaven/article/details/124288473

7、Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors

《Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors》

正在进行的工作,引入了几个新功能:(i)场景编辑,(ii)带有锚场景的文本编辑,(iii)克服分布式文本提示,以及(iv)故事插图生成(即由故事生成插图)

论文:https://arxiv.org/abs/2203.13131

代码:https://github.com/CasualGANPapers/Make-A-Scene

8、DALL-Eval:Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers,

《Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers》

研究了文本到图像生成转换器的推理能力和社会偏见。第一测量了四种视觉推理技能:物体识别、物体计数、颜色识别和空间关系理解。提出了 PaintSkills诊断数据集和评估工具包,用于测量这四种视觉推理技能。第二,基于预训练的图像字幕、图像文本检索和图像分类模型来测量生成图像的文本对齐和质量。第三,评估了模型中的社会偏见

论文:https://arxiv.org/abs/2202.04053

代码:https://github.com/j-min/DallEval

相关文章
|
并行计算 异构计算
CUDA stream利用CUDA流重叠计
CUDA stream利用CUDA流重叠计
1053 0
CUDA stream利用CUDA流重叠计
|
前端开发 JavaScript API
JavaScript 中的 Promise
Promise 是 JavaScript 中用于处理异步操作的一种模式,它提供了一种比传统的回调函数更清晰、更易于管理和控制的方式来处理异步流程。
325 4
Vue3通知提醒(Notification)
这是一个基于 Vue2 的通知提醒框组件,支持高度自定义设置,包括消息标题、自动关闭延时、弹出位置等。提供了五种样式:默认、信息、成功、警告和错误,并可通过不同方法调用以实现相应样式。组件还支持多种位置设置,如顶部左侧、顶部右侧、底部左侧和底部右侧,并允许调整与屏幕边缘的距离。
893 3
Vue3通知提醒(Notification)
|
Oracle Java 关系型数据库
02. 【Java教程】Windows 上安装 Java
02. 【Java教程】Windows 上安装 Java
646 1
|
JavaScript 前端开发 索引
vue 实现任务步骤条
vue 实现任务步骤条
501 0
|
开发框架 关系型数据库 MySQL
体检中心信息管理系统的设计与实现(论文+源码)_kaic
对于当代社会的人来说,生病是每一个人都避不开的话题。随着生活负担和工作压 力的加重,越来越多的人健康状态逐渐下滑。 随着人们对自己的健康问题越来越重视, 每年都会有许多人进行定期体检关注自己的健康状态。而我国是一个人口大国,人口基 数较大,虽然全国各地都开设有许多体检中心。但随着体检人数的增多,体检中心的患 者数量会急剧增加,并且患者的体检需要时间,给体检中心的日常运营带来了较大负担。 因此,体检中心每天都十分忙碌,当患者生病需要健康检查时,到体检中心还需要排队 挂号, 十分浪费时间。 为了减少患者的等待时间,方便患者在体检中心预约挂号,本次选题为体检中心信 息管理系统设计与实现,将通过设计一
|
自然语言处理 JavaScript 前端开发
拯救浏览器兼容性:Babel是前端开发的必备神器(一)
拯救浏览器兼容性:Babel是前端开发的必备神器
|
缓存 Linux 应用服务中间件
系统性能调优之绑定cpu
系统性能调优之绑定cpu
系统性能调优之绑定cpu
|
SQL 数据可视化 安全
宝塔面板使用`Navicat`或其他工具连接数据库
Linux如果想要自己配置环境,多多少少还是有些麻烦,于是大部分的用户会选择为没有界面的Linux安装一个可视化面板,宝塔面板一切都会帮你完成,但是有时候,我们想要用SQL管理工具连接数据库时,我们却连接不上去。
611 0
|
JavaScript 前端开发 Java
wps加载项开发
wps加载项开发
1736 0