2022年最新文本生成图像研究 开源工作速览(Papers with code)

简介: 2022年最新文本生成图像研究 开源工作速览(Papers with code)

@[TOC](Papers with code)

这篇博文将简要介绍一些已经开源的文本生成图像研究工作,基本上都是2022年的最新研究成果:

1、DALL-E 2

《Hierarchical Text-Conditional Image Generation with CLIP Latents》

OpenAI的最新工作,目前是文本到图像的 SOTA

论文:https://cdn.openai.com/papers/dall-e-2.pdf

代码:https://github.com/lucidrains/DALLE2-pytorch(非官方)

2、Recurrent Affine Transformation for Text-to-image Synthesis

《Recurrent Affine Transformation for Text-to-image Synthesis》

提出了一种用于生成对抗网络的递归仿射变换 (RAT),将所有融合块与递归神经网络连接起来,以模拟它们的长期依赖关系,跟DF-GAN很类似。

论文:https://arxiv.org/pdf/2204.10482.pdf

代码:https://github.com/senmaoy/Recurrent-Affine-Transformation-for-Text-to-image-Synthesis

3、Vector Quantized Diffusion Model for Text-to-Image Synthesis

《Vector Quantized Diffusion Model for Text-to-Image Synthesis》

第一次把矢量量化扩散 (VQ-Diffusion) 模型用于文本到图像生成,与之前基于 GAN 的文本到图像的方法相比,VQ-Diffusion 可以处理更复杂的场景并大幅提高合成图像的质量。

会议:CVPR 2022

论文:https://arxiv.org/abs/2111.14822

代码:https://github.com/microsoft/vq-diffusion

4、Autoregressive Image Generation using Residual Quantization

《Autoregressive Image Generation using Residual Quantization》

由残差量化 VAE (RQ-VAE) 和 RQ-Transformer 组成的两阶段框架生成高分辨率图像。RQ-VAE 可以精确地逼近图像的特征图,并将图像表示为离散码的堆叠图。然后,RQ-Transformer 通过预测下一个代码栈来学习预测下一个位置的量化特征向量。

会议:CVPR 2022

论文:https://arxiv.org/abs/2203.01941

代码:https://github.com/kakaobrain/rq-vae-transformer

5、LAFITE

《LAFITE: Towards Language-Free Training for Text-to-Image Generation》

第一次提出在没有任何文本数据的情况下训练文本到图像生成模型的工作,利用了强大的预训练 CLIP 模型。

会议:CVPR 2022

论文:https://arxiv.org/abs/2111.13792

代码:https://github.com/drboog/Lafite

6、DF-GAN

《DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis》

抛弃了传统GAN的堆叠式结构,采用了单级主干,生成器中引入一种新颖的深度文本图像融合块,包含了仿射块的结构,鉴别器引入匹配感知梯度惩罚和单向输出。

会议:CVPR 2022

论文:https://arxiv.org/abs/2008.05865

代码:https://github.com/tobran/DF-GAN

精读:https://blog.csdn.net/air__Heaven/article/details/124288473

7、Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors

《Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors》

正在进行的工作,引入了几个新功能:(i)场景编辑,(ii)带有锚场景的文本编辑,(iii)克服分布式文本提示,以及(iv)故事插图生成(即由故事生成插图)

论文:https://arxiv.org/abs/2203.13131

代码:https://github.com/CasualGANPapers/Make-A-Scene

8、DALL-Eval:Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers,

《Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers》

研究了文本到图像生成转换器的推理能力和社会偏见。第一测量了四种视觉推理技能:物体识别、物体计数、颜色识别和空间关系理解。提出了 PaintSkills诊断数据集和评估工具包,用于测量这四种视觉推理技能。第二,基于预训练的图像字幕、图像文本检索和图像分类模型来测量生成图像的文本对齐和质量。第三,评估了模型中的社会偏见

论文:https://arxiv.org/abs/2202.04053

代码:https://github.com/j-min/DallEval

相关文章
|
8月前
|
人工智能 文字识别 计算机视觉
【AAAI 2024】M2Doc:文档版面分析的可插拔多模态融合方法
M2Doc是一种创新的多模态融合方法,设计用于增强文档版面分析任务中的纯视觉目标检测器。该方法包括Early-Fusion和Late-Fusion模块,前者通过门控机制融合视觉和文本特征,后者则在框级别合并这两种特征。M2Doc易于集成到各种目标检测器,实验证明它能显著提升DocLayNet和M6Doc数据集上的性能,特别是与DINO结合时,在多个数据集上达到SOTA结果。此外,研究表明M2Doc对于增强复杂逻辑版面分析任务中的文本理解和语义关联特别有效。
|
机器学习/深度学习 人工智能 自然语言处理
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
|
5月前
|
数据采集 人工智能 监控
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)
900 0
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | LeCun世界模型首次尝试;Meta开源文本音乐生成模型
7 Papers & Radios | LeCun世界模型首次尝试;Meta开源文本音乐生成模型
114 0
|
机器学习/深度学习 存储 人工智能
7 Papers | GPT-4等大模型自己制作工具;识别ChatGPT造假
7 Papers | GPT-4等大模型自己制作工具;识别ChatGPT造假
200 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?
7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?
119 0
|
机器学习/深度学习 自然语言处理 JavaScript
7 Papers & Radios | 首个用于工业开发的自动代码生成系统;多模态图像合成与编辑综述
7 Papers & Radios | 首个用于工业开发的自动代码生成系统;多模态图像合成与编辑综述
254 0
|
机器学习/深度学习 人工智能 编解码
7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构(1)
7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构
126 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构(2)
7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构
197 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面
7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面
134 0