2022年最新文本生成图像研究 开源工作速览(Papers with code)

简介: 2022年最新文本生成图像研究 开源工作速览(Papers with code)

@[TOC](Papers with code)

这篇博文将简要介绍一些已经开源的文本生成图像研究工作,基本上都是2022年的最新研究成果:

1、DALL-E 2

《Hierarchical Text-Conditional Image Generation with CLIP Latents》

OpenAI的最新工作,目前是文本到图像的 SOTA

论文:https://cdn.openai.com/papers/dall-e-2.pdf

代码:https://github.com/lucidrains/DALLE2-pytorch(非官方)

2、Recurrent Affine Transformation for Text-to-image Synthesis

《Recurrent Affine Transformation for Text-to-image Synthesis》

提出了一种用于生成对抗网络的递归仿射变换 (RAT),将所有融合块与递归神经网络连接起来,以模拟它们的长期依赖关系,跟DF-GAN很类似。

论文:https://arxiv.org/pdf/2204.10482.pdf

代码:https://github.com/senmaoy/Recurrent-Affine-Transformation-for-Text-to-image-Synthesis

3、Vector Quantized Diffusion Model for Text-to-Image Synthesis

《Vector Quantized Diffusion Model for Text-to-Image Synthesis》

第一次把矢量量化扩散 (VQ-Diffusion) 模型用于文本到图像生成,与之前基于 GAN 的文本到图像的方法相比,VQ-Diffusion 可以处理更复杂的场景并大幅提高合成图像的质量。

会议:CVPR 2022

论文:https://arxiv.org/abs/2111.14822

代码:https://github.com/microsoft/vq-diffusion

4、Autoregressive Image Generation using Residual Quantization

《Autoregressive Image Generation using Residual Quantization》

由残差量化 VAE (RQ-VAE) 和 RQ-Transformer 组成的两阶段框架生成高分辨率图像。RQ-VAE 可以精确地逼近图像的特征图,并将图像表示为离散码的堆叠图。然后,RQ-Transformer 通过预测下一个代码栈来学习预测下一个位置的量化特征向量。

会议:CVPR 2022

论文:https://arxiv.org/abs/2203.01941

代码:https://github.com/kakaobrain/rq-vae-transformer

5、LAFITE

《LAFITE: Towards Language-Free Training for Text-to-Image Generation》

第一次提出在没有任何文本数据的情况下训练文本到图像生成模型的工作,利用了强大的预训练 CLIP 模型。

会议:CVPR 2022

论文:https://arxiv.org/abs/2111.13792

代码:https://github.com/drboog/Lafite

6、DF-GAN

《DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis》

抛弃了传统GAN的堆叠式结构,采用了单级主干,生成器中引入一种新颖的深度文本图像融合块,包含了仿射块的结构,鉴别器引入匹配感知梯度惩罚和单向输出。

会议:CVPR 2022

论文:https://arxiv.org/abs/2008.05865

代码:https://github.com/tobran/DF-GAN

精读:https://blog.csdn.net/air__Heaven/article/details/124288473

7、Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors

《Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors》

正在进行的工作,引入了几个新功能:(i)场景编辑,(ii)带有锚场景的文本编辑,(iii)克服分布式文本提示,以及(iv)故事插图生成(即由故事生成插图)

论文:https://arxiv.org/abs/2203.13131

代码:https://github.com/CasualGANPapers/Make-A-Scene

8、DALL-Eval:Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers,

《Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers》

研究了文本到图像生成转换器的推理能力和社会偏见。第一测量了四种视觉推理技能:物体识别、物体计数、颜色识别和空间关系理解。提出了 PaintSkills诊断数据集和评估工具包,用于测量这四种视觉推理技能。第二,基于预训练的图像字幕、图像文本检索和图像分类模型来测量生成图像的文本对齐和质量。第三,评估了模型中的社会偏见

论文:https://arxiv.org/abs/2202.04053

代码:https://github.com/j-min/DallEval

相关文章
|
7月前
|
机器学习/深度学习 人工智能
可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种条件
【2月更文挑战第29天】北京邮电大学研究人员发表了一篇关于文本到图像扩散模型的综述论文,探讨了该技术在可控图像生成方面的最新进展。论文介绍了DDPMs基础理论,并详述了如何通过引入条件来提升生成图像的精确控制。研究者提出条件生成的三种类别,分析了核心理论机制,并创建了一个包含249篇相关文献的GitHub仓库,促进学术交流。尽管取得显著成就,但模型仍面临语义一致性、处理复杂文本描述和效率提升等挑战。论文链接:https://arxiv.org/abs/2403.04279
167 1
可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种条件
|
4月前
|
数据采集 自然语言处理
ARTIST的中文文图生成模型问题之核心代码实现的问题如何解决
ARTIST的中文文图生成模型问题之核心代码实现的问题如何解决
|
4月前
|
数据采集 人工智能 监控
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)
823 0
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
|
自然语言处理 机器人 API
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
|
存储 人工智能 自然语言处理
ResearchRabbit.ai: 学术论文摘要研究工具
ResearchRabbit.ai: 学术论文摘要研究工具
407 0
ResearchRabbit.ai: 学术论文摘要研究工具
|
机器学习/深度学习 存储 人工智能
7 Papers | GPT-4等大模型自己制作工具;识别ChatGPT造假
7 Papers | GPT-4等大模型自己制作工具;识别ChatGPT造假
193 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?
7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?
115 0
|
机器学习/深度学习 自然语言处理 JavaScript
7 Papers & Radios | 首个用于工业开发的自动代码生成系统;多模态图像合成与编辑综述
7 Papers & Radios | 首个用于工业开发的自动代码生成系统;多模态图像合成与编辑综述
246 0
|
机器学习/深度学习 人工智能 编解码
7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构(1)
7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构
125 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构(2)
7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构
193 0

热门文章

最新文章