在人工智能生成内容(AIGC)领域,文本和图像生成一直是研究的重点。尽管它们都旨在生成内容,但这两种模态主要采用不同的建模方法。文本生成通常由自回归(AR)语言模型完成,而图像生成则主要依赖于扩散模型。然而,随着大型语言模型(LLMs)在文本生成中的成功,计算机视觉社区开始探索将这些模型应用于图像生成的可能性。
自回归模型在文本生成中的成功表明,它们能够有效地学习和生成序列数据。这种能力激发了研究人员将自回归模型应用于图像生成的兴趣。图像可以被离散化为一系列标记,类似于文本中的单词或子词,然后可以使用自回归模型来预测这些标记的顺序。
然而,图像和文本之间存在一些基本差异,这些差异对自回归模型在图像生成中的应用提出了挑战。例如,图像标记的分布比文本标记更接近随机均匀分布,这意味着图像数据缺乏文本数据中常见的结构性和顺序性。此外,图像生成任务对错误的容忍度更高,因为所有标记几乎具有相同的概率。
为了应对这些挑战,研究人员对自回归模型在图像生成中的设计空间进行了广泛的探索。他们考虑了多个因素,包括标记器的选择、模型的选择、模型的可扩展性、词汇表的设计和采样策略。
标记器的选择:研究人员比较了两种主要的图像标记器——VQGAN和BAE。VQGAN使用向量量化器将图像的潜在表示离散化为标记,而BAE使用二进制自动编码器进行无查找的量化。他们的比较基于重建能力、可扩展性和生成性能,结果显示BAE在所有方面都优于VQGAN。
模型的选择:研究人员评估了两种主要的自回归模型——自回归模型和掩码语言模型(MLMs)——在图像生成中的表现。他们的结果表明,自回归模型在图像生成中表现更好,并且比MLMs更具有可扩展性。
模型的可扩展性:研究人员分析了自回归模型在图像生成中的学习和扩展行为。他们发现,自回归模型能够有效地学习图像的局部信息,而较大的模型也能够捕捉到全局信息。这解释了为什么随着模型大小的增加,图像生成的性能会提高。
词汇表的设计:研究人员研究了词汇表大小对自回归模型在图像生成中的影响。他们发现,较大的词汇表可以提高图像生成的性能,但也会增加模型预测下一个标记的难度。为了解决这个问题,他们提出了一种将每个标记分解为多个子标记的方法,这可以减少词汇表的大小并提高模型的性能。
采样策略:研究人员探索了不同的采样策略对自回归模型和MLMs在图像生成中的影响。他们发现,增加随机性对于图像生成是有益的,因为图像标记的分布是随机的。此外,他们还发现,使用动态的分类器自由引导(CFG)尺度可以提高图像生成的性能。
基于对设计空间的广泛探索,研究人员提出了一种名为ELM(Elucidated Language model for iMage generation)的自回归模型,用于图像生成。ELM使用BAE作为图像标记器,并采用自回归模型作为建模方法。根据他们的研究结果,ELM将量化后的图像代码分解为两个子代码,并根据模型的容量选择适当的词汇表大小。对于采样策略,ELM使用高随机性来增加图像生成的多样性,并采用线性CFG。
研究人员在ImageNet数据集上对ELM模型进行了实验,并与其他自回归模型进行了比较。他们的结果表明,ELM模型在图像生成中表现出了优异的性能,并取得了最先进的结果。此外,他们还通过可视化ELM模型的扩展行为,展示了随着模型大小和词汇表的增加,图像生成的质量如何提高。
然而,自回归模型在图像生成中仍面临一些挑战,如优化高度随机的标记分布。未来的研究可以探索更适合此类任务的训练目标,以进一步提高自回归模型在图像生成中的性能。此外,将自回归模型与其他建模方法相结合,如扩散模型,也可能为图像生成提供新的可能性。