撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力

简介: 在人工智能生成内容(AIGC)领域,文本和图像生成是研究重点。文本生成常用自回归语言模型,而图像生成依赖扩散模型。随着大型语言模型的成功,研究人员开始探索自回归模型在图像生成中的应用。通过对比VQGAN和BAE标记器、评估自回归与掩码语言模型的表现,并优化词汇表设计和采样策略,提出了ELM模型,在ImageNet上取得优异表现。未来可进一步优化训练目标和结合其他建模方法。论文链接:https://arxiv.org/pdf/2410.16257

在人工智能生成内容(AIGC)领域,文本和图像生成一直是研究的重点。尽管它们都旨在生成内容,但这两种模态主要采用不同的建模方法。文本生成通常由自回归(AR)语言模型完成,而图像生成则主要依赖于扩散模型。然而,随着大型语言模型(LLMs)在文本生成中的成功,计算机视觉社区开始探索将这些模型应用于图像生成的可能性。

自回归模型在文本生成中的成功表明,它们能够有效地学习和生成序列数据。这种能力激发了研究人员将自回归模型应用于图像生成的兴趣。图像可以被离散化为一系列标记,类似于文本中的单词或子词,然后可以使用自回归模型来预测这些标记的顺序。

然而,图像和文本之间存在一些基本差异,这些差异对自回归模型在图像生成中的应用提出了挑战。例如,图像标记的分布比文本标记更接近随机均匀分布,这意味着图像数据缺乏文本数据中常见的结构性和顺序性。此外,图像生成任务对错误的容忍度更高,因为所有标记几乎具有相同的概率。

为了应对这些挑战,研究人员对自回归模型在图像生成中的设计空间进行了广泛的探索。他们考虑了多个因素,包括标记器的选择、模型的选择、模型的可扩展性、词汇表的设计和采样策略。

标记器的选择:研究人员比较了两种主要的图像标记器——VQGAN和BAE。VQGAN使用向量量化器将图像的潜在表示离散化为标记,而BAE使用二进制自动编码器进行无查找的量化。他们的比较基于重建能力、可扩展性和生成性能,结果显示BAE在所有方面都优于VQGAN。

模型的选择:研究人员评估了两种主要的自回归模型——自回归模型和掩码语言模型(MLMs)——在图像生成中的表现。他们的结果表明,自回归模型在图像生成中表现更好,并且比MLMs更具有可扩展性。

模型的可扩展性:研究人员分析了自回归模型在图像生成中的学习和扩展行为。他们发现,自回归模型能够有效地学习图像的局部信息,而较大的模型也能够捕捉到全局信息。这解释了为什么随着模型大小的增加,图像生成的性能会提高。

词汇表的设计:研究人员研究了词汇表大小对自回归模型在图像生成中的影响。他们发现,较大的词汇表可以提高图像生成的性能,但也会增加模型预测下一个标记的难度。为了解决这个问题,他们提出了一种将每个标记分解为多个子标记的方法,这可以减少词汇表的大小并提高模型的性能。

采样策略:研究人员探索了不同的采样策略对自回归模型和MLMs在图像生成中的影响。他们发现,增加随机性对于图像生成是有益的,因为图像标记的分布是随机的。此外,他们还发现,使用动态的分类器自由引导(CFG)尺度可以提高图像生成的性能。

基于对设计空间的广泛探索,研究人员提出了一种名为ELM(Elucidated Language model for iMage generation)的自回归模型,用于图像生成。ELM使用BAE作为图像标记器,并采用自回归模型作为建模方法。根据他们的研究结果,ELM将量化后的图像代码分解为两个子代码,并根据模型的容量选择适当的词汇表大小。对于采样策略,ELM使用高随机性来增加图像生成的多样性,并采用线性CFG。

研究人员在ImageNet数据集上对ELM模型进行了实验,并与其他自回归模型进行了比较。他们的结果表明,ELM模型在图像生成中表现出了优异的性能,并取得了最先进的结果。此外,他们还通过可视化ELM模型的扩展行为,展示了随着模型大小和词汇表的增加,图像生成的质量如何提高。

然而,自回归模型在图像生成中仍面临一些挑战,如优化高度随机的标记分布。未来的研究可以探索更适合此类任务的训练目标,以进一步提高自回归模型在图像生成中的性能。此外,将自回归模型与其他建模方法相结合,如扩散模型,也可能为图像生成提供新的可能性。

论文链接:https://arxiv.org/pdf/2410.16257

目录
打赏
0
12
12
3
396
分享
相关文章
ECCV 2024:视觉定位新SOTA!华人团队开源革新框架SegVG,边界框转为分割信号
视觉定位任务旨在通过文本-图像对检测特定目标的边界框,但其监督信号稀疏,难以达到最优性能。ECCV 2024提出的SegVG方法将边界框标注转化为分割信号,提供像素级监督,显著提升定位精度。该方法采用多层多任务编码器-解码器架构和三重对齐模块,有效缓解特征域差异问题。实验表明,SegVG在多个数据集上超越了先前的SOTA方法,特别是在RefCOCO和Visual Genome数据集上分别提升了3%和超过5%的准确率。尽管如此,SegVG也存在计算复杂度高、依赖高质量标注数据及可解释性不足等缺点。
200 23
过拟合的终结者:深度学习中的正则化技术,如何成为模型泛化能力的超级英雄
【8月更文挑战第7天】深度学习模型虽强大却易过拟合,尤其是在数据有限时。正则化技术通过在训练中引入惩罚项来提升模型泛化能力。L2正则化(权重衰减)限制权重大小;L1正则化生成稀疏权重。例如,在Keras中可通过`kernel_regularizer=regularizers.l2(0.01)`实现L2正则化。Dropout通过随机丢弃神经元减少共适应。数据增强增加训练数据多样性。此外,标签平滑和最大模态正则化等新策略进一步增强了模型的泛化能力。
108 0
单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024
【10月更文挑战第25天】单目三维物体检测在自动驾驶领域具有重要应用价值,但训练数据和测试数据的分布差异会影响模型性能。为此,研究人员提出了一种名为“单目测试时适应”(MonoTTA)的方法,通过可靠性驱动的适应和噪声防护适应两个策略,有效处理测试时的数据分布变化,提高模型在未知数据上的泛化能力。实验结果表明,MonoTTA方法在KITTI和nuScenes数据集上显著提升了性能。
62 2
深度学习中的自适应抱团梯度下降法
【10月更文挑战第7天】 本文探讨了深度学习中一种新的优化算法——自适应抱团梯度下降法,它结合了传统的梯度下降法与现代的自适应方法。通过引入动态学习率调整和抱团策略,该方法在处理复杂网络结构时展现了更高的效率和准确性。本文详细介绍了算法的原理、实现步骤以及在实际应用中的表现,旨在为深度学习领域提供一种创新且有效的优化手段。
|
9月前
|
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
61 2
高质量3D生成最有希望的一集?GaussianCube在三维生成中全面超越NeRF
【6月更文挑战第24天】论文《Language Models as Text-Based World Simulators?》由多所名校和机构合作完成,探讨大型语言模型(LLMs)如GPT-4是否能胜任世界模拟器角色。新基准BYTE-SIZED32-State-Prediction用于评估其模拟文本游戏状态转换的能力。结果显示,GPT-4在某些任务上接近人类表现,但在算术、常识推理和环境动态模拟上仍有不足,表明LLMs尚无法成为可靠的全功能世界模拟器。研究指出了LLMs改进和未来研究的潜力方向。[[1](https://arxiv.org/pdf/2403.19655)]
83 1
看透物体的3D表示和生成模型:NUS团队提出X-Ray
【5月更文挑战第13天】NUS团队提出了X-Ray,一种新型3D表示方法,通过模拟X射线扫描细致捕捉物体内外特征,解决了现有方法对内部结构和纹理细节处理的局限。利用射线追踪技术,X-Ray将物体浓缩为多帧格式,提高表示效率和准确性。在3D物体合成任务中,X-Ray显示了优于传统方法的优势,尤其适用于高保真3D模型需求的领域,如虚拟现实和游戏。其效率提升也使实时3D生成更具潜力,但面对复杂场景和优化问题仍有挑战。[论文链接](https://arxiv.org/abs/2404.14329)
92 4
极智AI | GAN应用于玻璃表面水珠样本生成
大家好,我是极智视界,本文介绍一下 GAN 应用于玻璃表面水珠样本生成的方法。
118 0
极智AI | GAN应用于玻璃表面水珠样本生成
人类进化新时代,DARPA 的「靶向神经可塑性训练」为何如此重要?
在4 月 8 号机器之心的文章 (前沿 | 疯狂科学家!DARPA 颅内芯片研究项目即将启动)文章中,机器之心PSI 小伙伴吴航首先为我们介绍了 DARPA 的历史和技术。在本篇(后篇)文章中,他详细介绍了 DARPA 正式发布的 TNT 项目。
1382 0
人类进化新时代,DARPA 的「靶向神经可塑性训练」为何如此重要?
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
321 0
下一篇
oss创建bucket
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等