GPT超越扩散、视觉生成Scaling Law时刻！北大&字节提出VAR范式-阿里云开发者社区

GPT超越扩散、视觉生成Scaling Law时刻！北大&字节提出VAR范式

2024-04-22 142

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【4月更文挑战第22天】北京大学与字节跳动联合研发的Visual AutoRegressive modeling (VAR)是一种创新的图像生成范式，通过“下一尺度预测”而非传统的“下一标记预测”学习视觉分布。VAR在ImageNet基准上提升了自回归模型的FID和IS，同时加快了20倍推理速度，超越扩散变换器。该模型展示出与大型语言模型相似的缩放定律，解决了自回归模型的计算成本问题和扩散模型的速度不足。VAR具备零样本泛化能力，适用于图像修复等任务，未来研究将探索其在高分辨率图像和视频生成中的潜力。[论文链接](https://arxiv.org/abs/2404.02905)

在人工智能领域，图像生成技术一直是研究的热点之一。近期，北京大学与字节跳动联合提出了一种全新的视觉生成范式——Visual AutoRegressive modeling（VAR），这一突破性成果不仅在理论上为图像生成领域带来了新的视角，更在实践中展现了超越现有技术的强大潜力。

VAR模型的核心思想是对图像进行粗到细的“下一尺度预测”，与传统的像素级自回归学习（即“下一标记预测”）截然不同。这种方法的直观性和简洁性使得VAR模型能够快速学习视觉分布，并且展现出良好的泛化能力。在ImageNet 256×256基准测试中，VAR模型显著提高了自回归（AR）基线的Fréchet inception distance（FID）和inception score（IS），同时将推理速度提高了20倍。这一成就标志着GPT风格的自回归模型首次在图像生成领域超越了扩散变换器（diffusion transformers），为视觉生成领域带来了前所未有的新机遇。

VAR模型的提出，不仅仅是技术上的一次飞跃，更是对现有图像生成技术的一种颠覆。它通过重新定义图像的“顺序”，使得自回归学习能够更自然地适应人类视觉感知和图像创作的层次性特点。此外，VAR模型还展现出了与大型语言模型（LLMs）相似的缩放定律，这一发现为模型性能的预测和资源分配提供了有力的工具。

然而，VAR模型的成功并非一帆风顺。在图像生成领域，传统的自回归模型和扩散模型一直是两大主流技术。自回归模型虽然在理论上具有优势，但在实际应用中却面临着计算成本高、生成速度慢等问题。而扩散模型虽然在图像质量和多样性上表现出色，但在数据效率和推理速度上仍有不足。VAR模型的出现，正是为了解决这些问题，通过优化模型结构和学习策略，实现了在多个维度上的超越。

VAR模型的另一个亮点是其零样本泛化能力。在图像修复、扩展和编辑等下游任务中，VAR模型无需特殊设计和微调，就能生成与周围环境融合得天衣无缝的内容。这一点在以往的图像生成模型中是难以实现的，充分证明了VAR模型在理解和处理图像内容方面的先进性。

尽管VAR模型取得了显著的成果，但仍有待进一步的探索和完善。例如，VAR模型在处理高分辨率图像时的性能如何，以及如何与最新的VQVAE分词器结合以进一步提升性能，都是未来研究的方向。此外，VAR模型在视频生成领域的应用也是一个值得关注的课题。考虑到视频数据的三维特性，VAR模型有望在视频生成领域发挥重要作用，尤其是在处理长时间依赖关系时，VAR模型的效率和一致性优势将更加明显。

论文链接：https://arxiv.org/abs/2404.02905

GPT超越扩散、视觉生成Scaling Law时刻！北大&字节提出VAR范式

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

GPT超越扩散、视觉生成Scaling Law时刻！北大&字节提出VAR范式

热门文章

最新文章

相关课程

相关电子书

相关实验场景