NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 本文详细解读NeurIPS 2024最佳论文《视觉自回归建模:基于下一尺度预测的可扩展图像生成》。该研究提出VAR模型,通过多尺度token图和VAR Transformer结构,实现高效、高质量的图像生成,解决了传统自回归模型在二维结构信息、泛化能力和计算效率上的局限。实验表明,VAR在图像质量和速度上超越现有扩散模型,并展示出良好的扩展性和零样本泛化能力。未来研究将聚焦于文本引导生成和视频生成等方向。

本文将详细解读NeurIPS 2024最佳论文:"Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction(视觉自回归建模:基于下一尺度预测的可扩展图像生成)"

该论文提出了视觉自回归建模(Visual Autoregressive Modeling,VAR)方法,在图像生成领域实现了重要突破。VAR通过精确捕捉图像结构特征,实现了高效率、高质量的图像生成。该方法对当前以扩散模型为主导的图像生成领域提出了新的技术方向,为自回归模型开辟了新的发展空间。本文将从技术原理、实现方法、应用场景及局限性等方面进行详细分析。

图像生成的两大技术路线:扩散模型与自回归模型

图像生成技术主要包含两个主要分支。第一个分支是扩散模型(Diffusion Models),其核心原理是通过逐步添加噪声并随后反向去噪来生成图像。近年来扩散模型在图像生成领域取得了显著进展,并成为主流技术方案。

第二个分支是自回归模型(Autoregressive Models,AR Models)。这类模型采用逐步构建的方式生成图像,即基于已生成的部分预测图像的下一个组成部分。自回归模型是GPT等大型语言模型的核心技术,同时在图像生成领域也取得了重要进展。自回归模型通常基于卷积神经网络或Transformer架构实现。本文重点讨论的VAR模型即属于自回归模型家族。

传统自回归模型的技术局限

传统自回归模型将二维图像转换为一维token序列,并按照光栅扫描模式顺序预测这些token。这种方法存在以下技术局限:

  • 二维结构信息损失: 图像token在水平和垂直方向上均存在关联性,但传统自回归模型的顺序生成机制难以有效建模这种二维依赖关系,影响了图像结构的完整性建模。
  • 泛化能力受限: 顺序生成模式导致模型对生成顺序具有强依赖性。例如一个按照从上到下顺序训练的模型,在要求反向生成时性能会显著降低。
  • 空间信息缺失: 将二维图像压缩为一维序列的过程中,相邻token之间的空间关系信息会丢失,这限制了模型对图像结构的理解和重建能力。
  • 计算效率低下: 传统自回归模型的计算复杂度随图像token数量呈O(n⁶)增长,这种复杂度使得高分辨率图像的生成在计算资源方面面临严峻挑战。

VAR:基于下一尺度预测的技术创新

VAR模型通过引入"下一尺度预测"范式来解决传统自回归模型的技术局限。该方法将图像表示为多尺度token图,并采用从低分辨率到高分辨率的粗细层次结构进行自回归生成。

  • 多尺度VQVAE架构: VAR首先采用向量量化变分自编码器(Vector Quantized Variational Autoencoder,VQVAE)将图像编码为多尺度token图。VQVAE能够将图像的高维特征向量量化为离散码向量。系统在不同分辨率层次提取的特征图通过码本量化得到对应的token图表示。
  • VAR Transformer结构: VAR Transformer模块基于已生成的低分辨率token图预测下一个更高分辨率的token图。系统支持每个分辨率层次的token图并行生成,显著提升了计算效率。训练过程中采用块状因果掩码确保token图的生成仅依赖于较低分辨率的信息。

VAR系统工作机制

  1. 多尺度VQVAE编码环节:输入图像经由多尺度VQVAE编码器处理,生成多个分辨率层次的特征图,随后将各特征图量化为相应的token图表示。
  2. VAR Transformer生成过程:VAR Transformer从最低分辨率token图开始,逐步自回归地生成更高分辨率的token图序列。在每个生成步骤中,系统输入已有的全部token图及其位置编码信息。
  3. 多尺度VQVAE解码过程:生成的多尺度token图通过多尺度VQVAE解码器重建为最终图像。解码器利用token图的索引信息从码本中检索相应的码向量,并通过插值和卷积操作重建图像。

技术说明: 在公式1中,图像片段序列的生成概率被定义为各个片段条件概率的乘积,表示为P(x₁, x₂, …, xₜ) = ∏ P(xᵢ | x₁…xᵢ₋₁)。其中xᵢ表示单个图像片段,t代表片段总数。

VAR的技术优势

VAR系统在多个方面突破了传统自回归模型的局限:

  • 数学建模优化: VAR通过粗细层次的生成机制有效解决了二维结构建模问题,通过整体token图的预测处理了复杂的依赖关系。
  • 泛化性能提升: VAR系统通过学习图像的整体结构特征,在各类输入场景下表现稳定,包括零样本图像修复和扩展任务。
  • 空间信息保持: VAR在处理token图的过程中保持二维图像结构完整,多尺度架构有效捕捉了空间层次关系。
  • 计算效率提升: VAR通过分辨率内的并行token生成和递归尺度扩展,将计算复杂度降低至O(n⁴),显著提升了系统效率。
  • 图像质量改进: VAR在图像质量和推理速度方面均超越了现有的扩散Transformer模型。

VAR系统的训练与推理

VAR系统采用两阶段训练策略:

  1. 多尺度VQVAE训练阶段(第一阶段): 使用原始图像数据训练多尺度VQVAE模型。训练目标是最小化重建图像与原始图像之间的误差,同时生成多分辨率token图。在训练过程中,系统同步优化码本以提升特征表示能力。
  2. VAR Transformer训练阶段(第二阶段): 利用训练完成的VQVAE模型将图像转换为token图序列,随后训练VAR Transformer模型。VAR Transformer学习利用已有的低分辨率token图预测下一级token图,训练过程中采用因果掩码确保预测只依赖已知信息。

VAR系统的推理过程包含以下步骤:

  1. 多尺度VQVAE编码步骤: 利用训练好的VQVAE模型将输入图像编码为多尺度token图序列。
  2. VAR Transformer生成步骤: 从最低分辨率token图开始,VAR Transformer逐级生成更高分辨率的token图。
  3. 多尺度VQVAE解码步骤: 利用多尺度VQVAE解码器将生成的token图序列重建为最终输出图像。

实验验证与扩展性分析

论文通过系统实验验证了VAR模型的性能优势。在ImageNet数据集上的测试表明,VAR在图像生成质量和速度方面均优于现有扩散Transformer模型。实验结果同时展示了VAR性能随模型规模增长的良好扩展特性。

实验还证实了VAR系统在图像修复、扩展等零样本任务中的出色泛化能力,表明该模型不仅能够生成图像,还能深入理解图像结构特征。

技术局限与未来发展方向

VAR系统虽然实现了重要突破,但仍存在以下技术局限:

  • 文本引导图像生成能力: 当前VAR系统尚未实现文本条件下的图像生成功能。未来研究需要着重扩展模型的多模态处理能力。
  • 视频生成应用: VAR在视频生成领域的应用潜力有待探索。后续研究需要探索VAR框架在时序数据生成中的扩展应用。
  • 模型复杂性: VAR采用的两阶段训练策略(VQVAE和Transformer)增加了系统复杂度,需要进一步研究简化训练流程和提升学习效率的方法。

总结

VAR系统在图像生成领域实现了方法论层面的重要创新,成功克服了传统自回归模型的多项技术局限。通过引入"下一尺度预测"范式,VAR不仅能够精确捕捉图像结构特征,还实现了高效率的高质量图像生成。VAR在可扩展性和零样本泛化能力方面的优势,预示着该技术将对图像生成领域产生深远影响。

论文地址:

https://avoid.overfit.cn/post/6b65bf03189949608b81a8543800521c

作者:Daniel Park

目录
相关文章
|
7月前
|
算法 关系型数据库 文件存储
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
ProxylessNAS是一种直接在目标任务和硬件上进行神经架构搜索的方法,有效降低了传统NAS的计算成本。通过路径二值化和两路径采样策略,减少内存占用并提升搜索效率。相比代理任务方法,ProxylessNAS在ImageNet等大规模任务中展现出更优性能,兼顾准确率与延迟,支持针对不同硬件(如GPU、CPU、移动端)定制高效网络架构。
406 126
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
|
8月前
|
机器学习/深度学习 人工智能 监控
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
大型动作模型(LAMs)作为人工智能新架构,融合神经网络与符号逻辑,实现企业重复任务的自动化处理。通过神经符号集成、动作执行管道、模式学习、任务分解等核心技术,系统可高效解析用户意图并执行复杂操作,显著提升企业运营效率并降低人工成本。其自适应学习能力与上下文感知机制,使自动化流程更智能、灵活,为企业数字化转型提供坚实支撑。
551 0
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
|
7月前
|
机器学习/深度学习 算法 物联网
μNAS:面向微控制器的约束神经架构搜索——论文解读
μNAS是一种专为微控制器设计的神经架构搜索方法,旨在解决物联网设备中资源受限的挑战。通过多目标优化框架,μNAS能够在有限的内存和计算能力下,自动搜索出高效的神经网络结构。该方法结合了老化进化算法与贝叶斯优化,并引入结构化剪枝技术,实现模型压缩。实验表明,μNAS在多个数据集上均取得了优异的精度与资源使用平衡,显著优于现有方法,为边缘计算设备的智能化提供了可行路径。
552 129
|
6月前
|
机器学习/深度学习 人工智能 缓存
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
本文提出面向边缘通用智能的多大语言模型(Multi-LLM)系统,通过协同架构、信任机制与动态编排,突破传统边缘AI的局限。融合合作、竞争与集成三种范式,结合模型压缩、分布式推理与上下文优化技术,实现高效、可靠、低延迟的边缘智能,推动复杂场景下的泛化与自主决策能力。
594 3
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
|
7月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
313 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
7月前
|
机器学习/深度学习 人工智能 资源调度
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
MicroNAS是一种专为微控制器单元(MCU)设计的零样本神经架构搜索(NAS)框架,无需训练即可通过理论驱动的性能指标评估网络架构。相比传统NAS方法,其搜索效率提升高达1104倍,同时兼顾精度与硬件效率,适用于边缘计算场景。该框架结合神经切线核(NTK)条件数、线性区域计数及硬件感知延迟模型,实现快速、高效的架构搜索,为资源受限设备上的AI部署提供了新思路。
435 2
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
|
7月前
|
机器学习/深度学习 人工智能 vr&ar
H4H:面向AR/VR应用的NPU-CIM异构系统混合卷积-Transformer架构搜索——论文阅读
H4H是一种面向AR/VR应用的混合卷积-Transformer架构,基于NPU-CIM异构系统,通过神经架构搜索实现高效模型设计。该架构结合卷积神经网络(CNN)的局部特征提取与视觉Transformer(ViT)的全局信息处理能力,提升模型性能与效率。通过两阶段增量训练策略,缓解混合模型训练中的梯度冲突问题,并利用异构计算资源优化推理延迟与能耗。实验表明,H4H在相同准确率下显著降低延迟和功耗,为AR/VR设备上的边缘AI推理提供了高效解决方案。
1310 0
|
6月前
|
机器学习/深度学习 存储 缓存
115_LLM基础模型架构设计:从Transformer到稀疏注意力
大型语言模型(LLM)的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理,深入分析Transformer的核心机制,详细介绍稀疏注意力、MoE等创新架构,并展望未来架构发展方向。通过数学推导和实践案例,为构建高效、强大的LLM提供全面指导。
988 0
|
6月前
|
机器学习/深度学习 自然语言处理 算法
48_动态架构模型:NAS在LLM中的应用
大型语言模型(LLM)在自然语言处理领域的突破性进展,很大程度上归功于其庞大的参数量和复杂的网络架构。然而,随着模型规模的不断增长,计算资源消耗、推理延迟和部署成本等问题日益凸显。如何在保持模型性能的同时,优化模型架构以提高效率,成为2025年大模型研究的核心方向之一。神经架构搜索(Neural Architecture Search, NAS)作为一种自动化的网络设计方法,正在为这一挑战提供创新性解决方案。本文将深入探讨NAS技术如何应用于LLM的架构优化,特别是在层数与维度调整方面的最新进展,并通过代码实现展示简单的NAS实验。
329 0
|
8月前
|
编解码 文字识别 自然语言处理
Dots.ocr:告别复杂多模块架构,1.7B参数单一模型统一处理所有OCR任务22
Dots.ocr 是一款仅1.7B参数的视觉语言模型,正在重塑文档处理技术。它将布局检测、文本识别、阅读顺序理解和数学公式解析等任务统一于单一架构,突破传统OCR多模块流水线的限制。在多项基准测试中,其表现超越大参数模型,展现出“小而精”的实用价值,标志着OCR技术向高效、统一、灵活方向演进。
868 0
Dots.ocr:告别复杂多模块架构,1.7B参数单一模型统一处理所有OCR任务22