GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式

简介: 【4月更文挑战第22天】北京大学与字节跳动联合研发的Visual AutoRegressive modeling (VAR)是一种创新的图像生成范式,通过“下一尺度预测”而非传统的“下一标记预测”学习视觉分布。VAR在ImageNet基准上提升了自回归模型的FID和IS,同时加快了20倍推理速度,超越扩散变换器。该模型展示出与大型语言模型相似的缩放定律,解决了自回归模型的计算成本问题和扩散模型的速度不足。VAR具备零样本泛化能力,适用于图像修复等任务,未来研究将探索其在高分辨率图像和视频生成中的潜力。[论文链接](https://arxiv.org/abs/2404.02905)

在人工智能领域,图像生成技术一直是研究的热点之一。近期,北京大学与字节跳动联合提出了一种全新的视觉生成范式——Visual AutoRegressive modeling(VAR),这一突破性成果不仅在理论上为图像生成领域带来了新的视角,更在实践中展现了超越现有技术的强大潜力。

VAR模型的核心思想是对图像进行粗到细的“下一尺度预测”,与传统的像素级自回归学习(即“下一标记预测”)截然不同。这种方法的直观性和简洁性使得VAR模型能够快速学习视觉分布,并且展现出良好的泛化能力。在ImageNet 256×256基准测试中,VAR模型显著提高了自回归(AR)基线的Fréchet inception distance(FID)和inception score(IS),同时将推理速度提高了20倍。这一成就标志着GPT风格的自回归模型首次在图像生成领域超越了扩散变换器(diffusion transformers),为视觉生成领域带来了前所未有的新机遇。

VAR模型的提出,不仅仅是技术上的一次飞跃,更是对现有图像生成技术的一种颠覆。它通过重新定义图像的“顺序”,使得自回归学习能够更自然地适应人类视觉感知和图像创作的层次性特点。此外,VAR模型还展现出了与大型语言模型(LLMs)相似的缩放定律,这一发现为模型性能的预测和资源分配提供了有力的工具。

然而,VAR模型的成功并非一帆风顺。在图像生成领域,传统的自回归模型和扩散模型一直是两大主流技术。自回归模型虽然在理论上具有优势,但在实际应用中却面临着计算成本高、生成速度慢等问题。而扩散模型虽然在图像质量和多样性上表现出色,但在数据效率和推理速度上仍有不足。VAR模型的出现,正是为了解决这些问题,通过优化模型结构和学习策略,实现了在多个维度上的超越。

VAR模型的另一个亮点是其零样本泛化能力。在图像修复、扩展和编辑等下游任务中,VAR模型无需特殊设计和微调,就能生成与周围环境融合得天衣无缝的内容。这一点在以往的图像生成模型中是难以实现的,充分证明了VAR模型在理解和处理图像内容方面的先进性。

尽管VAR模型取得了显著的成果,但仍有待进一步的探索和完善。例如,VAR模型在处理高分辨率图像时的性能如何,以及如何与最新的VQVAE分词器结合以进一步提升性能,都是未来研究的方向。此外,VAR模型在视频生成领域的应用也是一个值得关注的课题。考虑到视频数据的三维特性,VAR模型有望在视频生成领域发挥重要作用,尤其是在处理长时间依赖关系时,VAR模型的效率和一致性优势将更加明显。

论文链接:https://arxiv.org/abs/2404.02905

目录
相关文章
|
4月前
|
人工智能 知识图谱
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
【7月更文挑战第7天】LeCun与谢赛宁团队推出 Cambrian-1,一款视觉多模态大语言模型,挑战GPT-4V。该模型以视觉为中心,利用20多种视觉编码器强化表示学习,实现SOTA性能,同时开源权重、代码及工具,促进领域发展。尽管面临资源需求与数据隐私的讨论,但其创新如空间视觉聚合器(SVA)降低了计算需求。[论文链接: https://arxiv.org/abs/2406.16860]
62 1
|
2月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
77 10
|
2月前
|
机器学习/深度学习 数据采集 人工智能
Llama 8B搜索100次超越GPT-4o!推理+搜索即可提升性能,新Scaling Law诞生?
【9月更文挑战第8天】在人工智能领域,理查德·萨顿提出了一项重要观点,即利用通用计算方法最终是最有效的途径,这一理念在诸如计算机象棋、围棋、语音识别及视觉等多个子领域中得到了验证。萨顿强调,计算能力的指数增长使得依赖大量计算的技术更加吸引人,并且从长远来看,计算能力将是唯一重要的因素。尽管他的观点强调了搜索和学习方法的力量,但也有人批评其忽略了领域知识和其他因素的重要性。
37 2
|
4月前
|
测试技术
8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法
【7月更文挑战第8天】北京大学等研究者提出的新方法缓解了大模型如Llama-3-8B在持续预训练时的“稳定性差距”,通过多轮次训练、高质量子语料库选择和数据混合策略,提升性能和效率。在医疗领域,他们将OpenLlama-3B性能提升至40.7%,并创建的Llama-3-Physician模型达到GPT-4级别。尽管取得突破,该方法在其他模型和领域的适用性仍需探索,且持续预训练仍资源密集。[链接: https://arxiv.org/abs/2406.14833]
87 25
|
4月前
|
人工智能 安全
又遇到GPT写的review了?看看北大&密歇根的这个研究工作
【7月更文挑战第27天】北大的一项研究"Eliciting Informative Text Evaluations with Large Language Models"探讨了如何利用大型语言模型激励高质量文本反馈。提出两种机制:生成式同行预测机制(GPPM)和生成式概要同行预测机制(GSPPM),通过一致性评分鼓励详细准确的反馈。实验表明GSPPM能有效区分人工及AI生成内容,尤其擅长降低大型语言模型生成评论的影响。但仍面临模型预测偏差、潜在操纵等挑战。[论文](https://arxiv.org/abs/2405.15077)
41 4
|
5月前
|
人工智能
拯救被掰弯的GPT-4!西交微软北大联合提出IN2训练治疗LLM中间迷失
【6月更文挑战第1天】研究人员为解决大型语言模型(LLM)的“中间迷失”问题,提出了IN2训练方法。此方法通过显式监督增强模型对长文本上下文的理解,改善了信息检索能力。应用IN2训练的FILM-7B模型在长文本任务上表现出色,尤其在NarrativeQA数据集上的F1分数提升了3.4。尽管面临数据合成和计算成本的挑战,IN2训练为LLM的进步开辟了新途径,预示着未来在长文本处理领域的潜力。论文链接:https://arxiv.org/pdf/2404.16811
71 5
|
6月前
|
人工智能 编解码 安全
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。
87 8
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
|
6月前
|
人工智能
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare
【5月更文挑战第10天】TextSquare,由字节跳动、华东师大和华中科技大学联合研发,是新型的文本中心视觉问答模型,借助Square-10M数据集在VQA任务上取得突破。在6个OCRBench等基准上超越现有最佳模型,如GPT4V和Gemini。模型利用视觉问答推理数据增强上下文理解,减少幻觉现象,平均准确率75.1%。但面对复杂问题和泛化能力仍有挑战。[论文链接](https://arxiv.org/abs/2404.12803)
79 4
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
OpenAI 推出 GPT-4o,免费向所有人提供GPT-4级别的AI ,可以实时对音频、视觉和文本进行推理,附使用详细指南
GPT-4o不仅提供与GPT-4同等程度的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力,无论你是付费用户,还是免费用户,都能通过它体验GPT-4了
283 1
|
JSON 编解码 物联网
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求

热门文章

最新文章