All are Worth Words | 当 ViT 遇到扩展模型会出现什么样子的火花?

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: All are Worth Words | 当 ViT 遇到扩展模型会出现什么样子的火花?

f3273c59b5151eb800922cd0f8c2a4a4.png

Vision transformers(ViT) 在包括 low-level 任务在内的各种视觉任务中显示出不错的性能,而 U-Net 在  score-based 的扩散模型中仍然占主导地位。在本文中,对扩散模型中基于 ViT 的架构进行了系统的实证研究。结果表明,向 ViT 添加超长的 skip connections(如 U-Net)对于扩散模型至关重要。新的 ViT 架构与其他改进一起被称为 U-ViT。在几个流行的视觉数据集上,U-ViT 实现了与 SOTA U-Net 具有竞争力的生成结果。

1、简介

随着算法的发展,主干网的革命在(score-based)扩散模型的成功中起着核心作用。一个有代表性的例子是先前工作中使用的 U-Net 架构,它在图像生成任务的扩散模型中仍然占主导地位。一个非常自然的问题是,在此类模型中是否需要依赖 U-Net

另一方面,Vision transformers(ViT) 已在各种视觉任务(包括 low-level 任务)中显示出前景。与 CNN 相比,ViT 在大规模上更可取,因为它具有可扩展性和效率。尽管基于Score的扩散模型已经大幅扩大,但仍不清楚 ViT 是否适合Score建模。

在本文中对扩散模型中基于 ViT 的架构进行了系统的实证研究。将标准 ViT 修改如下:

  1. 增加超长skip连接(如U-Net);
  2. 在输出前增加一个额外的3×3卷积块;
  3. 将噪声图像的 time embeddinglabel embeddingpatches 等所有内容都视为 Tokens

生成的架构称为 U-ViT。在几个流行的视觉数据集上,U-ViT 实现了与 SOTA U-Net 架构相媲美的生成结果,同时需要相当数量的参数和计算,如果不是更少的话。我们的结果表明:

  1. ViT 有望用于基于分数的扩散模型;
  2. 长跳跃连接在扩散模型的成功中起着核心作用;
  3. 扩散模型不需要下采样和上采样算子。

我们相信,未来大规模或跨模态数据集的扩散模型可能会受益于 U-ViT

2、本文方法

作者首先尝试在 CIFAR10 上使用 vanilla ViT 训练扩散模型。为简单起见,将包括 time embeddinglabel embedding 和噪声图像的 patches 在内的所有内容都视为 Tokens。通过仔细调整超参数,大小为 41M 的 13 层 ViT 实现了 FID 5.97,明显优于之前基于 ViT 的扩散模型的 20.20。作者推测这主要是因为模型更大。但是,这显然比类似大小的 U-Net 的 3.17 差。

U-Netskip connections 的重要性在 low-level 视觉任务中已经实现了很长时间。由于所有局部信息在分数建模(或噪声预测)中也至关重要,假设 skip connections 在此类任务中也起着核心作用。因此,向 ViT 添加额外的 skip connections 并获得 4.24 的 FID。

aa1fea5fcf45a57941443f8f55f4845d.png

最后,在输出之前添加了一个 3×3 卷积块,以避免 patches 之间的潜在伪影,并获得 3.11 的 FID,这与 DDPM 的结果具有竞争力。整体架构如图 1 所示,为清楚起见,表 1 总结了消融结果。

ec10fda47ebb8b166ff353d1765649bc.png

3、实验

cb7cefb5748af21a18c7cae01c9ccaf2.png27f86f79ec63a3a5edda9be44d7cc388.pngdf24250877daf27d996133ce2717b3bd.png

4、参考

[1].All are Worth Words: a ViT Backbone for Score-based Diffusion Models.

5、推荐阅读

书童笔记私藏 | AI计算机视觉全栈知识总结

Light-YOLOv5 | SepViT + BiFPN + SIoU成就更轻更快更优秀的 YOLOv5 改进算法连夜卷出 | 超越所有YOLO检测模型,mmdet开源当今最强最快目标检测模型!

相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 并行计算
社区供稿 | Para-Former:DUAT理论指导下的CV神经网络并行化,提速多层模型推理
神经网络正越来越多地朝着使用大数据训练大型模型的方向发展,这种解决方案在许多任务中展现出了卓越的性能。然而,这种方法也引入了一个迫切需要解决的问题:当前的深度学习模型基于串行计算,这意味着随着网络层数的增加,训练和推理时间也会随之增长。
|
7月前
|
机器学习/深度学习 自然语言处理 测试技术
社区供稿 | RWKV-6-World 14B正式开源发布,迄今最强的稠密纯RNN大语言模型
2024年7月19日,RWKV 开源基金会宣布正式向全球开源 RWKV-6-World 14B 模型。
|
3月前
|
人工智能 自然语言处理 测试技术
苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑
苹果公司发布论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》,质疑大型语言模型(LLM)在数学推理方面的能力。尽管LLM在GSM8K等测试中表现良好,但在新基准测试GSM-Symbolic中,其准确率随数值变化而显著下降,表明LLM可能依赖于记忆和模式匹配而非真正的数学理解。这一发现引发了AI领域的广泛讨论。
61 5
|
4月前
|
自然语言处理 达摩院 数据挖掘
[大语言模型-论文精读] 阿里巴巴-通过多阶段对比学习实现通用文本嵌入
[大语言模型-论文精读] 阿里巴巴-通过多阶段对比学习实现通用文本嵌入
98 1
|
机器学习/深度学习 算法 计算机视觉
可与ViT一较高下,DeepMind从稀疏转向Soft混合专家模型
可与ViT一较高下,DeepMind从稀疏转向Soft混合专家模型
279 0
|
人工智能 JSON 缓存
MiniRBT中文小型预训练模型:结合了全词掩码(Whole Word Masking)技术和两段式知识蒸馏(Knowledge Distillation)技术,加快推理速度
MiniRBT中文小型预训练模型:结合了全词掩码(Whole Word Masking)技术和两段式知识蒸馏(Knowledge Distillation)技术,加快推理速度
MiniRBT中文小型预训练模型:结合了全词掩码(Whole Word Masking)技术和两段式知识蒸馏(Knowledge Distillation)技术,加快推理速度
|
机器学习/深度学习 人工智能 算法
All are Worth Words | 当 ViT 遇到扩展模型会出现什么样子的火花?
All are Worth Words | 当 ViT 遇到扩展模型会出现什么样子的火花?
148 0
All are Worth Words | 当 ViT 遇到扩展模型会出现什么样子的火花?
|
算法 Shell 计算机视觉
BeiT v2 来袭 | BeiT升级,全面超越 MAE,实现 Vision Transformer 微调自由!
BeiT v2 来袭 | BeiT升级,全面超越 MAE,实现 Vision Transformer 微调自由!
461 0
|
机器学习/深度学习 编解码 人工智能
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
142 0
|
机器学习/深度学习 计算机视觉
高效Transformer | 85FPS!CNN + Transformer语义分割的又一境界,真的很快!
高效Transformer | 85FPS!CNN + Transformer语义分割的又一境界,真的很快!
222 0

热门文章

最新文章