屠榜各大 CV 任务，微软开源的 Swin Transformer 有多强？

2021-12-21 714

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 近日，微软 Swin Transformer 代码正式开源，短短两天就在 GitHub 上获得了 1.9k 的 Star，相关话题在知乎上同样引起了广泛的讨论和关注。

微软 Swin Transformer 正式开源

Swin Transformer 可以理解为一个通用的视觉骨干网络，Swin Transformer 设计出了一种分层表示形式，首先由小的 PATCHES 开始，而后逐渐将相邻的各 Patches 融合至一个更深的 Transformer 层当中。通过这种分层结构，Swin Transformer 模型能够使用 FPN 及 UNET 等高密度预测器实现技术升级，通过限制非重叠窗口中的部分计算量降低计算强度。各窗口中的 PATCHES 数量是固定的，因此随着图像尺寸的增加，复杂性也将不断增长。相比于 ViT，Swin Transfomer 计算复杂度大幅度降低，随着输入图像大小线性计算复杂度。

Swin Transformer 的核心设计是将 Self-Attention 层划分为 SHIFT，SHIFTED Window 接入上一层窗口，二者之间保持连接，由此显著增强建模能力。这种策略还有助于有效降低延迟：所有 Query Patches 窗口共享同一 KEY 集，由此节约硬件内存；以往的 Transformer 方法由于使用不同的 Query 像素，因此在实际硬件中往往具有较高延迟；论文实验证明，SHIFTED Window 方法带来的延迟较传统滑动方法更低，且二者的建模能力基本相同。

基于此，Swin Transformer 在各类回归任务、图像分类、目标检测、语义分割等方面具有极强性能，其性能优于 VIT/DEIT 与 RESNE (X) T。

GitHub 地址：https://github.com/microsoft/Swin-Transformer
原作者团队曹越在知乎上的回答:https://www.zhihu.com/question/437495132/answer/1800881612
论文地址：https://arxiv.org/pdf/2103.14030.pdf

实现方法

Swin Transformer 的架构如下图所示。首先，它与 VIT 一样将输入的图片划分为多个 Patches，作者使用 4 x 4 的 patch 大小；之后是嵌入层，最后则是作者设计的 Swin Transformer BLOCK。

Swin Transformer Block：此模块是 Transformer 中使用 Shifted Window 的多 ATTENTION 模块，具有一致性；Swin Transformer 模块中包含一个 MSA（多头 Attention）模块 SHIFTED WINDOW，之后是 2 层 MLP，接着将 Layernorm 层添加至各 MSA 模块与各 MLP 层内，而后是剩余连接。

基于 Self-Attension 的 SHIFTED Window

标准 Transformer 使用全局 self-attention 以创建各令牌之间的关系，但这会令图像大小增加 2 倍、导致复杂性随之提升，因此不适用于处理高强度任务。为了提升建模效率，作者提出由“部分窗口计算 Self-Attention”，即假设各个窗口均包含 MXM Patches、全局 MSA 模块与基于窗口的 MSA 模块，并在 HXW Patches 的图像之上进行复杂度计算：

（1）的复杂度为 PATCH 数量 HW 的次生增长；（2）则为线性增长，其中 m 为固定值，但全局 self-attention 为大 HW，因此基于窗口的 Self-Attention 计算量不会很高。

将 SHIFTED Window 拆分为连续块

基于 Windows 的 Self-Attention 虽然拥有线性增长的复杂度，但其缺少在各窗口之间的连接，因此限制了模型的建模能力。

为了在容器上引入连接以实现模型维护，作者提出了 SHIFTED Window 分割的概念。第一个模块使用中性窗口分割，并根据窗口大小的 M=4 放大得出一个 8 x 8 的特征图。我们将此窗口划分为 2 x 2 的形式，而后通过 Shifted Window 设置下一模块，将其移动 M/2 个像素。

使用 SHIFTED 结构，Swin Transformer Blocks 的计算如下所示：

W-MSA 与 SW-MSA 分别表示使用整齐分割与 SHIFTED SELF-ATTENTION。

Shifted Window 可以跨越多个窗口向模型添加连接，并保持模型的良好运行效率。

SHIFTED WINDOW 高效批量计算

SHIFTED WINDOW 也有自己的问题，即导致窗口数量增加——由原本的 (h / m xw / m) 个增加到 ((h / m + 1) x (W / m + 1)) 个，而且其中某些窗口要小于 MXM。这种方法会将较小的窗口填充为 MXM，并计算 attention 值以掩蔽填充操作；当窗口数量较少、但大于 2 x 2 时，由此带来的额外计算量将相当可观（由 2 x 2 到 3 x 3，计算量增加达 2.25 倍）。

因此，作者提出了一种更为高效的 BATCH 计算方法，即沿左上角执行 Cyclic Shift。在完成这项位移之后，Batch WINDOW 将拥有一张由非相邻子窗口组成的特征图，这相当于是使用 Cyclic-Shift、Batch-Windows 与整齐窗口分割限制子窗口内的 Self-Attention 数量，从而极大提高了计算效率。

相对位置偏移：

作者介绍了 Self-Attention 中各头的相对位置。偏移 B：

其中：

这将显著提高性能表现。

作者根据大小与计算复杂度建立起一套基本模型，名为 SWIN-B；同时引入了 SWIN-T、SWIN-S 与 SWIN-L，其模型大小与复杂度分别为 0.25 倍、0.5 倍与 2 倍。

当我们将窗口大小 M 设定为 7 时，各头部查询 D 为 32，各扩展层的 mlp α为 4。

其中 C 为初始阶段隐藏层的通道数量。

具体表现

图像分类

表 1A，从零开始在 ImgeNet-1K 上进行训练：

表 1B，在 ImageNet-22k 上进行首轮训练，之后迁移至 ImageNet-1K：

目标检测

表 2A，在不同模型帧上使用 Swin Transformer 替代 BackBone：

表 2C，与 SOTA 的比较结果：

语义分割

表 3，对于较小模型，可提供比先前 SOTA SETR 更高的 MIOU：

消融实验

表 4，Shifted Window 在相对位置偏移中的性能改进：

表 5，SHIFTED WINDOW 与 CYCLIC 高效执行：

表 6，不同 Self-Attentions 的比较：

Transformer 在 CV 上的应用前景有可能替代 CNN 吗？

ViT 的出现扩大了 Transformer 的使用范围，这也让 AI 领域的从业者开始关注 Transformer 与 CNN 的关系。在知乎上，一位用户提问称：

目前已经有基于 Transformer 在三大图像问题上的应用：分类（ViT），检测（DETR）和分割（SETR），并且都取得了不错的效果。那么未来，Transformer 有可能替换 CNN 吗，Transformer 会不会如同在 NLP 领域的应用一样革新 CV 领域？后面的研究思路可能会有哪些呢？

关于这个问题，很多知乎答主已经给出了自己的答案，包括浙江大学控制科学与工程博士、复旦大学微电子学院硕士、阿里巴巴高级算法专家等，大体总结为未来是否会形成完全替代尚不好预测，但对 CNN 的降维打击已经形成。

感兴趣的用户可以到知乎阅读各位答友的完整回答：https://www.zhihu.com/question/437495132/answer/1800881612

屠榜各大 CV 任务，微软开源的 Swin Transformer 有多强？

微软 Swin Transformer 正式开源

实现方法

具体表现

Transformer 在 CV 上的应用前景有可能替代 CNN 吗？

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

屠榜各大 CV 任务，微软开源的 Swin Transformer 有多强？

微软 Swin Transformer 正式开源

实现方法

具体表现

Transformer 在 CV 上的应用前景有可能替代 CNN 吗？

热门文章

最新文章

相关电子书