霸榜多个CV任务,开源仅两天,微软分层ViT模型收获近2k star

简介: 霸榜多个CV任务,开源仅两天,微软分层ViT模型收获近2k star

屠榜各大 CV 任务的微软 Swin Transformer,近日开源了代码和预训练模型。

自 2017 年 6 月谷歌提出 Transformer 以来,它便逐渐成为了自然语言处理领域的主流模型。最近一段时间,Transformer 更是开启了自己的跨界之旅,开始在计算机视觉领域大展身手,涌现出了多个基于 Transformer 的新模型,如谷歌用于图像分类的 ViT 以及复旦、牛津、腾讯等机构的 SETR 等。由此,「Transformer 是万能的吗?」也一度成为机器学习社区的热门话题。

不久前,微软亚研的研究者提出了一种通过移动窗口(shifted windows)计算的分层视觉 Transformer,他们称之为 Swin Transformer。相比之前的 ViT 模型,Swin Transformer 做出了以下两点改进:其一,引入 CNN 中常用的层次化构建方式构建分层 Transformer;其二,引入局部性(locality)思想,对无重合的窗口区域内进行自注意力计算。

论文链接:


https://arxiv.org/pdf/2103.14030.pdf

首先来看 Swin Transformer 的整体工作流,下图 3a 为 Swin Transformer 的整体架构,图 3b 为两个连续的 Swin Transformer 块。

image.jpeg

 

该研究的亮点在于利用移动窗口对分层 Transformer 的表征进行计算。通过将自注意力计算限制在不重叠的局部串口,同时允许跨窗口连接。这种分层结构可以灵活地在不同尺度上建模,并具有图像大小的线性计算复杂度。下图 2 为在 Swin Transformer 架构中利用移动窗口计算自注意力的工作流:

image.jpeg

 

模型本身具有的特性使其在一系列视觉任务上都实现了颇具竞争力的性能表现。其中,在 ImageNet-1K 数据集上实现了 86.4% 的图像分类准确率、在 COCO test-dev 数据集上实现了 58.7% 的目标检测 box AP 和 51.1% 的 mask AP。目前,在 COCO minival 和 COCO test-dev 两个数据集上,Swin-L(Swin Transformer 的变体)在目标检测和实例分割任务中均实现了 SOTA。

image.jpeg

 

此外,在 ADE20K val 和 ADE20K 数据集上,Swin-L 也在语义分割任务中实现了 SOTA。

开源代码和预训练模型

Swin Transformer 论文公开没多久之后,微软官方于近日在 GitHub 上开源了代码和预训练模型,涵盖图像分类、目标检测以及语义分割任务。上线仅仅两天,该项目已收获 1900 星。

image.jpeg

 

项目地址:


https://github.com/microsoft/Swin-Transformer

首先图像分类任务,Swin-T、Swin-S、Swin-B 和 Swin-L 变体模型在 ImageNet-1K 和 ImageNet-22K 数据集上的准确率结果如下:

image.jpeg

 

其次目标检测任务:Swin-T、Swin-S、Swin-B 和 Swin-L 变体模型在 COCO 目标检测(2017 val)数据集上的结果如下:

image.jpeg

 

最后语义分割任务:Swin-T、Swin-S、Swin-B 和 Swin-L 变体模型在 ADE20K 语义分割(val)数据集上的结果如下。目前,Swin-L 取得了 53.50% 的 SOTA 验证 mIoU 分数。

image.jpeg


目录
相关文章
|
数据可视化 PyTorch 算法框架/工具
零一万物Yi-34B-Chat 微调模型及量化版开源!魔搭社区最佳实践教程!
11月24日,零一万物基正式发布并开源微调模型 Yi-34B-Chat,可申请免费商用。同时,零一万物还为开发者提供了 4bit/8bit 量化版模型,Yi-34B-Chat 4bit 量化版模型可以直接在消费级显卡(如RTX3090)上使用。魔搭社区已支持下载、推理训练体验,并推出相关教程,欢迎大家来玩!
|
5月前
|
机器学习/深度学习 自然语言处理 测试技术
社区供稿 | RWKV-6-World 14B正式开源发布,迄今最强的稠密纯RNN大语言模型
2024年7月19日,RWKV 开源基金会宣布正式向全球开源 RWKV-6-World 14B 模型。
|
机器学习/深度学习 人工智能 物联网
大模型时代,还缺一只雨燕 | SWIFT:魔搭社区轻量级微调推理框架
伴随着大数据的发展和强大的分布式并行计算能力,以预训练+微调的模型开发范式渐渐成为深度学习领域的主流。 2023年各家推出的大模型浩如烟海,如GPT4、Llama、ChatGLM、Baichuan、RWKV、Stable-Diffusion等。这些模型在达到越来越好的效果的同时也需要越来越多的算力资源:全量finetune它们动辄需要几十至上百G显存训练部署,一般的实验室和个人开发者无力承担。
|
7月前
|
数据可视化 物联网 测试技术
零一万物Yi-1.5系列模型发布并开源!34B/9B/6B 多尺寸魔搭社区推理微调最佳实践教程来啦!
Yi-1.5是Yi的升级版本。 它使用 500B tokens的高质量语料库在 Yi 上持续进行预训练,并在 3M 个多样化的微调样本上进行微调。
|
人工智能 编解码 算法
社区供稿 | 视频目标检测(IJCAI 2023) 流感知优化 DAMO-StreamNet 开源
传统视频目标检测(Video Object Detection, VOD)任务以一段视频作为输入,利用视频的时序信息进行目标检测,并最终输出每一帧视频帧的检测结果。
|
机器学习/深度学习 编解码 人工智能
谷歌复用30年前经典算法,CV引入强化学习,网友:视觉RLHF要来了?
谷歌复用30年前经典算法,CV引入强化学习,网友:视觉RLHF要来了?
114 0
|
机器学习/深度学习 人工智能 自然语言处理
史上最全Transformer合集!LeCun力推:给60个模型建目录,哪篇论文你错过了?
史上最全Transformer合集!LeCun力推:给60个模型建目录,哪篇论文你错过了?
400 0
|
机器学习/深度学习 人工智能 编解码
AIGC大一统模型来了!CV界泰斗黄煦涛创立团队提出「全能Diffusion」
AIGC大一统模型来了!CV界泰斗黄煦涛创立团队提出「全能Diffusion」
161 0
|
机器学习/深度学习 算法 数据挖掘
浙大发布「数据混合增强」框架AutoMix,还顺手开源了众多mixup算法(1)
浙大发布「数据混合增强」框架AutoMix,还顺手开源了众多mixup算法
198 0
|
编解码 算法 数据挖掘
浙大发布「数据混合增强」框架AutoMix,还顺手开源了众多mixup算法(2)
浙大发布「数据混合增强」框架AutoMix,还顺手开源了众多mixup算法
313 0