7、微软更新 DeBERTa 模型,使得单个 DeBERTa 模型在 SuperGLUE 上宏平均得分首次超过人类
收录时间:2021/10/7任务:自然语言理解方法:DeBERTa基准:SuperGLUE(90.3)
2020年 6 月,来自微软的研究者提出一种新型预训练语言模型 DeBERTa,该模型使用两种新技术改进了 BERT 和 RoBERTa 模型。2020年8 月,该研究开源了模型代码,并提供预训练模型下载。
2021年1月在这项研究又取得了新的进展:通过训练更大的版本来更新 DeBERTa 模型,该版本由 48 个 Transformer 层组成,带有 15 亿个参数。
本次扩大规模带来了极大的性能提升,使得单个 DeBERTa 模型 SuperGLUE 上宏平均(macro-average)得分首次超过人类(89.9 vs 89.8),整体 DeBERTa 模型在 SuperGLUE 基准排名中居于首位,以 90.3 的得分显著高出人类基线(89.8)。
文献地址:https://arxiv.org/pdf/2006.03654v2.pdf
8、微软提出新 CV 基础模型 Florence,打破分类、检索等多项 SOTA
收录时间:2021/11/23任务:分类、检索、目标检测、视觉问答(VQA)、图像描述、视频检索和动作识别方法:Florence(Foundation Model)基准:44 个表征基准
面对多样化和开放的现实世界,要实现 AI 的自动视觉理解,就要求计算机视觉模型能够很好地泛化,最小化对特定任务所需的定制,最终实现类似于人类视觉的人工智能。
计算机视觉基础模型在多样化的大规模数据集上进行训练,可以适应各种下游任务,对于现实世界的计算机视觉应用至关重要。现有的视觉基础模型,如 CLIP、ALIGN 和悟道 2.0 等 ,主要侧重于将图像和文本表征映射为跨模态共享表征。
本文出自于微软研究团队,该团队另辟蹊径提出了一种新的计算机视觉基础模型 Florence,将表征从粗粒度(场景)扩展到细粒度(对象),从静态(图像)扩展到动态(视频),从 RGB 扩展到多模态。通过结合来自 Web 规模图像 - 文本数据的通用视觉语言表征, Florence 模型可以轻松地适应各种计算机视觉任务,包括分类、检索、目标检测、视觉问答(VQA)、图像描述、视频检索和动作识别。
此外,Florence 在许多迁移学习中也表现出卓越的性能,例如分类、检索、目标检测、视觉问答(VQA)、图像描述、视频检索和动作识别,这些对于视觉基础模型用于通用视觉任务至关重要。
Florence 在 44 个表征基准测试中多数都取得了新的 SOTA 结果,例如 ImageNet-1K 零试分类任务,top-1 准确率为 83.74,top-5 准确率为 97.18;COCO 微调任务获得 62.4 mAP,VQA 任务获得 80.36 mAP。
文献地址:https://arxiv.org/pdf/2111.11432v1.pdf
9、微软亚研院、北大提出多模态预训练模型 Nüwa,在 8 种包含图像和视频处理的下游视觉任务上具有出色的合成效果
收录时间:2021/11/24任务:文字转图像,草图转图像,图像补全,文字指示修改图像,文字转视频,视频预测,草图转视频,文字指示修改视频方法:多模态预训练模型 Nüwa基准:MSCOCO(256×256), Kinetics, BAIR(64×64)等
微软亚研院、北大提出多模态预训练模型 Nüwa。相比于 GauGAN,「女娲」的生成模式更加多样,不仅有文本涂鸦生成图像,还能从文本生成视频。
「女娲」是一个统一的多模态预训练模型,在 8 种包含图像和视频处理的下游视觉任务上( Text-to-Image 、 Text-to-Video 、 Video Prediction 、 Sketch-to-Image 、 Image Completion zero-shot 、 Text-Guided Image Manipulation (TI2I) zero-shot 、 Sketch-to-Video 、 Text-Guided Video Manipulation (TV2V) zero-shot )具有出色的合成效果。
文献地址:https://arxiv.org/pdf/2111.12417.pdf
10、字节跳动提出适用于视觉任务的大规模预训练方法 iBOT,刷新十几项SOTA,部分指标超 MAE
收录时间:2021/12/9任务:分类、目标检测、实例分割,语义分割,迁移学习等方法:iBOT基准/数据集: IMAGENET-1K ; COCO ; ADE20K
MAE让人们看到了 Transformer 扩展到 CV 大模型的光明前景,给该领域的研究者带来了很大的鼓舞。
本文提出了适用于视觉任务的大规模预训练方法 iBOT,通过对图像使用在线 tokenizer 进行 BERT式预训练让 CV 模型获得通用广泛的特征表达能力。该方法在十几类任务和数据集上刷新了 SOTA 结果,在一些指标上甚至超过了 MAE。
在 NLP 的大规模模型训练中,MLM(Masked Language Model)是非常核心的训练目标,其思想是遮住文本的一部分并通过模型去预测这些遮住部分的语义信息,通过这一过程可以使模型学到泛化的特征。
NLP 中的经典方法 BERT 就是采用了 MLM 的预训练范式,通过 MLM 训练的模型已经被证明在大模型和大数据上具备极好的泛化能力,成为 NLP 任务的标配。本文主要探索了这种在 NLP 中主流的 Masked Modeling 是否能应用于大规模 Vision Transformer 的预训练。作者给出了肯定的回答,并认为问题关键在于 visual tokenizer 的设计。
不同于 NLP 中 tokenization 通过离线的词频分析即可将语料编码为含高语义的分词,图像 patch 是连续分布的且存在大量冗余的底层细节信息。而作者认为一个能够提取图像 patch 中高层语义的 tokenizer 可帮助模型避免学习到冗余的这些细节信息。作者认为视觉的 tokenizer 应该具备两个属性:
(a) 具备完整表征连续图像内容的能力;(b) 像 NLP 中的 tokenizer 一样具备高层语义。
文献地址:https://arxiv.org/pdf/2111.07832.pdf
11、FAIR 等提出能用于视频模型的自监督预训练方法 MaskFeat,MaskFeat 的 MViT-L 在 Kinetics-400 上的准确率超过 MAE,BEiT 等方法
收录时间:2021/12/17任务/类别:视频识别,迁移学习(动作监测,人物互动分类),图像识别方法:MaskFeat基准:Kinetic-400, Kinetics-600, Kinetics-700, ImageNet-1K
MAE最大的贡献,可能就是将NLP领域和CV两大领域之间架起了一座更简便的桥梁:把NLP领域已被证明极其有效的方式:「Mask-and-Predict」,用在了计算机视觉(CV)领域,先将输入图像的随机部分予以屏蔽(Mask),再预测(Predict)丢失的像素(pixel)。
「Mask-and-Predict」总要有个可以「Predict」的特征来让模型学习到东西。
MaskFeat最核心的改变就是将MAE对图像像素(pixel)的直接预测,替换成对图像的方向梯度直方图(HOG)的预测。方向梯度直方图(HOG)这个点子的加入使得MaskFeat模型更加简化,在性能和效率方面都有非常出色的表现。文献地址:https://arxiv.org/pdf/2112.09133.pdf
12、谷歌、罗格斯大学提出 NesT,超越 Swin Transformer 收录时间:2021/12/31任务/类别:视觉 Backbone方法:NesT, GradGAT基准:ImageNet, CIFAR 等
尽管分层结构在Vision Transformer领域非常流行,但它需要复杂设计以及大量的数据才能表现够好。
本文是谷歌&罗格斯大学的研究员在Vision Transformer的一次尝试,对ViT领域的分层结构设计进行了反思与探索,提出了一种简单的结构NesT:它在非重叠图像块上嵌套基本transformer,然后通过分层方式集成。
所提方法不仅具有更快的收敛速度,同时具有更强的数据增广鲁棒性。更重要的是,所提方法凭借68M参数取得了超越Swin Transformer的性能,同时具有更少(仅43%)的参数量。
文献地址:https://arxiv.org/pdf/2105.12723.pdf
在SOTA!模型推出的「虎卷er行动」中,我们基于2021年度国际AI顶会「Best Papers」、重要SOTA工作,形成总计五十道年度大题。具体分布如下:
- 「Best Papers」:共 7 题
- 「大牛组的工作」:共 12 题
- 「大模型」:共 19 题
- 「刷爆基准的SOTA工作」:共 12 题