多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾

7、微软更新 DeBERTa 模型,使得单个 DeBERTa 模型在 SuperGLUE 上宏平均得分首次超过人类


收录时间:2021/10/7任务:自然语言理解方法:DeBERTa基准:SuperGLUE(90.3)
2020年 6 月,来自微软的研究者提出一种新型预训练语言模型 DeBERTa,该模型使用两种新技术改进了 BERT 和 RoBERTa 模型。2020年8 月,该研究开源了模型代码,并提供预训练模型下载。
2021年1月在这项研究又取得了新的进展:通过训练更大的版本来更新 DeBERTa 模型,该版本由 48 个 Transformer 层组成,带有 15 亿个参数。
本次扩大规模带来了极大的性能提升,使得单个 DeBERTa 模型 SuperGLUE 上宏平均(macro-average)得分首次超过人类(89.9 vs 89.8),整体 DeBERTa 模型在 SuperGLUE 基准排名中居于首位,以 90.3 的得分显著高出人类基线(89.8)。
文献地址:https://arxiv.org/pdf/2006.03654v2.pdf

8、微软提出新 CV 基础模型 Florence,打破分类、检索等多项 SOTA
收录时间:2021/11/23任务:分类、检索、目标检测、视觉问答(VQA)、图像描述、视频检索和动作识别方法:Florence(Foundation Model)基准:44 个表征基准
面对多样化和开放的现实世界,要实现 AI 的自动视觉理解,就要求计算机视觉模型能够很好地泛化,最小化对特定任务所需的定制,最终实现类似于人类视觉的人工智能。
计算机视觉基础模型在多样化的大规模数据集上进行训练,可以适应各种下游任务,对于现实世界的计算机视觉应用至关重要。现有的视觉基础模型,如 CLIP、ALIGN 和悟道 2.0 等 ,主要侧重于将图像和文本表征映射为跨模态共享表征。
本文出自于微软研究团队,该团队另辟蹊径提出了一种新的计算机视觉基础模型 Florence,将表征从粗粒度(场景)扩展到细粒度(对象),从静态(图像)扩展到动态(视频),从 RGB 扩展到多模态。通过结合来自 Web 规模图像 - 文本数据的通用视觉语言表征, Florence 模型可以轻松地适应各种计算机视觉任务,包括分类、检索、目标检测、视觉问答(VQA)、图像描述、视频检索和动作识别。
此外,Florence 在许多迁移学习中也表现出卓越的性能,例如分类、检索、目标检测、视觉问答(VQA)、图像描述、视频检索和动作识别,这些对于视觉基础模型用于通用视觉任务至关重要。
Florence 在 44 个表征基准测试中多数都取得了新的 SOTA 结果,例如 ImageNet-1K 零试分类任务,top-1 准确率为 83.74,top-5 准确率为 97.18;COCO 微调任务获得 62.4 mAP,VQA 任务获得 80.36 mAP。
文献地址:https://arxiv.org/pdf/2111.11432v1.pdf
9、微软亚研院、北大提出多模态预训练模型 Nüwa,在 8 种包含图像和视频处理的下游视觉任务上具有出色的合成效果


收录时间:2021/11/24任务:文字转图像,草图转图像,图像补全,文字指示修改图像,文字转视频,视频预测,草图转视频,文字指示修改视频方法:多模态预训练模型 Nüwa基准:MSCOCO(256×256), Kinetics, BAIR(64×64)等
微软亚研院、北大提出多模态预训练模型 Nüwa。相比于 GauGAN,「女娲」的生成模式更加多样,不仅有文本涂鸦生成图像,还能从文本生成视频。
「女娲」是一个统一的多模态预训练模型,在 8 种包含图像和视频处理的下游视觉任务上( Text-to-Image 、 Text-to-Video 、 Video Prediction 、 Sketch-to-Image 、 Image Completion zero-shot 、 Text-Guided Image Manipulation (TI2I) zero-shot 、 Sketch-to-Video 、 Text-Guided Video Manipulation (TV2V) zero-shot )具有出色的合成效果。
文献地址:https://arxiv.org/pdf/2111.12417.pdf
10、字节跳动提出适用于视觉任务的大规模预训练方法 iBOT,刷新十几项SOTA,部分指标超 MAE
收录时间:2021/12/9任务:分类、目标检测、实例分割,语义分割,迁移学习等方法:iBOT基准/数据集: IMAGENET-1K ; COCO ;  ADE20K
MAE让人们看到了 Transformer 扩展到 CV 大模型的光明前景,给该领域的研究者带来了很大的鼓舞。
本文提出了适用于视觉任务的大规模预训练方法 iBOT,通过对图像使用在线 tokenizer 进行 BERT式预训练让 CV 模型获得通用广泛的特征表达能力。该方法在十几类任务和数据集上刷新了 SOTA 结果,在一些指标上甚至超过了 MAE。
在 NLP 的大规模模型训练中,MLM(Masked Language Model)是非常核心的训练目标,其思想是遮住文本的一部分并通过模型去预测这些遮住部分的语义信息,通过这一过程可以使模型学到泛化的特征。
NLP 中的经典方法 BERT 就是采用了 MLM 的预训练范式,通过 MLM 训练的模型已经被证明在大模型和大数据上具备极好的泛化能力,成为 NLP 任务的标配。本文主要探索了这种在 NLP 中主流的 Masked Modeling 是否能应用于大规模 Vision Transformer 的预训练。作者给出了肯定的回答,并认为问题关键在于 visual tokenizer 的设计。
不同于 NLP 中 tokenization 通过离线的词频分析即可将语料编码为含高语义的分词,图像 patch 是连续分布的且存在大量冗余的底层细节信息。而作者认为一个能够提取图像 patch 中高层语义的 tokenizer 可帮助模型避免学习到冗余的这些细节信息。作者认为视觉的 tokenizer 应该具备两个属性:
(a) 具备完整表征连续图像内容的能力;(b) 像 NLP 中的 tokenizer 一样具备高层语义。
文献地址:https://arxiv.org/pdf/2111.07832.pdf
11、FAIR 等提出能用于视频模型的自监督预训练方法 MaskFeat,MaskFeat 的 MViT-L 在 Kinetics-400 上的准确率超过 MAE,BEiT 等方法

收录时间:2021/12/17任务/类别:视频识别,迁移学习(动作监测,人物互动分类),图像识别方法:MaskFeat基准:Kinetic-400, Kinetics-600, Kinetics-700, ImageNet-1K

MAE最大的贡献,可能就是将NLP领域和CV两大领域之间架起了一座更简便的桥梁:把NLP领域已被证明极其有效的方式:「Mask-and-Predict」,用在了计算机视觉(CV)领域,先将输入图像的随机部分予以屏蔽(Mask),再预测(Predict)丢失的像素(pixel)。
「Mask-and-Predict」总要有个可以「Predict」的特征来让模型学习到东西。
MaskFeat最核心的改变就是将MAE对图像像素(pixel)的直接预测,替换成对图像的方向梯度直方图(HOG)的预测。方向梯度直方图(HOG)这个点子的加入使得MaskFeat模型更加简化,在性能和效率方面都有非常出色的表现。
文献地址:https://arxiv.org/pdf/2112.09133.pdf
12、谷歌、罗格斯大学提出 NesT,超越 Swin Transformer       收录时间:2021/12/31任务/类别:视觉 Backbone方法:NesT, GradGAT基准:ImageNet, CIFAR 等
尽管分层结构在Vision Transformer领域非常流行,但它需要复杂设计以及大量的数据才能表现够好。
本文是谷歌&罗格斯大学的研究员在Vision Transformer的一次尝试,对ViT领域的分层结构设计进行了反思与探索,提出了一种简单的结构NesT:它在非重叠图像块上嵌套基本transformer,然后通过分层方式集成。
所提方法不仅具有更快的收敛速度,同时具有更强的数据增广鲁棒性。更重要的是,所提方法凭借68M参数取得了超越Swin Transformer的性能,同时具有更少(仅43%)的参数量。

文献地址:https://arxiv.org/pdf/2105.12723.pdf


在SOTA!模型推出的「虎卷er行动」中,我们基于2021年度国际AI顶会「Best Papers」、重要SOTA工作,形成总计五十道年度大题。具体分布如下:

  • 「Best Papers」:共 7 题
  • 「大牛组的工作」:共 12 题
  • 「大模型」:共 19 题
  • 「刷爆基准的SOTA工作」:共 12 题
相关文章
|
机器学习/深度学习 自然语言处理 文字识别
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾(1)
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
279 0
|
7月前
|
安全 程序员 Python
PDF转Word,1行Python代码就够了,免费用
PDF转Word,1行Python代码就够了,免费用
一段pdf转word的Java代码
一段pdf转word的Java代码
一段pdf转word的Java代码
一段pdf转word的Java代码
一段pdf转word的Java代码
一段pdf转word的Java代码
|
机器学习/深度学习 人工智能 自然语言处理
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA(2)
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA
175 0
|
2月前
|
机器学习/深度学习 物联网 数据处理
社区供稿 | 封神榜团队提出首个引入视觉细化器的多模态大模型Ziya-Visual-Lyrics,多个任务SOTA
封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。
|
2月前
|
机器学习/深度学习 编解码 人工智能
OpenAI Sora:“60s超长长度”、“超强语义理解”、“世界模型”。浅析文生视频模型Sora以及技术原理简介
OpenAI,永远快别人一步!!!! 像ChatGPT成功抢了Claude的头条一样,这一次,谷歌核弹级大杀器Gemini 1.5才推出没几个小时,全世界的目光就被OpenAI的Sora抢了去。 100万token的上下文,仅靠一本语法书就学会了一门全新的语言,如此震撼的技术进步,在Sora的荣光下被衬得暗淡无光,着实令人唏嘘。 三个词总结 “60s超长长度”、“单视频多角度镜头”,“世界模型”
231 0
OpenAI Sora:“60s超长长度”、“超强语义理解”、“世界模型”。浅析文生视频模型Sora以及技术原理简介
|
2月前
|
机器学习/深度学习 人工智能 算法
基于AidLux的工业视觉少样本缺陷检测实战应用---深度学习分割模型UNET的实践部署
  工业视觉在生产和制造中扮演着关键角色,而缺陷检测则是确保产品质量和生产效率的重要环节。工业视觉的前景与发展在于其在生产制造领域的关键作用,尤其是在少样本缺陷检测方面,借助AidLux技术和深度学习分割模型UNET的实践应用,深度学习分割模型UNET的实践部署变得至关重要。
83 1
|
7月前
|
机器学习/深度学习 人工智能 算法
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
313 1
|
机器学习/深度学习 编解码 人工智能
AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用
AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用
211 0