多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾

7、微软更新 DeBERTa 模型,使得单个 DeBERTa 模型在 SuperGLUE 上宏平均得分首次超过人类


收录时间:2021/10/7任务:自然语言理解方法:DeBERTa基准:SuperGLUE(90.3)
2020年 6 月,来自微软的研究者提出一种新型预训练语言模型 DeBERTa,该模型使用两种新技术改进了 BERT 和 RoBERTa 模型。2020年8 月,该研究开源了模型代码,并提供预训练模型下载。
2021年1月在这项研究又取得了新的进展:通过训练更大的版本来更新 DeBERTa 模型,该版本由 48 个 Transformer 层组成,带有 15 亿个参数。
本次扩大规模带来了极大的性能提升,使得单个 DeBERTa 模型 SuperGLUE 上宏平均(macro-average)得分首次超过人类(89.9 vs 89.8),整体 DeBERTa 模型在 SuperGLUE 基准排名中居于首位,以 90.3 的得分显著高出人类基线(89.8)。
文献地址:https://arxiv.org/pdf/2006.03654v2.pdf

8、微软提出新 CV 基础模型 Florence,打破分类、检索等多项 SOTA
收录时间:2021/11/23任务:分类、检索、目标检测、视觉问答(VQA)、图像描述、视频检索和动作识别方法:Florence(Foundation Model)基准:44 个表征基准
面对多样化和开放的现实世界,要实现 AI 的自动视觉理解,就要求计算机视觉模型能够很好地泛化,最小化对特定任务所需的定制,最终实现类似于人类视觉的人工智能。
计算机视觉基础模型在多样化的大规模数据集上进行训练,可以适应各种下游任务,对于现实世界的计算机视觉应用至关重要。现有的视觉基础模型,如 CLIP、ALIGN 和悟道 2.0 等 ,主要侧重于将图像和文本表征映射为跨模态共享表征。
本文出自于微软研究团队,该团队另辟蹊径提出了一种新的计算机视觉基础模型 Florence,将表征从粗粒度(场景)扩展到细粒度(对象),从静态(图像)扩展到动态(视频),从 RGB 扩展到多模态。通过结合来自 Web 规模图像 - 文本数据的通用视觉语言表征, Florence 模型可以轻松地适应各种计算机视觉任务,包括分类、检索、目标检测、视觉问答(VQA)、图像描述、视频检索和动作识别。
此外,Florence 在许多迁移学习中也表现出卓越的性能,例如分类、检索、目标检测、视觉问答(VQA)、图像描述、视频检索和动作识别,这些对于视觉基础模型用于通用视觉任务至关重要。
Florence 在 44 个表征基准测试中多数都取得了新的 SOTA 结果,例如 ImageNet-1K 零试分类任务,top-1 准确率为 83.74,top-5 准确率为 97.18;COCO 微调任务获得 62.4 mAP,VQA 任务获得 80.36 mAP。
文献地址:https://arxiv.org/pdf/2111.11432v1.pdf
9、微软亚研院、北大提出多模态预训练模型 Nüwa,在 8 种包含图像和视频处理的下游视觉任务上具有出色的合成效果


收录时间:2021/11/24任务:文字转图像,草图转图像,图像补全,文字指示修改图像,文字转视频,视频预测,草图转视频,文字指示修改视频方法:多模态预训练模型 Nüwa基准:MSCOCO(256×256), Kinetics, BAIR(64×64)等
微软亚研院、北大提出多模态预训练模型 Nüwa。相比于 GauGAN,「女娲」的生成模式更加多样,不仅有文本涂鸦生成图像,还能从文本生成视频。
「女娲」是一个统一的多模态预训练模型,在 8 种包含图像和视频处理的下游视觉任务上( Text-to-Image 、 Text-to-Video 、 Video Prediction 、 Sketch-to-Image 、 Image Completion zero-shot 、 Text-Guided Image Manipulation (TI2I) zero-shot 、 Sketch-to-Video 、 Text-Guided Video Manipulation (TV2V) zero-shot )具有出色的合成效果。
文献地址:https://arxiv.org/pdf/2111.12417.pdf
10、字节跳动提出适用于视觉任务的大规模预训练方法 iBOT,刷新十几项SOTA,部分指标超 MAE
收录时间:2021/12/9任务:分类、目标检测、实例分割,语义分割,迁移学习等方法:iBOT基准/数据集: IMAGENET-1K ; COCO ;  ADE20K
MAE让人们看到了 Transformer 扩展到 CV 大模型的光明前景,给该领域的研究者带来了很大的鼓舞。
本文提出了适用于视觉任务的大规模预训练方法 iBOT,通过对图像使用在线 tokenizer 进行 BERT式预训练让 CV 模型获得通用广泛的特征表达能力。该方法在十几类任务和数据集上刷新了 SOTA 结果,在一些指标上甚至超过了 MAE。
在 NLP 的大规模模型训练中,MLM(Masked Language Model)是非常核心的训练目标,其思想是遮住文本的一部分并通过模型去预测这些遮住部分的语义信息,通过这一过程可以使模型学到泛化的特征。
NLP 中的经典方法 BERT 就是采用了 MLM 的预训练范式,通过 MLM 训练的模型已经被证明在大模型和大数据上具备极好的泛化能力,成为 NLP 任务的标配。本文主要探索了这种在 NLP 中主流的 Masked Modeling 是否能应用于大规模 Vision Transformer 的预训练。作者给出了肯定的回答,并认为问题关键在于 visual tokenizer 的设计。
不同于 NLP 中 tokenization 通过离线的词频分析即可将语料编码为含高语义的分词,图像 patch 是连续分布的且存在大量冗余的底层细节信息。而作者认为一个能够提取图像 patch 中高层语义的 tokenizer 可帮助模型避免学习到冗余的这些细节信息。作者认为视觉的 tokenizer 应该具备两个属性:
(a) 具备完整表征连续图像内容的能力;(b) 像 NLP 中的 tokenizer 一样具备高层语义。
文献地址:https://arxiv.org/pdf/2111.07832.pdf
11、FAIR 等提出能用于视频模型的自监督预训练方法 MaskFeat,MaskFeat 的 MViT-L 在 Kinetics-400 上的准确率超过 MAE,BEiT 等方法

收录时间:2021/12/17任务/类别:视频识别,迁移学习(动作监测,人物互动分类),图像识别方法:MaskFeat基准:Kinetic-400, Kinetics-600, Kinetics-700, ImageNet-1K

MAE最大的贡献,可能就是将NLP领域和CV两大领域之间架起了一座更简便的桥梁:把NLP领域已被证明极其有效的方式:「Mask-and-Predict」,用在了计算机视觉(CV)领域,先将输入图像的随机部分予以屏蔽(Mask),再预测(Predict)丢失的像素(pixel)。
「Mask-and-Predict」总要有个可以「Predict」的特征来让模型学习到东西。
MaskFeat最核心的改变就是将MAE对图像像素(pixel)的直接预测,替换成对图像的方向梯度直方图(HOG)的预测。方向梯度直方图(HOG)这个点子的加入使得MaskFeat模型更加简化,在性能和效率方面都有非常出色的表现。
文献地址:https://arxiv.org/pdf/2112.09133.pdf
12、谷歌、罗格斯大学提出 NesT,超越 Swin Transformer       收录时间:2021/12/31任务/类别:视觉 Backbone方法:NesT, GradGAT基准:ImageNet, CIFAR 等
尽管分层结构在Vision Transformer领域非常流行,但它需要复杂设计以及大量的数据才能表现够好。
本文是谷歌&罗格斯大学的研究员在Vision Transformer的一次尝试,对ViT领域的分层结构设计进行了反思与探索,提出了一种简单的结构NesT:它在非重叠图像块上嵌套基本transformer,然后通过分层方式集成。
所提方法不仅具有更快的收敛速度,同时具有更强的数据增广鲁棒性。更重要的是,所提方法凭借68M参数取得了超越Swin Transformer的性能,同时具有更少(仅43%)的参数量。

文献地址:https://arxiv.org/pdf/2105.12723.pdf


在SOTA!模型推出的「虎卷er行动」中,我们基于2021年度国际AI顶会「Best Papers」、重要SOTA工作,形成总计五十道年度大题。具体分布如下:

  • 「Best Papers」:共 7 题
  • 「大牛组的工作」:共 12 题
  • 「大模型」:共 19 题
  • 「刷爆基准的SOTA工作」:共 12 题
相关文章
|
机器学习/深度学习 自然语言处理 文字识别
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾(1)
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
332 0
|
11天前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。
|
14天前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
《文档智能 & RAG让AI大模型更懂业务》解决方案基于文档智能技术和检索增强生成(RAG)方法,通过结构化企业内部文档并结合实时检索,显著提升了大模型对业务内容的理解能力。方案在金融、法律、医疗等行业的应用表现出色,但在大规模文档管理和个性化定制方面仍有改进空间。部署文档详细但需增加更多排错指导。
|
11天前
|
人工智能 自然语言处理 数据挖掘
文档智能 & RAG让AI大模型更懂业务
《文档智能 & RAG让AI大模型更懂业务》解决方案基于阿里云的文档智能解析与检索增强生成技术,实现非结构化文档向结构化信息的转化,提升AI在特定领域问答的能力。方案提供了详尽的部署指南,包括文档处理、知识库构建等步骤,确保新手也能轻松上手。部署体验良好,未遇重大问题,但建议增加故障排除指南。体验中,LLM知识库展现出高准确率和响应速度,尤其适合处理专业查询。该方案适用于客户服务、知识管理和数据分析等场景,满足生产环境需求,但对于小型企业需考虑成本效益。建议阿里云提供多规模解决方案及定制化选项,以适应不同需求。
49 10
|
6天前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
文档智能 & RAG让AI大模型更懂业务
|
10天前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
报告概述了阿里云在企业文档处理与问答系统中的应用。通过高效的文档清洗、向量化及RAG技术,实现了快速、准确的问答召回,提升了知识库利用率。系统表现出高自动化、灵活性和语义保留能力,但仍需优化冷启动、多语言支持及复杂查询处理等方面。
|
12天前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG让AI大模型更懂业务
本次体验活动聚焦于文档智能与检索增强生成(RAG)技术结合构建的LLM知识库,重点测试了文档内容清洗、向量化、问答召回及Prompt上下文提供等环节。系统在自动化处理、处理效率和准确性方面表现出色,但在特定行业术语识别、自定义向量化选项、复杂问题处理及Prompt模板丰富度等方面仍有提升空间。
41 4
|
13天前
|
数据采集 人工智能 监控
文档智能 & RAG让AI大模型更懂业务评测
【10月更文挑战第22天】《文档智能 & RAG让AI大模型更懂业务》解决方案通过文档内容清洗、向量化、问答内容召回、Prompt设计和LLM问答处理等步骤,实现了高效精准的问答系统。方案描述清晰,但在某些技术细节上略显简略。部署过程顺利,未遇明显问题。该方案适用于企业知识库、法律文档库等场景,但在数据安全、可扩展性等方面仍有改进空间。
|
2月前
|
存储 算法 API
文档解析(大模型版)能力对比测评
文档解析(大模型版)能力对比测评
183 41
|
14天前
|
人工智能 JSON 自然语言处理
文档智能 & RAG让AI大模型更懂业务 评测
文档智能 & RAG让AI大模型更懂业务 评测
33 2