论文总结与分析:“An Image is Worth 16x16 Words”

简介: 论文总结与分析:“An Image is Worth 16x16 Words”

论文的目标

这篇论文要解决什么问题?

大规模图像识别试图解决将Transformer架构应用于计算机视觉任务的问题,以减轻该领域对CNN的严重依赖。本文提出这样的论点,即这种转换将产生与传统CNN相当的结果,同时需要较少的计算资源进行训练。

这个问题的相关背景是什么?

transformer 已被广泛用于NLP任务,如目前最先进的BERT模型、GPT模型及其变体。在图像任务中使用transformer还做了一些其他工作,但它们通常都非常昂贵。

本文的贡献

这篇论文提出了什么方法来解决这个问题?

为了调整图像输入以适应transformer的输入,本文将2D图像重新整形为一系列平坦的2D斑块。嵌入补丁的序列之前是可学习的特征嵌入层。此令牌的作用与BERT的[class]令牌类似。然后将位置嵌入添加到补丁嵌入中以保留位置信息。

transformer编码器由多头自注意块和MLP块交替层组成。变压器编码器的输出状态作为图像表示。在预训练和微调期间,一个分类头,MLP附加到编码器的输出。在预训练期间,MLP有一个隐藏层,可以用作微调期间使用。

视觉转换器(ViT)在大型数据集上进行了预先训练,然后对较小的下游任务进行微调。微调是通过移除预先训练的预测头,并用零初始化的前馈层替换它来完成的。

本文的贡献与以往的相关工作有何不同?

这不是第一篇将变压器应用于CV的论文。Facebook实际上已经发布了一款型号DETR(检测变压器);然而,它们是与cnn联合使用的,而不是单独使用的。本文是独立transformer在CV中的一个成功应用。对于每一项主要贡献,其差别如下:

计算时间更短、精度相当:ViT对噪音较大的学生网络减少了大约5倍的训练时间(训练时间的20%)(尽管它达到了与表2大致相同的精度)。

640.png

没有卷积:理论上,MLP比CNN模型表现更好。然而,数据一直是影响MLP模型性能的一大障碍。CNN施加的归纳偏置极大地推动了CV领域的发展,并且由于作者使用了庞大的数据集,他们能够克服归纳偏置的需求。transformer与传统MLP略有不同,其核心机制是自我关注。这使变压器能够理解输入之间的关系。在NLP中使用时,它以双向的方式计算单词之间的关系,这意味着顺序不像单向RNN那样严格。

transformer的效果:本文通过查看关注头的输出来分析ViT的内部表示(类似于BERTology论文)。论文发现该模型可以使用位置嵌入来编码不同面片之间的距离。该论文还发现,ViT甚至可以在较低层中集成来自整个图像的信息,并指出:“我们发现一些头部会关注已经在最底层的大部分图像,这表明该模型确实使用了全局整合信息的能力。”此外,他们还对模型的表现进行了定量分析,并定性地可视化了模型的注意图和焦点。

论文是如何评估其结果的?

该方法在三个不同的数据集上进行:Imagenet (1k类和21k类),JFT (18k类)和VTAB。结果是通过小样本或微调精度来测量的,微调精度表示在数据集上微调模型后的精度,小样本精度表示在对图像子集进行训练和评估后的精度。

他们将转换模型与流行的图像分类基准进行了比较,例如Big Transfer和Noisy Student。在本文中,他们通过基于BERT的ViT配置了ViT,并通过使用组归一化替换批归一化以及采用标准化卷积来改进转移学习来对Resnet进行了修改。

此外,本文对自我监督训练ViT进行了初步研究,结果表明,通过自我监督的预训练,与从零开始训练相比,准确率提高了2%。

论文的局限性,进一步的研究和/或潜在的应用

本文介绍了ViT:视觉转换器的使用,而不是CNN或混合方法来执行图像任务。结果是有希望的但并不完整,因为因为除了分类之外的基于视觉的任务:如检测和分割,还没有表现出来。此外,与Vaswani等人(2017年)不同,与CNN相比,transformer 性能的提升受到的限制要大得多。作者假设进一步的预训练可以提高性能,因为与其他现有技术模型相比,ViT具有相对可扩展性。

此外,Kaplan等人提出了与NLP中的LSTMs相比,目前的缩放比例主要适用于transformers,这表明可以将变压器缩放到更大的数据集。有趣的是与CNN相比,transformers变压器是否具有相似的性能。如果是这样,那么很明显的迹象表明,基于变压器的技术也将在CV中成为SOTA。

最终,这些结果表明,transformers有可能成为通用模型,能够在广泛的人工任务中学习,并享有以超大规模扩展数据的能力。这种愿景还没有出现,也可能永远不会出现;如果可以,这篇论文将被认为是未来的先兆。

目录
相关文章
|
4月前
|
机器学习/深度学习 编解码 自然语言处理
【文献学习】An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
本文介绍了如何使用纯Transformer模型进行图像识别,并讨论了模型的结构、训练策略及其在多个图像识别基准上的性能。
136 3
|
7月前
|
机器学习/深度学习 算法 异构计算
[FNet]论文实现:FNet:Mixing Tokens with Fourier Transform
[FNet]论文实现:FNet:Mixing Tokens with Fourier Transform
51 1
|
机器学习/深度学习 编解码 人工智能
Text to image综述阅读(2)A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis
这是一篇用GAN做文本生成图像(Text to Image)的综述阅读报告。 综述名为:《A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis》,发表于2019年,其将文本生成图像分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,并且介绍了代表性model。
Text to image综述阅读(2)A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis
|
数据可视化 数据挖掘 测试技术
【计算机视觉】Open-Vocabulary Object Detection 论文工作总结
Open-Vocabulary Object Detection (OVD)可以翻译为**“面向开放词汇下的目标检测”,**该任务和 zero-shot object detection 非常类似,核心思想都是在可见类(base class)的数据上进行训练,然后完成对不可见类(unseen/ target)数据的识别和检测,除了核心思想类似外,很多论文其实对二者也没有进行很好的区分。
|
机器学习/深度学习 算法 数据挖掘
【多标签文本分类】Large Scale Multi-label Text Classification with Semantic Word Vectors
【多标签文本分类】Large Scale Multi-label Text Classification with Semantic Word Vectors
171 0
【多标签文本分类】Large Scale Multi-label Text Classification with Semantic Word Vectors
|
机器学习/深度学习 编解码 数据可视化
Text to image论文精读 从菜谱描述自动生成菜肴照片 CookGAN: Causality based Text-to-Image Synthesis(基于因果关系的文本图像合成 )
文章被2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)会议录用。 论文地址:[https://ieeexplore.ieee.org/document/9157040/citations#citations](https://ieeexplore.ieee.org/document/9157040/citations#citations) CookGAN旨在解决因果关系效应。食物图像的因果演化隐含在一个连续的网络中。 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读 从菜谱描述自动生成菜肴照片 CookGAN: Causality based Text-to-Image Synthesis(基于因果关系的文本图像合成 )
|
机器学习/深度学习 人工智能 自然语言处理
Text to image论文精读DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型
DF-GAN是南京邮电大学、苏黎世联邦理工学院、武汉大学等学者共同研究开发的一款简单且有效的文本生成图像模型。该论文已被CVPR 2022 Oral录用,文章最初发表于2020年8月,最后v3版本修订于22年3月 。 论文地址:https://arxiv.org/abs/2008.05865 代码地址:https://github.com/tobran/DF-GAN 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型
|
机器学习/深度学习 自然语言处理 计算机视觉
Text to image论文精读 MirrorGAN: Learning Text-to-image Generation by Redescription(通过重新描述学习从文本到图像的生成)
MirrorGAN通过学习文本-图像-文本,试图从生成的图像中重新生成文本描述,从而加强保证文本描述和视觉内容的一致性。文章被2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)会议录用。 论文地址:https://arxiv.org/abs/1903.05854 代码地址:https://github.com/qiaott/MirrorGAN
Text to image论文精读 MirrorGAN: Learning Text-to-image Generation by Redescription(通过重新描述学习从文本到图像的生成)
|
机器学习/深度学习 编解码 人工智能
Text to image论文精读CogView: Mastering Text-to-Image Generation via Transformers(通过Transformer控制文本生成图像)
CogView是清华大学和阿里巴巴达摩院共同研究开发的一款用Transformer来控制文本生成图像的模型。该论文已被NIPS(Conference and Workshop on Neural Information Processing Systems,计算机人工智能领域A类会议)录用,文章发表于2021年10月。 论文地址:https://arxiv.org/pdf/2105.13290v3.pdf 代码地址:https://github.com/THUDM/CogView 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读CogView: Mastering Text-to-Image Generation via Transformers(通过Transformer控制文本生成图像)
|
机器学习/深度学习 编解码 自然语言处理
Text to Image综述阅读(1.1):介绍与基本原理 Adversarial Text-to-Image Synthesis: A Review(基于GAN的文本生成图像)
基于GAN的文本生成图像,最早在2016年由Reed等人提出,最开始是Conditional GANs的扩展,仅在受限的数据集取得成果,小图像分辨率64*64。
Text to Image综述阅读(1.1):介绍与基本原理 Adversarial Text-to-Image Synthesis: A Review(基于GAN的文本生成图像)