图像分类CNN模型
CNN指卷积神经网络,借鉴人类视觉的基本原理,人类视觉具有分层的机制,与计算机的视觉相比,人类视觉从V1到V2到V4,抽象层次依次提升。人类观察一个物品,会先看到的边缘的线条,再看到的形状,再看到物体,最后抽象为某个事物。
CNN是由很多网络堆叠而成的模型,从图像输入到最后得到可以完成模式识别的高层特征,也是逐层抽象的过程。
在浅层,算子提取到的是浅层的特征,比如边缘特征和颜色;随着模型的加深,会逐渐提取到更深层的、抽象的特征。其中特征提取使用的便是神经网络,其核心为卷积的操作。
上图为单个卷积的示意图像。卷积的本质为:在输入特征图像上通过滑动窗口的方式进行乘加的求和。右上角是卷积层的示意图,假设输入为3个通道的特征图像,通过4*3个卷积核的权重,每一个卷积核都与输入的特征进行卷积,最终输出4个特征图像,以上便是一层的卷积。
上图展示了图像分类的经典CNN模型与发展历程。
CNN模型的开山之作是LeNet5,具有三个卷积层,两个池化层,两个全连接层,并且增加了非线性的映射,输入大小为32*32,经过一个卷积层、上采样、卷积层、上采样、卷积层,最后经过两个全连接层,输出分类的结果。该模型较为简单,深度只有3层。
深度学习真正爆发在于2012年提出的AlexNet模型网模型,它取得了ImageNet分类比赛的冠军,且分类准确率远远超过使用传统方法得到的分类结果,是真正意义上的现代神经网络。因此,2012年也成为深度学习的元年。
AlexNet共有5个卷积层,3个全连接层,同时使用了一些工程上的技巧,比如利使用多GPU的训练,利用两个GPU并行地对特征进行分别的训练,可以尽可能地使用更多的特征图像,并且能够减少计算量。另外,AlexNet第一次使用了ReLU的激活函数,加快了模型的收敛;还使用了LRN的归一化,增强了模型的泛化能力;引用了dropout正则,防止模型的过拟合和收敛;使用了数据增强,比如裁剪、反转等,提高了模型的泛化能力。且上述技巧到目前为止依然在使用,因此,它是真正意义上的现代的神经网络。
2014年,业内提出了VGG,相比AlexNet,它堆叠了更多的卷积层和池化层,并且增加了模型深度。首次使用了3*3的小卷积核,此前多为5*5或7*7的大卷积核,且第一次提出了1*1的小卷积核,网络更简洁,深度达到19层。
2015年,业内提出了具有划时代意义的模型ResNet(深度残差网络)。此前,网络层之间直接通过x来求得输出F(x),但是ResNet从输入x到输出多了一个连接,网络层建模输入和输出的差值,称为残差,输出变为输入与残差之和,通过该方式解决了网络深度增加导致梯度消失的问题,将神经网络加得更深,进一步增强了网络的表达能力。ResNet可以将网络增加至1000+层。
后续,基于ResNet发展出了更高精度、高效的模型结构,包括移动端上的高效模型比如MobelNet系列等。
上图左侧展示了当前所有分类模型在ImageNet上的分类性能情况。从AlexNet开始,图像分类的性能逐年不断提升,且每年都有大量模型结构被提出,特别是近几年,SOTA模型一直在刷新分类的精度。
右侧展示了当前TOP10的模型。可以看出,当前TOP10的模型已经不是CNN模型,而是Transformer模型。这也意味着Transformer是当前模型的新趋势。
图像分类Transformer模型
2017年,谷歌在自然语言领域中首次提出了Transformer模型。2020年,Transformer开始在自研语言领域中广泛应用。2020年10月,ViT模型被提出,该模型是自然语言领域中的Transformer在计算机视觉上的第一次应用。
在此之后,业界基于Transformer提出了许多不同的模型结构,也不断地刷新着模型的精度。
Transformer模型中,最为核心的是自注意力。
编
自注意力的计算流程和原理如上图所示:
输入向量后,经过线性变换(如右图公式),输出Q、K、V,K和V矩阵做内积运算得到注意力。注意力除以,d指输入向量的维度。q的矩阵乘以k的矩阵的值大小与维度成正比,为了使训练更稳定,因此此处除以。加上位置编码之后求softmax。得到的结果再与v做内积计算,得到自注意力。
上述流程可以类比于查询数据库的过程,q是查询的向量,k是键值,v是要查询的数据。q矩阵和k矩阵做内积,衡量两个矩阵之间的相似程度。使用查询向量与键值做对比,对比的结果即数据的索引,通过索引查找数据所在位置。
上图左侧为自注意力的示意图像,每个输入q和k做内积之后乘以v得到自助力的输出。
右侧为多头自注意力示意图,将q、k和v分为多个头,本示例分为两个头,每个头的q、k和v分别做自注意力的计算,最后得到多头自注意力的输出。相比自注意力,多头自注意力的表达能力更强,因此目前一般使用多头注意力作为自注意力的计算。
下文将介绍几个比较经典的Transformer模型。
Vit(Vision Transformer)模型,首次提出使用Transformer进行分类,是第一个纯Transformer的视觉模型,没有任何卷积,在大规模数据集上进行训练的结果优于之前的所有CNN。
Transformer主要在自然语言领域中应用的,要求输入序列,那么ViT如何将图像转换为序列?
采用的方式为:将输入图像分块,每一块视为一个向量,所有向量合并成为序列,经过线性映射之后,加入分类的token和位置编码,经过Transformer encoder编码,再使用分类的token和NLP进行分类。NLP是两个全连接层,即分类器。Transformer encode由L个基本单元堆叠而成,基本单元中输入的token首先经过nomal layer,再经过多头的注意力计算,最后经由NLP输出。模型过程较简洁。
ViT的缺点在于,必须使用较大规模的数据集才能得到较好的结果。上图示例中使用了3亿张图像,使用谷歌的8核TPU训练了一个月才得到结果,成本较高。
为了解决上述缺陷,业界推出了DeiT模型,它是一种训练策略,使用蒸馏的方式,帮助Transformer更快地学习到局部的信息,大幅降低了ViT训练的数据量,仅需140多万张数据集,使用8卡的GPU训练2-3天即可。
训练过程与ViT大致相似,区别在于额外加入了蒸馏的token,计算loss时,蒸馏的token和teacher模型的预测标签计算蒸馏的交叉熵损失,再加上分类的交叉熵损失作为模型的总损失。
总的来说,DeiT模型大幅减少了训练的数据量和训练成本。
ViT的模型的计算量很大,复杂度为输入分辨率的二次方。在ViT模的模型中,会将输入划分为多个patch(小的窗口)。在进行多头自注意力计算时,任何patch都要与其他所有的patch做自注意力的计算。因此当patch的大小固定时,计算量便与图片分辨率的平方成正比,计算量非常大。
而Swin中采用了W-MSA的方式。首先,将输入的图像分为多个窗口,不同的窗口包含相同数量的patch,比如这相的patch,只针对window里面的patch进行多头的注意力计算。图片大小增加时,计算量只成线性的增长。
然而,该种方式下,同一window之间的patch可以相互交互,但是不同window之间的信息无法交互,会降低模型的性能。
为了解决上述问题,学术界推出了滑动窗口(shifted window)的方式,将窗口进行偏移。
但偏移之后会出现空缺,需要采用了cyclic shift的方法进行填补,比如将左二图中浅色ABC部分的数据迁移到了对应的深色ABC区域,然后对不同区域进行以掩码计算,得到新的窗口,再做自注意力的计算。通过这种方式提高了计算速度,也提高了模型的性能。
实践
本次实战将演示在私有数据集上对模型进行微调训练,生产定制化模型的过程。
详细教程请点击:
https://blog.csdn.net/tantanweiwei/article/details/130139458
首先,进入ModelScope官网,登录。
搜索ViT图像分类-中文-日常物品,进入模型详细页面。
详情页包含模型的基本介绍。自建1300类常见物体标签体系,覆盖常见的日用品,动物,植物,家具,设备,食物等物体,标签从海量中文互联网社区语料进行提取,保留了出现频率较高的常见物体名称。模型结构采用最新的ViT-Base结构。
另外,也可以在官网的文档中心-模型详解-计算机视觉模型中找到对应的模型文档。
推理使用的示例代码非常简单,除了引用依赖包,仅需两行代码即可调用模型进行分类任务的测试。
页面右上方提供了在线模型的体验,可视化了推理的过程。可以上传图片或直接使用示例的图片进行测试。结果如上图所示,排在结果第一位的是柴犬,后面数字表示概率。
另外,还可以在创空间进行分类结果的可视化体验。点击上方创空间快速可视化展示即可体验。
创空间界面如上图所示。上传图片即可体验。
点击右上角NoteBook快速开发,选择CPU或GPU环境启动。
点击笔记本,创建python文件。
返回模型页,复制模型训练相关代码
在详情页复制数据集加载相关代码,替换上图选中的部分代码。
修改配置参数,将分类的类别数改为14。
将工作目录修改为当前的根目录下的vit_base_flower目录。