1 CNN网络的构成
利用全连接神经网络对图像进行处理存在以下两个问题:
- 需要处理的数据量大,效率低
假如我们处理一张 1000×1000 像素的图片,参数量如下:
1000×1000×3=3,000,000
这么大量的数据处理起来是非常消耗资源的
- 图像在维度调整的过程中很难保留原有的特征,导致图像处理的准确率不高
假如有圆形是1,没有圆形是0,那么圆形的位置不同就会产生完全不同的数据表达。但是从图像的角度来看,图像的内容(本质)并没有发生变化,只是位置发生了变化。所以当我们移动图像中的物体,用全连接升降得到的结果会差异很大,这是不符合图像处理的要求的。
CNN网络受人类视觉神经系统的启发,人类的视觉原理:从原始信号摄入开始(瞳孔摄入像素 Pixels),接着做初步处理(大脑皮层某些细胞发现边缘和方向),然后抽象(大脑判定,眼前的物体的形状,是圆形的),然后进一步抽象(大脑进一步判定该物体是只人脸)。下面是人脑进行人脸识别的一个示例:
CNN网络主要有三部分构成:卷积层、池化层和全连接层构成,其中卷积层负责提取图像中的局部特征;池化层用来大幅降低参数量级(降维);全连接层类似人工神经网络的部分,用来输出想要的结果。
整个CNN网络结构如下图所示:
2 卷积层
卷积层是卷积神经网络中的核心模块,卷积层的目的是提取输入特征图的特征,如下图所示,卷积核可以提取图像中的边缘信息。
2.1 卷积的计算方法
那卷积是怎么进行计算的呢?
卷积运算本质上就是在滤波器和输入数据的局部区域间做点积。
左上角的点计算方法:
同理可以计算其他各点,得到最终的卷积结果,
最后一点的计算方法是:
2.2 padding(填充)
在上述卷积过程中,特征图比原始图减小了很多,我们可以在原图像的周围进行padding,来保证在卷积过程中特征图大小不变。
2.3 stride(步长)
按照步长为1来移动卷积核,计算特征图如下所示:
如果我们把stride增大,比如设为2,也是可以提取特征图的,如下图所示:
2.4 多通道卷积
实际中的图像都是多个通道组成的,我们怎么计算卷积呢?
计算方法如下:当输入有多个通道(channel)时(例如图片可以有 RGB 三个通道),卷积核需要拥有相同的channel数,每个卷积核 channel 与输入层的对应 channel 进行卷积,将每个 channel 的卷积结果按位相加得到最终的 Feature Map
2.5 多卷积核卷积
如果有多个卷积核时怎么计算呢?当有多个卷积核时,每个卷积核学习到不同的特征,对应产生包含多个 channel 的 Feature Map, 例如下图有两个 filter,所以 output 有两个 channel。
2.6 特征图大小
输出特征图的大小与以下参数息息相关: * size:卷积核/过滤器大小,一般会选择为奇数,比如有1 * 1, 3 * 3, 5 * 5 * padding:零填充的方式 * stride:步长
那计算方法如下图所示:
输入特征图为5x5,卷积核为3x3,外加padding 为1,则其输出尺寸为:
如下图所示:
在tf.keras中卷积核的实现使用
tf.keras.layers.Conv2D( filters, kernel_size, strides=(1, 1), padding='valid', activation=None )
主要参数说明如下: