使用CNN完成MNIST手写体识别(Keras)
卷积神经网络(Convolutional Neural Network,CNN)是一种深度学习算法,是处理具有类似网格结构的数据的强大工具,例如图像和声音。CNN主要用于图像识别、语音识别、自然语言处理等领域,是目前计算机视觉领域最有效的算法之一。
卷积神经网络的主要特点是局部连接、权值共享和池化。局部连接意味着每个神经元仅与输入数据的一小部分相连;权值共享意味着所有的神经元使用相同的权值矩阵进行卷积计算;池化则是在卷积计算之后对输出进行降采样。这些特性使得CNN非常适合处理图像数据。
CNN的结构通常由多个卷积层、池化层和全连接层组成,其中卷积层和池化层用于提取图像的特征,全连接层则用于将这些特征映射到输出结果上。在训练过程中,CNN通过反向传播算法更新权值矩阵,使得网络能够自动学习到最适合任务的特征表示。在测试过程中,CNN通过前向传播算法将输入数据传入网络中,并得到输出结果。
CNN的应用非常广泛,例如人脸识别、物体识别、图像分类、图像分割、目标检测等。在物体识别和图像分类任务中,CNN通常使用ImageNet数据集进行训练,该数据集包含数百万张图像和数千个类别,是计算机视觉领域最大的数据集之一。在目标检测任务中,CNN通常使用Faster R-CNN、YOLO、SSD等网络结构,将物体位置和类别同时预测出来。
总的来说,卷积神经网络是一种非常强大的深度学习算法,具有优秀的图像处理能力,但在实际应用过程中也存在一些问题,例如训练时间长、需要更多的计算资源和数据集等。随着技术的不断进步和发展,相信CNN在未来会得到更广泛的应用。
1. 导入Keras库
# 导入相关库 from keras.datasets import mnist from keras.utils import to_categorical from keras.models import Sequential from keras.layers import Conv2D, MaxPool2D, Flatten, Dropout, Dense from keras.losses import categorical_crossentropy from keras.optimizers import Adadelta
Using TensorFlow backend.
2. 数据集
# 导入数据集 train_X, train_y = mnist.load_data()[0] train_X, train_y
(array([[[0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], ..., [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0]], [[0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], ..., [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0]], [[0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], ..., [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0]], ..., [[0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], ..., [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0]], [[0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], ..., [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0]], [[0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], ..., [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0], [0, 0, 0, ..., 0, 0, 0]]], dtype=uint8), array([5, 0, 4, ..., 5, 6, 8], dtype=uint8))
# 训练集 train_X = train_X.reshape(-1, 28 ,28, 1) train_X = train_X.astype('float32') train_X /= 255 train_y = to_categorical(train_y, 10)
3. 构造神经网络
# 构造神经网络 model = Sequential() model.add(Conv2D(32, (5, 5), activation='relu', input_shape=[28, 28, 1])) model.add(Conv2D(64, (5, 5), activation='relu')) model.add(MaxPool2D(pool_size=(2, 2))) model.add(Flatten()) model.add(Dropout(0.5)) model.add(Dense(128, activation='relu')) model.add(Dropout(0.5)) model.add(Dense(10, activation='softmax')) model.compile(loss=categorical_crossentropy, optimizer=Adadelta(), metrics=['accuracy'])
4. 训练模型
# 开始训练 batch_size = 100 epochs = 1 model.fit(train_X, train_y, batch_size=batch_size, epochs=epochs)
WARNING:tensorflow:From /home/nlp/anaconda3/lib/python3.7/site-packages/keras/backend/tensorflow_backend.py:422: The name tf.global_variables is deprecated. Please use tf.compat.v1.global_variables instead. Epoch 1/1 60000/60000 [==============================] - 190s 3ms/step - loss: 0.2228 - accuracy: 0.9316 <keras.callbacks.callbacks.History at 0x7f7835e74940>
5. 测试模型
# 测试准确率 test_X, test_y = mnist.load_data()[1] test_X = test_X.reshape(-1, 28, 28, 1) test_X = test_X.astype('float32') test_X /= 255 test_y = to_categorical(test_y, 10) loss, accuracy = model.evaluate(test_X, test_y, verbose=1) print('loss:%.4f accuracy:%.4f' %(loss, accuracy))
10000/10000 [==============================] - 9s 919us/step loss:0.0467 accuracy:0.9844