不懂图像分类?这四种卷积神经网络模型了解一下!

简介: 不懂图像分类?这四种卷积神经网络模型了解一下!

e051df9fd8fb9ecd0bb84ce0e2b06b239ae952c9

服装购买是一种繁重的体验,眼睛被太多的信息占据了。视觉系统吸收了大量信息,我应该去卖哪件H&M卡其裤吗?那是Nike背心吗?

机器能自动检测衬衫、裤子、连衣裙和运动鞋的图片吗?事实证明,用高质量的训练数据对机器进行训练,准确地对时尚物品的图像进行分类是可行的。在本教程中,我们将从头开始构建一个机器学习模型,使用Fashion-MNIST数据集训练它们。我们将介绍如何训练模型、设计类别分类的输入和输出,最后显示每个模型的准确度结果。

图像分类

图像分类是这样的:给定一组全部用单一类别标记的图像,我们要求为一组新的测试图像预测它们到底是什么类别?并测量预测的准确性。这项任务涉及各种挑战,包括视点变化、尺度变化、类内变化、图像变形、图像遮挡、光照条件、背景杂波等。

我们如何编写可以将图像分类为不同类别的算法?计算机视觉研究人员已经提出了一种数据驱动方法来解决这个问题。它们不是试图直接在代码中指定每个感兴趣的图像类别,而是为计算机提供每个图像类的许多示例,然后开发学习算法,查看这些示例并了解每个类的视觉外观。换句话说,他们首先累积标记图像的训练数据集,然后将其提供给计算机,以使其熟悉数据。

cafd3c3e096061222b26bc81d944d56a3d9ba4d2

鉴于这一事实,完整的图像分类管道可以形式化如下:

·       入是一个训练数据集,由N成,每个像都K不同类别中的一个。

·       然后,我使用此训练集来训练器,以了解每个的外

·       最后,我要求分预测从未见过的一像的标签估分器的量。然后,我将比较这像的真实标签与分预测标签

卷积神经网络(CNN)是用于图像分类问题的最流行的神经网络模型。CNN背后的一个重要思想是,对图像的局部理解是好的。实际的好处是,参数少将大大缩短了学习所需的时间,并减少了训练模型所需的数据量。CNN具有足够的权重来查看图像的小块,而不是来自每个像素的完全连接的权重网络。

比如一个256 x 256的图像。CNN可以通过局部有效地扫描它,例如,用一个5×5的窗口,通常从左到右,从上到下,如下图所示。它如何“快速”滑动称为其步幅。例如,步幅长度2表示5×5滑动窗口一次移动2个像素,直到它跨越整个图像。

4b522596e473add2c86c7ee58bf197920f687a43

卷积是图像的像素值的加权和,事实证明,整个带有权重矩阵的图像的卷积过程会产生另一个图像。

滑动窗口发生在神经网络的卷积层中,典型的CNN具有多个卷积层。每个卷积层通常产生许多交替卷积,因此权重矩阵是5×5×n的张量,其中n是卷积数。

例如,假设图像通过5×5×64的权重矩阵上的卷积层。它通过滑动5×5窗口生成64个卷积。因此,该模型具有5×5×64=1,600个参数,其参数明显少于完全连接的网络,256×256= 65,536个。

CNN的优点在于参数的数量与原始图像的大小无关。你可以在300×300图像上运行相同的CNN,但卷积层中的参数数量不会改变。

数据增强(data augmentation)

图像分类研究数据集通常是非常大的。然而,经常使用数据增强来改善泛化属性。通常,使用重新缩放图像的随机裁剪以及随机水平闪烁和随机RGB颜色和亮度偏移。这其中存在用于重新缩放和裁剪图像的不同方案(即,单一规模与多规模训练)。请注意,随机重新缩放和裁剪的目标是学习不同尺度和位置的每个对象的重要特征,不幸的是Keras没有实现所有这些开箱即用的数据增强技术,

Fashion MNIST数据集

最近,Zalando发布了一个新的数据集,它与众所周知的MNIST手写数字数据库非常相似。该数据集专为机器学习分类任务而设计,包含总共60000个训练和10000个测试图像(灰度),每个28x28像素。每个训练和测试用例与十个标签之一(0-9)相关联。直到这里,Zalando的数据集基本上与原始手写数字数据相同。然而,Zalando的数据不包含数字0-9的图像,而是包含10种不同时尚产品的图像。因此,数据集称为Fashion-MNIST数据集,可以从GitHub下载。这些数据也可以在Kaggle下载。下图中显示了一些示例,其中每行包含一个时尚项。

975fbf70c01c3eaca03a6f8efd4e8b1ad3c9a711

10个不同的类别标签是:

1、T/上衣;2、子;3、套衫;4连衣裙;5外套;

6凉鞋;7、衫;8、运鞋;9、袋;10、靴子;

据作者称,Fashion-MNIST数据旨在成为旧MNIST手写数字数据的直接替代品,因为手写数字存在若干问题。例如,通过简单地查看几个像素,可以正确地区分几个数字。即使使用线性分类器,也可以实现高分类精度。Fashion-MNIST数据有望更加多样化,因此机器学习(ML)算法必须学习更多高级特征,以便能够可靠地分离各个类。

MNIST嵌入(Embedding Visualization)

嵌入是一种将离散对象(图像,单词等)映射到高维向量的方法。这些载体中的各个维度通常没有固有的含义。相反,它是机器学习利用向量之间的位置和距离的整体模式。因此,嵌入对于机器学习的输入很重要;因为分类器和神经网络更普遍地用于实数矢量。它们在密集向量上训练最好,其中所有值都有助于定义对象。

TensorBoard有一个内置的可视化器,称为嵌入式可视化工具(Embedding Projector),用于交互式可视化和分析嵌入等高维数据。嵌入式可视化工具将从我的模型检查点文件中读取嵌入,虽然它对嵌入最有用,但它会加载任何2D张量,包括训练权重。

在这里,我将尝试使用TensorBoard表示高维时尚MNIST数据。在读取数据并创建测试标签后,我使用此代码构建TensorBoard的嵌入投影仪:


from tensorflow.contrib.tensorboard.plugins import projector
logdir = 'fashionMNIST-logs'
# Creating the embedding variable with all the images defined above under X_test
embedding_var = tf.Variable(X_test, name='fmnist_embedding')
# Format: tensorflow/contrib/tensorboard/plugins/projector/projector_config.proto
config = projector.ProjectorConfig()
# You can add multiple embeddings. Here I add only one.
embedding = config.embeddings.add()
embedding.tensor_name = embedding_var.name
# Link this tensor to its metadata file (e.g. labels).
embedding.metadata_path = os.path.join(logdir, 'metadata.tsv')
# Use this logdir to create a summary writer
summary_writer = tf.summary.FileWriter(logdir)
# The next line writes a projector_config.pbtxt in the logdir. TensorBoard will read this file during startup.
projector.visualize_embeddings(summary_writer,config)
# Periodically save the model variables in a checkpoint in logdir.
with tf.Session() as sesh:
    sesh.run(tf.global_variables_initializer())
    saver = tf.train.Saver()
    saver.save(sesh, os.path.join(logdir, 'model.ckpt'))  
# Create the sprite image
rows = 28 
cols = 28
label = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

sprite_dim = int(np.sqrt(X_test.shape[0]))
sprite_image = np.ones((cols * sprite_dim, rows * sprite_dim))

index = 0 
labels = [] 
for i in range(sprite_dim): 
    for j in range(sprite_dim):
        labels.append(label[int(Y_test[index])])

        sprite_image[
            i * cols: (i + 1) * cols,
            j * rows: (j + 1) * rows
        ] = X_test[index].reshape(28, 28) * -1 + 1

        index += 1      
# After constructing the sprite, I need to tell the Embedding Projector where to find it
embedding.sprite.image_path = os.path.join(logdir, 'sprite.png')
embedding.sprite.single_image_dim.extend([28, 28])

# Create the metadata (labels) file
with open(embedding.metadata_path, 'w') as meta:
    meta.write('Index\tLabel\n')
    for index, label in enumerate(labels):
        meta.write('{}\t{}\n'.format(index, label))

嵌入可视化工具有三种减少数据集维数的方法:两个线性和一个非线性。每种方法都可用于创建二维或三维视图。

主成分分析:主成分分析(PCA)是一种简单的减小尺寸的技术。嵌入可视化工具有10个主要组件。PCA是一种线性可视化效果,通常可用于检查全局几何。

3fca2261f2a38782a015d45886a7119a568d997f

t-SNE:这是一种流行的非线性降t-SNE。嵌入可视化工具提供二和三t-SNE视图。在客行局部画算法的每个步,因t-SNE通常保留一些局部构,所以它于探索局部域和找聚是有用的。

12275a2a39c41d4c19fb0494aeb41da3be3915b8

自定义(custom)我们可以根据文本搜索构建专门线性可视化,以便在空中找到有意的方向。首先定可视接着输入两个搜索字符串或正表达式。程序算其标签些搜索匹配的点集的心,并使用心之的差矢量作可视

39b61eea825a07d8a4fc4d2b26299342f3653b4c

你可以在此笔记本中查看可视化步骤的完整代码:TensorBoard-Visualization.ipynb

MNIST上训练CNN模型

现在让我们转到有趣的部分:我将创建各种不同的基于CNN的分类模型来评估Fashion MNIST的表现。我将使用Keras框架构建我们的模型,关于它的更多信息,请参阅此处的文档。以下是我将尝试的模型列表,并比较它们的结果:

1.具有1个卷积层的CNN

2.具有3个卷积层的CNN

3.4个卷积层的CNN

4.VGG-19预训练模型;

对于所有模型(预训练模型除外),这是我常用的方式:

·       将原始训练数据(60,000张图像)分80训练集48,000张图像)20验证集12000张图像)优化分类器,同时保留测试数据(10,000张图像)以最终评估模型对数据的准确性从未见过这有助于了解我是否过度拟合训练数据,以及如果验证准确度高于训练准确度

·       训练模型10epoch,批量大小256,使用categorical_crossentropy损失函数Adam优化器。

·       然后,添加数据增,通、移训练样本生成新的训练样本,并在更新的数据上训练模型另外50epoch

这是加载和增强数据的代码:


# Import libraries
from keras.utils import to_categorical
from sklearn.model_selection import train_test_split
# Load training and test data into dataframes
data_train = pd.read_csv('data/fashion-mnist_train.csv')
data_test = pd.read_csv('data/fashion-mnist_test.csv')
# X forms the training images, and y forms the training labels
X = np.array(data_train.iloc[:, 1:])
y = to_categorical(np.array(data_train.iloc[:, 0]))
# Here I split original training data to sub-training (80%) and validation data (20%)
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=13)
# X_test forms the test images, and y_test forms the test labels
X_test = np.array(data_test.iloc[:, 1:])
y_test = to_categorical(np.array(data_test.iloc[:, 0]))

在加和增强数据之后,我通将它重新重构所需的形状并放以使所有都在[0,1]间隔中来对它们进行预处理。例如,以前,训练数据存uint8类型的形状(60000,28,28)的数中,其[0,255]间隔中。我将它转换为float32形状(60000,28 * 28),其介于01


# Each image's dimension is 28 x 28
img_rows, img_cols = 28, 28
input_shape = (img_rows, img_cols, 1)
# Prepare the training images
X_train = X_train.reshape(X_train.shape[0], img_rows, img_cols, 1)
X_train = X_train.astype('float32')
X_train /= 255
# Prepare the test images
X_test = X_test.reshape(X_test.shape[0], img_rows, img_cols, 1)
X_test = X_test.astype('float32')
X_test /= 255
# Prepare the validation images
X_val = X_val.reshape(X_val.shape[0], img_rows, img_cols, 1)
X_val = X_val.astype('float32')
X_val /= 255

1-1-Conv CNN

以下是具有1个卷积层的CNN的代码:

from keras.models import Sequential
from keras.layers import Dense, Dropout, Flatten
from keras.layers import Conv2D, MaxPooling2D
cnn1 = Sequential()
cnn1.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape))
cnn1.add(MaxPooling2D(pool_size=(2, 2)))
cnn1.add(Dropout(0.2))
cnn1.add(Flatten())
cnn1.add(Dense(128, activation='relu'))
cnn1.add(Dense(10, activation='softmax'))
cnn1.compile(loss=keras.losses.categorical_crossentropy,
              optimizer=keras.optimizers.Adam(),
              metrics=['accuracy'])

训练模型后,这里是test loss和测试精度

474d09eb347878e314ded59ca64652d0bb2b9b16

应用数据增强后,这里是测试损失和测试准确度

5c4bb4f8aeb45e479fe386e8b7bb1dcf467c1047

出于视觉目的,我制了训练和验证的准确性和失:

4ad6b59ecd314a6ab4aeb1de5dcac21beb2ecac8

2ec2402489fa2ad84bddbabdcb6c9d06355a3e32

你可以在此笔记本上查看此型号的完整代码:CNN-1Conv.ipynb

2-3-Conv CNN

以下是CNN与3卷积层的代码:


from keras.models import Sequential
from keras.layers import Dense, Dropout, Flatten
from keras.layers import Conv2D, MaxPooling2D
cnn3 = Sequential()
cnn3.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape))
cnn3.add(MaxPooling2D((2, 2)))
cnn3.add(Dropout(0.25))
cnn3.add(Conv2D(64, kernel_size=(3, 3), activation='relu'))
cnn3.add(MaxPooling2D(pool_size=(2, 2)))
cnn3.add(Dropout(0.25))
cnn3.add(Conv2D(128, kernel_size=(3, 3), activation='relu'))
cnn3.add(Dropout(0.4))
cnn3.add(Flatten())
cnn3.add(Dense(128, activation='relu'))
cnn3.add(Dropout(0.3))
cnn3.add(Dense(10, activation='softmax'))
cnn3.compile(loss=keras.losses.categorical_crossentropy,
              optimizer=keras.optimizers.Adam(),
              metrics=['accuracy'])

训练模型后,这里是test loss和测试精度

2c049a42b55e2903c92541e07958717280cda37f

应用数据增强后,这里是测试损失和测试准确度

fb9662751b165cdd2e6cc7a3b01d3af5ade33caa

出于视觉目的,我制了训练和验证的准确性和失:

03ac335be9471b6808be42e02a7fb3314b201249

984eb8c0139c819eb44cd5df0248d2511da4f0c9

你可以在此笔记本上查看此型号的完整代码:CNN-3Conv.ipynb

3-4-Conv CNN

以下是具有4个卷积层的CNN的代码:


from keras.models import Sequential
from keras.layers import Dense, Dropout, Flatten
from keras.layers import Conv2D, MaxPooling2D, BatchNormalization
cnn4 = Sequential()
cnn4.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape))
cnn4.add(BatchNormalization())
cnn4.add(Conv2D(32, kernel_size=(3, 3), activation='relu'))
cnn4.add(BatchNormalization())
cnn4.add(MaxPooling2D(pool_size=(2, 2)))
cnn4.add(Dropout(0.25))
cnn4.add(Conv2D(64, kernel_size=(3, 3), activation='relu'))
cnn4.add(BatchNormalization())
cnn4.add(Dropout(0.25))
cnn4.add(Conv2D(128, kernel_size=(3, 3), activation='relu'))
cnn4.add(BatchNormalization())
cnn4.add(MaxPooling2D(pool_size=(2, 2)))
cnn4.add(Dropout(0.25))
cnn4.add(Flatten())
cnn4.add(Dense(512, activation='relu'))
cnn4.add(BatchNormalization())
cnn4.add(Dropout(0.5))
cnn4.add(Dense(128, activation='relu'))
cnn4.add(BatchNormalization())
cnn4.add(Dropout(0.5))
cnn4.add(Dense(10, activation='softmax'))
cnn4.compile(loss=keras.losses.categorical_crossentropy,
              optimizer=keras.optimizers.Adam(),
              metrics=['accuracy'])

训练模型后,这里是test loss和测试精度

f44b05331b35f60c9614784fd5325d9bde4f46dd

应用数据增强后,这里是测试损失和测试准确度

0e44af4b3d06e5297d6e803ab3fa9550511eb8d6

出于视觉目的,我制了训练和验证的准确性和失:

c7671c5b273d1e9d47dd4b154083f620c763384b

f705179f98d4188788e17dd75463d670d4ac7563

你可以在此笔记本上查看此型号的完整代码:CNN-4Conv.ipynb

4–迁移学习

对小图像数据集进行深度学习的常用且高效的方法是使用预先训练的网络。一个预先训练网络是以前训练的大型数据集,通常在大型图像分类任务保存的网络。如果这个原始数据集足够大且足够通用,则预训练网络所学习的特征的空间层次结构可以有效地充当视觉世界的通用模型,因此其特征可以证明对于许多不同的计算机视觉问题是有用的。即使这些新问题可能涉及与原始任务完全不同的类。

我试图实现VGG19预训练模型,这是ImageNet广泛使用的ConvNets架构。这是你可以遵循的代码:

import keras
from keras.applications import VGG19
from keras.applications.vgg19 import preprocess_input
from keras.layers import Dense, Dropout
from keras.models import Model
from keras import models
from keras import layers
from keras import optimizers
# Create the base model of VGG19
vgg19 = VGG19(weights='imagenet', include_top=False, input_shape = (150, 150, 3), classes = 10)
# Preprocessing the input 
X_train = preprocess_input(X_train)
X_val = preprocess_input(X_val)
X_test = preprocess_input(X_test)
# Extracting features
train_features = vgg19.predict(np.array(X_train), batch_size=256, verbose=1)
test_features = vgg19.predict(np.array(X_test), batch_size=256, verbose=1)
val_features = vgg19.predict(np.array(X_val), batch_size=256, verbose=1)
# Flatten extracted features
train_features = np.reshape(train_features, (48000, 4*4*512))
test_features = np.reshape(test_features, (10000, 4*4*512))
val_features = np.reshape(val_features, (12000, 4*4*512))
# Add Dense and Dropout layers on top of VGG19 pre-trained
model = models.Sequential()
model.add(layers.Dense(512, activation='relu', input_dim=4 * 4 * 512))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(10, activation="softmax"))
# Compile the model
model.compile(loss=keras.losses.categorical_crossentropy,
              optimizer=keras.optimizers.Adam(),
              metrics=['accuracy'])

训练模型后,这里是test loss和测试精度

0198bb4626536ddc8399e4ebf3e120cb8c5eae68

出于视觉目的,我制了培验证的准确性和失:

4adc5e6b61384dec2b3bde0cef1b7794c1793849

1fe03805a6ae0d3b90162150704c1609bb191421

你可以在此笔记本上查看此型号的完整代码:VGG19-GPU.ipynb

总结

时尚领域是一个非常受欢迎的机器学习和计算机视觉应用的战场。由于高度的主观性和所涉及的特征的语义复杂性,该领域中的问题具有挑战性。我希望这篇文章有助于你了解构建自己的卷积神经网络以对时尚图像进行分类的4种不同方法。

本文由阿里云云栖社区组织翻译。

文章原标题《the-4-convolutional-neural-network-models-that-can-classify-your-fashion-images》

作者:James Le  译者:乌拉乌拉,审校:。

文章为简译,更为详细的内容,请查看原文

相关文章
|
7天前
|
机器学习/深度学习 计算机视觉 Python
【YOLOv11改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力
【YOLOv11改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力本文提出了一种简单且高效的卷积神经网络(ConvNets)注意力模块——SimAM。与现有模块不同,SimAM通过优化能量函数推断特征图的3D注意力权重,无需添加额外参数。SimAM基于空间抑制理论设计,通过简单的解决方案实现高效计算,提升卷积神经网络的表征能力。代码已在Pytorch-SimAM开源。
【YOLOv11改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力
|
8天前
|
网络协议 算法 网络性能优化
计算机网络常见面试题(一):TCP/IP五层模型、TCP三次握手、四次挥手,TCP传输可靠性保障、ARQ协议
计算机网络常见面试题(一):TCP/IP五层模型、应用层常见的协议、TCP与UDP的区别,TCP三次握手、四次挥手,TCP传输可靠性保障、ARQ协议、ARP协议
|
10天前
|
机器学习/深度学习 监控 自动驾驶
卷积神经网络有什么应用场景
【10月更文挑战第23天】卷积神经网络有什么应用场景
13 2
|
10天前
|
机器学习/深度学习 自然语言处理 算法
什么是卷积神经网络
【10月更文挑战第23天】什么是卷积神经网络
16 1
|
13天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
52 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
3天前
|
机器学习/深度学习 人工智能 TensorFlow
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第32天】本文将介绍深度学习中的一个重要分支——卷积神经网络(CNN),以及其在图像识别领域的应用。我们将通过一个简单的代码示例,展示如何使用Python和TensorFlow库构建一个基本的CNN模型,并对其进行训练和测试。
|
9天前
|
机器学习/深度学习 自然语言处理 TensorFlow
深度学习中的卷积神经网络(CNN)及其应用
【10月更文挑战第26天】在这篇文章中,我们将深入探讨卷积神经网络(CNN)的基本原理、结构和应用。CNN是深度学习领域的一个重要分支,广泛应用于图像识别、语音处理等领域。我们将通过代码示例和实际应用案例,帮助读者更好地理解CNN的概念和应用。
|
11天前
|
机器学习/深度学习 算法 计算机视觉
深度学习与生活:如何利用卷积神经网络识别日常物品
【10月更文挑战第24天】在这篇文章中,我们将探索深度学习如何从理论走向实践,特别是卷积神经网络(CNN)在图像识别中的应用。通过一个简单的示例,我们将了解如何使用CNN来识别日常生活中的物体,如水果和家具。这不仅是对深度学习概念的一次直观体验,也是对技术如何融入日常生活的一次深刻反思。文章将引导读者思考技术背后的哲理,以及它如何影响我们的生活和思维方式。
|
28天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第7天】本文将深入探讨卷积神经网络(CNN)的基本原理,以及它如何在图像识别领域中大放异彩。我们将从CNN的核心组件出发,逐步解析其工作原理,并通过一个实际的代码示例,展示如何利用Python和深度学习框架实现一个简单的图像分类模型。文章旨在为初学者提供一个清晰的入门路径,同时为有经验的开发者提供一些深入理解的视角。
|
14天前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习中的卷积神经网络(CNN)及其应用
【10月更文挑战第21天】本文旨在深入探讨深度学习领域的核心组成部分——卷积神经网络(CNN)。通过分析CNN的基本结构、工作原理以及在图像识别、语音处理等领域的广泛应用,我们不仅能够理解其背后的技术原理,还能把握其在现实世界问题解决中的强大能力。文章将用浅显的语言和生动的例子带领读者一步步走进CNN的世界,揭示这一技术如何改变我们的生活和工作方式。