深度学习实战（11）：使用多层感知器分类器对手写数字进行分类

2023-05-14 393

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： MLP 是一种监督机器学习 (ML) 算法，属于前馈人工神经网络 [1] 类。该算法本质上是在数据上进行训练以学习函数。给定一组特征和一个目标变量（例如标签），它会学习一个用于分类或回归的非线性函数。在本文中，我们将只关注分类案例。

1.简介

1.1 什么是多层感知器（MLP）？

MLP 是一种监督机器学习 (ML) 算法，属于前馈人工神经网络 [1] 类。该算法本质上是在数据上进行训练以学习函数。给定一组特征和一个目标变量（例如标签），它会学习一个用于分类或回归的非线性函数。在本文中，我们将只关注分类案例。

1.2 MLP和逻辑回归有什么相似之处吗？

有！逻辑回归只有两层，即输入和输出，但是，在 MLP 模型的情况下，唯一的区别是我们可以有额外的中间非线性层。这些被称为隐藏层。除了输入节点（属于输入层的节点）之外，每个节点都是一个使用非线性激活函数的神经元[1]。由于这种非线性性质，MLP 可以学习复杂的非线性函数，从而区分不可线性分离的数据！请参见下面的图 2，了解具有一个隐藏层的 MLP 分类器的可视化表示。

1.3 MLP 是如何训练的？

MLP 使用反向传播进行训练。

1.4 MLP的主要优缺点.

优点：

可以学习非线性函数，从而分离不可线性分离的数据。

缺点：

隐藏层的损失函数导致非凸优化问题，因此存在局部最小值。

不同的权重初始化可能会导致不同的输出/权重/结果。

MLP 有一些超参数，例如隐藏神经元的数量，需要调整的层数（时间和功耗）。

MLP 可能对特征缩放敏感。

2.使用scikit-learn的Python动手实例

2.1 数据集

对于这个实践示例，我们将使用 MNIST 数据集。 MNIST 数据库是一个著名的手写数字数据库，用于训练多个 ML 模型。有 10 个不同数字的手写图像，因此类别数为 10 （参见图 3）。

注意：由于我们处理图像，因此这些由二维数组表示，并且数据的初始维度是每个图像的 28 by 28 ( 28x28 pixels )。然后二维图像被展平，因此在最后由矢量表示。每个 2D 图像都被转换为维度为 [1, 28x28] = [1, 784] 的 1D 向量。最后，我们的数据集有 784 个特征/变量/列。

2.2 数据导入与准备

import matplotlib.pyplot as plt
from sklearn.datasets import fetch_openml
from sklearn.neural_network import MLPClassifier
# Load data
X, y = fetch_openml("mnist_784", version=1, return_X_y=True)
# Normalize intensity of images to make it in the range [0,1] since 255 is the max (white).
X = X / 255.0

请记住，每个 2D 图像现在都转换为维度为 [1, 28x28] = [1, 784] 的 1D 矢量。我们现在来验证一下。

print(X.shape)

这将返回： (70000, 784) 。我们有 70k 个扁平图像（样本），每个图像包含 784 个像素（28*28=784）（变量/特征）。

因此，输入层权重矩阵的形状为

784 x #neurons_in_1st_hidden_layer.

输出层权重矩阵的形状为

#neurons_in_3rd_hidden_layer x #number_of_classes

2.3 模型训练

现在让我们构建模型、训练它并执行分类。我们将分别使用 3 个隐藏层和 50,20 and 10 个神经元。此外，我们将设置最大迭代次数 100 ，并将学习率设置为 0.1 。这些是我在简介中提到的超参数。我们不会在这里微调它们。

# Split the data into train/test sets
X_train, X_test = X[:60000], X[60000:]
y_train, y_test = y[:60000], y[60000:]
classifier = MLPClassifier(
    hidden_layer_sizes=(50,20,10),
    max_iter=100,
    alpha=1e-4,
    solver="sgd",
    verbose=10,
    random_state=1,
    learning_rate_init=0.1,
)
# fit the model on the training data
classifier.fit(X_train, y_train)

2.4 模型评估

现在，让我们评估模型。我们将估计训练和测试数据和标签的平均准确度。

print("Training set score: %f" % classifier.score(X_train, y_train))
print("Test set score: %f" % classifier.score(X_test, y_test))

训练集分数：

0.998633

测试集分数：

0.970300

2.5 成本函数演变的可视化

训练期间损失减少的速度有多快？让我们制作一个漂亮的图表看一看！

fig, axes = plt.subplots(1, 1)
axes.plot(classifier.loss_curve_, 'o-')
axes.set_xlabel("number of iteration")
axes.set_ylabel("loss")
plt.show()

在这里，我们看到损失在训练期间下降得非常快，并且在 40th 迭代后饱和（请记住，我们将最大 100 次迭代定义为超参数）。

2.6 可视化学习到的权重

这里我们首先需要了解权重（每一层的学习模型参数）是如何存储的。

根据文档，属性 classifier.coefs_ 是形状为 (n_layers-1, ) 的权重数组的列表，其中索引 i 处的权重矩阵表示层 i 和层 i+1 之间的权重。在这个例子中，我们定义了 3 个隐藏层，我们还有输入层和输出层。因此，我们希望层间权重有 4 个权重数组（图 5 中的 in-L1, L1-L2, L2-L3 和 L2-out ）。

类似地， classifier.intercepts_ 是偏置向量列表，其中索引 i 处的向量表示添加到层 i+1 的偏置值。

让我们验证一下：

len(classifier.intercepts_) == len(classifier.coefs_) == 4

正确返回 True 。

输入层权重矩阵的形状为

784 x #neurons_in_1st_hidden_layer.

输出层权重矩阵的形状为

#neurons_in_3rd_hidden_layer x #number_of_classes.

2.7 可视化输入层的学习权重

target_layer = 0 #0 is input, 1 is 1st hidden etc
fig, axes = plt.subplots(1, 1, figsize=(15,6))
axes.imshow(np.transpose(classifier.coefs_[target_layer]), cmap=plt.get_cmap("gray"), aspect="auto")
axes.set_xlabel(f"number of neurons in {target_layer}")
axes.set_ylabel("neurons in output layer")
plt.show()

将它们重新整形并绘制为 2D 图像。

# choose layer to plot
target_layer = 0 #0 is input, 1 is 1st hidden etc
fig, axes = plt.subplots(4, 4)
vmin, vmax = classifier.coefs_[0].min(), classifier.coefs_[target_layer].max()
for coef, ax in zip(classifier.coefs_[0].T, axes.ravel()):
    ax.matshow(coef.reshape(28, 28), cmap=plt.cm.gray, vmin=0.5 * vmin, vmax=0.5 * vmax)
    ax.set_xticks(())
    ax.set_yticks(())
plt.show()

3.总结

MLP 分类器是一种非常强大的神经网络模型，可以学习复杂数据的非线性函数。该方法使用前向传播来构建权重，然后计算损失。接下来，反向传播用于更新权重，从而减少损失。这是以迭代方式完成的，迭代次数是一个输入超参数，正如我在简介中所解释的那样。其他重要的超参数是每个隐藏层中的神经元数量和隐藏层总数。这些都需要微调。

深度学习实战（11）：使用多层感知器分类器对手写数字进行分类

1.简介

1.1 什么是多层感知器（MLP）？

1.2 MLP和逻辑回归有什么相似之处吗？

1.3 MLP 是如何训练的？

1.4 MLP的主要优缺点.

2.使用scikit-learn的Python动手实例

2.1 数据集

2.2 数据导入与准备

2.3 模型训练

2.4 模型评估

2.5 成本函数演变的可视化

2.6 可视化学习到的权重

2.7 可视化输入层的学习权重

3.总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

深度学习实战（11）：使用多层感知器分类器对手写数字进行分类

1.简介

1.1 什么是多层感知器（MLP）？

1.2 MLP和逻辑回归有什么相似之处吗？

1.3 MLP 是如何训练的？

1.4 MLP的主要优缺点.

2.使用scikit-learn的Python动手实例

2.1 数据集

2.2 数据导入与准备

2.3 模型训练

2.4 模型评估

2.5 成本函数演变的可视化

2.6 可视化学习到的权重

2.7 可视化输入层的学习权重

3.总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景