实战图像softmax分类模型-阿里云开发者社区

实战图像softmax分类模型

2023-12-03 225

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，5000CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，5000CU*H 3个月

简介： 本文是学习softmax图像分类模型的总结，主要分享softmax图像分类模型的技术原理，以及用代码实现验证，供大家参考。

本文是学习softmax图像分类模型的总结，主要分享softmax图像分类模型的技术原理，以及用代码实现验证，供大家参考。
一、图像分类问题
在日常生活中，分类问题很常见，比如下图中的动物是猫，而不是狗。人是比较很容易知道，但是要计算机知道这是猫，就需要我们训练一个图像分类模型，输入这张图片，识别结果为猫。

二、问题分析
1、任务建模
我们的目标就是训练一个图像分类模型，输入一张图片，输出一个类别。
首先先介绍一下one-hot编码，one-hot编码时一个向量，向量长度和类别一样多，类别对应的位置设置为1，其他所有位置设置为0。比如我们需要分类的总类别数为3（即猫、狗和鸭），那么标签y=[1,0,0]表示猫，y=[0,1,0]表示狗，y=[0,0,1]鸭。
我们用线性回归模型来实现图像分类问题，那么整个任务可以拆解为如下流程：

在整个流程中，主要与前期线性回归模型不同的地方有三处：
（1）输入是一张图片，需要把图片转为一维行向量，然后作为输入。
（2）线性回归模式是一个多输出模型，即一个样本输入，输出有多个（输出个数与类别总数相等）；
（3）需要把多个输出转换为对应的标签类别。
下面重点说明如何把多个输出转换为对应的标签类别，比如还是之前（猫、狗、鸭）分类问题，假设一个样本经过线性回归模型之后，得到三个输出分别为Out(1)=2，Out(2)=4，Out(3)=6，则输出向量为（2，4，6）。因为我们使用的是one-hot编码，每个类别真实标签向量的分量都是0-1之间的数值，为使输出标签向量的值变换到0-1之间，在分类问题中常用softmax函数来进行处理：

上述输出向量为（2，4，6）经过softmax变换之后，得到的输出向量为（0.0159, 0.1173, 0.8668），该向量表示图片是猫的概率为0.0159，是狗的概率为0.1173，是鸭的概率为0.8668，我们取向量中的最大值作为分类结果，即输出向量（0.0159, 0.1173, 0.8668）的分类结果为鸭。
2、损失函数
在线性回归模型中，我们用均方误差作为损失函数，但是在分类问题中，一般使用交叉熵来作为损失函数，交叉熵函数用来衡量两个概率的区别，其定义如下：

由上述分类任务建模分析可知，预测值和真实值表示某个类别的概率，所以每个样本预测值与真实值之间的损失函数为：

因为真实值y中，只有一个分量为1，其他都为0，上述损失函数可以化简为

比如还是上述例子：假设真实值y=(0,0,1),预测值（0.0159, 0.1173, 0.8668），

因此，在训练多输出线性回归模型时，我们希望寻找一组参数（W，b），使得L（W，b）在所有训练样本上的损失均值越小越好。
3、模型评估
在分类问题中，我们希望整个模型的分类准确度越高越好，分类准确度为正确预测数量与总预测数量之比。
三、代码验证
整个代码验证过程包括如下主要流程：

1、获取数据
我们选取Fashion‐MNIST图像分类数据集来进行验证，Fashion‐MNIST由10个类别[分别为t‐shirt（T恤）、trouser（裤子）、pullover（套衫）、dress（连衣裙）、coat（外套）、sandal（凉鞋）、shirt（衬衫）、sneaker（运动鞋）、bag（包）和ankle boot（短靴））]的图像组成，每个类别由训练数据集（train dataset）中的6000张图像和测试数据集（test dataset）中的1000张图像组成。因此，训练集和测试集分别包含60000和10000张图像。
每张图像为灰度图像，通道数为1，,图像的高度和宽度均为28像素。

我们可以查看train_iter和test_iter中的数据。

2、定义模型
由前面的分析可知，整个分类模型分为两个层，首先要把图像转为一维向量，然后在输入到线性回归模型中。Fashion‐MNIST数据集中的每个样本都是28×28的图像，将其展平转换为784的向量。类别为10，所以模型输出维度为10。
net = nn.Sequential(nn.Flatten(), nn.Linear(784, 10))
然后初始化模型参数

3、定义损失函数
在pytorch中有已定义好的交叉熵损失函数可以直接使用。

4、定义优化算法
我们采用随机梯度下降法，来迭代更新权重参数，可直接使用pytorch中已定义好的函数。

5、定义分类准确度
分类准确度为正确预测数量与总预测数量之比。

6、训练

运行得到结果

7、预测
将训练得到的模型在测试集进行预测推理

结果如下所示：

至此，softmax分类模型完毕。