实战图像softmax分类模型

简介: 本文是学习softmax图像分类模型的总结,主要分享softmax图像分类模型的技术原理,以及用代码实现验证,供大家参考。

本文是学习softmax图像分类模型的总结,主要分享softmax图像分类模型的技术原理,以及用代码实现验证,供大家参考。
一、图像分类问题
在日常生活中,分类问题很常见,比如下图中的动物是猫,而不是狗。人是比较很容易知道,但是要计算机知道这是猫,就需要我们训练一个图像分类模型,输入这张图片,识别结果为猫。
image.png
二、问题分析
1、任务建模
我们的目标就是训练一个图像分类模型,输入一张图片,输出一个类别。
首先先介绍一下one-hot编码,one-hot编码时一个向量,向量长度和类别一样多, 类别对应的位置设置为1,其他所有位置设置为0。比如我们需要分类的总类别数为3(即猫、狗和鸭),那么标签y=[1,0,0]表示猫,y=[0,1,0]表示狗,y=[0,0,1]鸭。
我们用线性回归模型来实现图像分类问题,那么整个任务可以拆解为如下流程:
image.png
在整个流程中,主要与前期线性回归模型不同的地方有三处:
(1)输入是一张图片,需要把图片转为一维行向量,然后作为输入。
(2)线性回归模式是一个多输出模型,即一个样本输入,输出有多个(输出个数与类别总数相等);
(3)需要把多个输出转换为对应的标签类别。
下面重点说明如何把多个输出转换为对应的标签类别,比如还是之前(猫、狗、鸭)分类问题,假设一个样本经过线性回归模型之后,得到三个输出分别为Out(1)=2,Out(2)=4,Out(3)=6,则输出向量为(2,4,6)。因为我们使用的是one-hot编码,每个类别真实标签向量的分量都是0-1之间的数值,为使输出标签向量的值变换到0-1之间,在分类问题中常用softmax函数来进行处理:
image.png
上述输出向量为(2,4,6)经过softmax变换之后,得到的输出向量为(0.0159, 0.1173, 0.8668),该向量表示图片是猫的概率为0.0159,是狗的概率为0.1173,是鸭的概率为0.8668,我们取向量中的最大值作为分类结果,即输出向量(0.0159, 0.1173, 0.8668)的分类结果为鸭。
2、损失函数
在线性回归模型中,我们用均方误差作为损失函数,但是在分类问题中,一般使用交叉熵来作为损失函数,交叉熵函数用来衡量两个概率的区别,其定义如下:
image.png
由上述分类任务建模分析可知,预测值和真实值表示某个类别的概率,所以每个样本预测值与真实值之间的损失函数为:
image.png
因为真实值y中,只有一个分量为1,其他都为0,上述损失函数可以化简为
image.png
比如还是上述例子:假设真实值y=(0,0,1),预测值(0.0159, 0.1173, 0.8668),
image.png
因此,在训练多输出线性回归模型时,我们希望寻找一组参数(W,b),使得L(W,b)在所有训练样本上的损失均值越小越好。
3、模型评估
在分类问题中,我们希望整个模型的分类准确度越高越好,分类准确度为正确预测数量与总预测数量之比。
三、代码验证
整个代码验证过程包括如下主要流程:
image.png
1、获取数据
我们选取Fashion‐MNIST图像分类数据集来进行验证,Fashion‐MNIST由10个类别[分别为t‐shirt(T恤)、trouser(裤子)、pullover(套衫)、dress(连衣裙)、coat(外套)、sandal(凉鞋)、shirt(衬衫)、sneaker(运动鞋)、bag(包)和ankle boot(短靴))]的图像组成,每个类别由训练数据集(train dataset)中的6000张图像和测试数据集(test dataset)中的1000张图像组成。因此,训练集和测试集分别包含60000和10000张图像。
每张图像为灰度图像,通道数为1,,图像的高度和宽度均为28像素。
image.png
我们可以查看train_iter和test_iter中的数据。
image.png
2、定义模型
由前面的分析可知,整个分类模型分为两个层,首先要把图像转为一维向量,然后在输入到线性回归模型中。Fashion‐MNIST数据集中的每个样本都是28×28的图像,将其展平转换为784的向量。类别为10,所以模型输出维度为10。
net = nn.Sequential(nn.Flatten(), nn.Linear(784, 10))
然后初始化模型参数
image.png
3、定义损失函数
在pytorch中有已定义好的交叉熵损失函数可以直接使用。
image.png
4、定义优化算法
我们采用随机梯度下降法,来迭代更新权重参数,可直接使用pytorch中已定义好的函数。
image.png
5、定义分类准确度
分类准确度为正确预测数量与总预测数量之比。
image.png
image.png
image.png
6、训练
image.png
运行得到结果
image.png
7、预测
将训练得到的模型在测试集进行预测推理
image.png
结果如下所示:
image.png
至此,softmax分类模型完毕。

参考资料

1、《动手学深度学习》第二版,地址: zh.d2l.ai/index.html

目录
相关文章
|
算法 计算机视觉 Python
OpenCV中Canny边缘检测和霍夫变换的讲解与实战应用(附Python源码)
OpenCV中Canny边缘检测和霍夫变换的讲解与实战应用(附Python源码)
1262 0
|
虚拟化
VMware Tools 失效处理
VMware Tools 失效处理
515 0
|
4月前
|
机器学习/深度学习 传感器 人工智能
对抗样本攻击详解:如何让AI模型产生错误判断
对抗样本是通过微小扰动欺骗机器学习模型的输入,人眼难辨却致模型高置信度误判。其原理源于模型线性特性,如FGSM利用梯度符号生成扰动。此类攻击具迁移性,可跨模型生效,但亦可用于对抗训练,提升模型鲁棒性与泛化能力。
262 0
|
机器学习/深度学习 安全 算法
十大主流联邦学习框架:技术特性、架构分析与对比研究
联邦学习(FL)是保障数据隐私的分布式模型训练关键技术。业界开发了多种开源和商业框架,如TensorFlow Federated、PySyft、NVFlare、FATE、Flower等,支持模型训练、数据安全、通信协议等功能。这些框架在灵活性、易用性、安全性和扩展性方面各有特色,适用于不同应用场景。选择合适的框架需综合考虑开源与商业、数据分区支持、安全性、易用性和技术生态集成等因素。联邦学习已在医疗、金融等领域广泛应用,选择适配具体需求的框架对实现最优模型性能至关重要。
2594 79
十大主流联邦学习框架:技术特性、架构分析与对比研究
|
机器学习/深度学习 算法 算法框架/工具
深度学习中epoch、batch、batch size和iterations详解
深度学习中epoch、batch、batch size和iterations详解
2291 0
|
机器学习/深度学习 Python
弹性网(Elastic Net)正则化
弹性网(Elastic Net)正则化
|
定位技术 API 数据安全/隐私保护
QWEN-VL Plus 使用小记
近期尝试使用Qwen VL Plus模型处理图像识别任务,以GIS专业背景选择了一张街景图片进行测试。体验上,API调用流畅,环境配置简单,且成本低廉,免费额度可支持约1,000张图片的处理。不过,模型在某些情况下会产生幻觉,如对仅含Google水印的街景图片错误地描述存在地名信息。此外,其文本描述风格多变,从轻松愉快到沉稳不一,有时甚至会拒绝回答。
965 5
|
安全 机器人 测试技术
宇树Unitree Z1机械臂使用教程
本文是宇树Unitree Z1机械臂的使用教程,包括建立机械臂通信、基本运行demo、ROS Gazebo仿真demo、键盘控制demo、手柄控制demo、moveit真实机械臂demo以及其他高级控制demo的详细步骤和注意事项。教程涵盖了软件安装、环境配置、代码下载、编译运行等内容,并提供了机械臂操作的实用技巧。
2613 1
|
分布式计算 API Apache
Spark与Elasticsearch的集成与全文搜索
Spark与Elasticsearch的集成与全文搜索
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:图像风格迁移与生成
【7月更文挑战第13天】 使用Python实现深度学习模型:图像风格迁移与生成
334 2

热门文章

最新文章