基于Python实现随机森林分类模型(RandomForestClassifier)项目实战

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 基于Python实现随机森林分类模型(RandomForestClassifier)项目实战

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

高质量的产品不仅能很好地满足顾客对产品使用功能的需要,获得良好的使用体验,提升企业形象和商誉,同时能为企业减少售后维修成本,增加利润。燃气灶市场已成为继家电市场之后各大电器公司竞争的新战场。某电器公司的燃气灶产品销售额一直在国内处于领先地位,把产品质量视为重中之重,每年都要对其产品质量数据进行分析研究,以期不断完善,精益求精。

2.获取数据

本次建模数据来源于电器公司某月燃气灶质量情况统计数据,记录到的燃气灶故障现象均为“打不着火”,其主要的数据基本统计概况如下:

特征变量数:8

数据记录数:1245

是否有NA值:

是否有异常值:

去除异常值和NA值后的数据共计1245条,其特征变量详情如下:

(1)机型:代表所售燃气灶的型号,共计204个型号。

(2)故障代码:代表燃气灶维修部分的记录,分别代表故障模式、故障模式细分、维修方式、故障名称等。

(3)故障模式:表示燃气灶故障的基本情况,分为“微动开关坏”、“热电偶坏”、“电极针坏”、“电磁阀坏”、“脉冲器坏”等5种。

(4)故障模式细分:根据故障基本情况,故障类型又细分为“开裂”、“变形”、“老化”、“调整电极针位置”、“热电偶与电磁阀接触不良”等5种。

(5)维修方式:根据不同燃气灶的具体情况,采用的维修方式分为“更换”和“未更换”2种。

(6)故障名称:根据购买和维修之间的时间跨度,分为“保内”和“保外”两种。

(7)分公司:共有61个分公司负责销售和维修。

(8)单据类型:针对具体情况,每个维修单类型分为“调试”、“维修”、“改气源”、“其它”等4种。

image.png

 

3.数据预处理

真实数据中可能包含了大量的缺失值和噪音数据或人工录入错误导致有异常点存在,非常不利于算法模型的训练。数据清洗的结果是对各种脏数据进行对应方式的处理,得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。数据预处理通常包含数据清洗、归约、聚合、转换、抽样等方式,数据预处理质量决定了后续数据分析挖掘及建模工作的精度和泛化价值。以下简要介绍数据预处理工作中主要的预处理方法:

3.1导入程序库并读取数据

(1)导入程序库:将所用到的程序库导入到Python程序中,如图所示。

image.png

程序库导入代码

(2)读取数据:使用Pandas库中read_excel方法读取Excel数据,并转为DataFrame类型。读取数据代码如图所示

image.png

 

3.2数据校验和处理

通过对原始数据审查和校验,了解数据基本分布、数值类型,处理数据中异常值和缺失值等情况。

(1)数据替换:原始数据中均以文字记录各项信息,需将文字信息替换成对应的数字代码,方便后期数据挖掘和分析工作。根据故障代码,详细的替换内容如下:

a)故障模式中,将“微动开关坏”、“热电偶坏”、“电极针坏”、“电磁阀坏”、“脉冲器坏”分别替换为“1”、“2”、“3”、“4”、“5”。

b)故障模式细分中,将“开裂”、“变形”、“老化”、“调整电极针位置”、“热电偶与电磁阀接触不良”分别替换为“1”、“2”、“3”、“4”、“5”。

c)维修方式中,将“更换”和“未更换”分别替换为“1”、“2”。

d)故障名称中,将“保内”、“保外”分别替换为“1”、“2”。

e)单据类型中,将“调试”、“维修”、“改气源”、“其它”分别替换为为“1”、“2”、“3”、“4”。

使用Python代码将数据完成替换,图为替换部分代码。

image.png

(2)数据缺失和异常处理:原始数据存在购买日期异常,购买日期记录为1930年,数据特征变量依然不存在缺失值,异常情况如图所示。

image.png  

图数据异常和缺失情况

通过数据预处理、离散化之后,得到干净的燃气灶维系记录信息,如图所示。

image.png

图 经过预处理后的数据

(3)数据概览:本部分通过代码对数据进行审查,检查各部分数据类型和数据缺失情况,其数据类型和缺失情况如图所示,处理后的数据不含缺失值。

image.png image.png

图数据类型和缺失情况

 

4.探索性数据分析

4.1数据分析

(1)机型数量分析:在1245条维修记录中,共有209个燃气灶型号。其中,机型为JZT-7B13、JZT.2-9B13、JZT.2-7G02的燃气灶数量最多,分别有167条、102条和95条记录,分别占比14,1%、8.61%、7.67%。

(2)故障分析:在维修记录中不同部件维修数量不同,其中“电极针坏”的数量占比最多,占全部维修记录的57.43%。“热电偶坏”和“电磁阀坏”的占比次之,分别为21.12%和11.33%。图8为绘制统计图的Python代码,图为故障模式各项占比统计图。

image.png

        图 绘制统计图的Python代码

 

image.png

图 故障模式各项统计图

5种故障模式又分别细分为5项:“开裂”、“变形”、“老化”、“调整电极针位置”、“热电偶与电磁阀接触不良”,分别对5项故障模式统计细分故障模式,统计故障模式细分的Python如图所示,统计结果如图所示。

image.png

        图 统计故障模式细分部分代码

 

image.png

图 故障模式细分统计

图中按顺序分别对应“微动开关坏”、“热电偶坏”、“电极针坏”、“电磁阀坏”、“脉冲器坏”等5种故障模式。故障模式中出现“开裂”、“老化”、“变形”的细分故障最多。

根据燃气灶的5种故障模式,统计各种故障状态的维修方式,统计是否需要更换部件,Python统计维修方式的代码如图所示,其统计结果如图所示。仅当“微动开关坏”时,“未更换”部件的占比高与“更换”部件,其余4种故障模式下,“更换”部件占比均高与“未更换”。 

image.png

 维修方式统计部分代码

image.png

图不同故障下“更换”部件与“未更换”部件占比

4.2相关性分析

image.png

从上面相关性热力图可以看出,故障模式细分与维护方式为0.6,这个属性相关性比较强,其它都在0.3以下,相关性不强。

关键代码:

image.png

 

5.特征工程

根据燃气灶维修记录,通过训练机器学习模型,使之可以根据燃气灶维修记录和是否在保信息,判断所维修的燃气灶是否需要更换故障零件,以期达到动态管理常见故障零部件仓储和调配,减少后续维修工作成本,增加厂商利润。

在机器学习模型建立过程中,需要有足够的数据用与模型训练和测试。用于机器学习的数据集一般需被划分为“训练集”和“验证集”。训练集数据用于模型训练,调整模型的参数;验证集数据用于验证模型性能,评估模型分类的准确度。训练集数据和验证集数据之间互斥。

原始数据经过预处理后,剩余干净数据1245条,有4类主要的特征变量:“故障模式”、“故障模式细分”、“维修方式”和“故障名称”。

5.1哑特征处理

在此数据中,特征变量中故障名称、单据类型的数值为文本类型,不符合机器学习数据要求,需要进行哑特征处理,变为0 1数值。另外,故障模式、故障模式细分的数值为1、2、3、4、5,在建模时会当成数字进行处理,需要进行哑变量处理,转成0 1数值。

处理前:

image.png

处理后:

image.png

关键代码:

image.png

 

5.2 建立特征数据和标签数据

维修方式 为标签数据,除 维修方式 之外的为特征数据。关键代码如下:

image.png

5.3数据集拆分

训练集拆分,分为训练集和验证集,80%训练集和20%验证集。关键代码如下:

image.png  

 

6.构建随机森林分类模型

根据数据中“故障模式”、“故障模式细分”、“故障名称”3种变量的特征,预测“维修方式”中是否需要更换零部件。使用RandomForestClassifier算法,用于目标分类。

6.1模型参数

编号

参数

1

n_estimators=100

2

random_state=0

关键代码如下:

image.png

 

7.模型评估

7.1评估指标及结果 

评估指标主要包括准确率、查准率、查全率、F1值等等。

编号

指标名称

指标值

训练集

1

准确率

96.72%

2

查准率

97.16%

3

查全率

99.08%

4

F1

98.11%

验证集

1

准确率

97.75%

2

查准率

97.46%

3

查全率

100.00%

4

F1

98.71%

关键代码如下:

image.png

 

8.实际应用

通过训练,RandomForestClassifier模型的性能较强,模型训练和验证结果相近,未出现严重过拟合和欠拟合现象。因此,根据“故障模式”、“故障模式细分”、“故障名称”3种属性的特征值,使用RandomForestClassifier算法模型,预测燃气灶维修方式的方法是可行的,而且模型准确率较高。通过这种方法,为降低电器厂商维修成本,增加企业利润,提高电器公司燃气灶等零部件等产品的物资仓储、运输等工作的运行效率。

预测结果数据如下;

image.png

# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/1l04or_wfugrV0M-HdFs43g 
提取码:30te
相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
29天前
|
机器学习/深度学习 数据采集 数据挖掘
基于 GARCH -LSTM 模型的混合方法进行时间序列预测研究(Python代码实现)
基于 GARCH -LSTM 模型的混合方法进行时间序列预测研究(Python代码实现)
|
9天前
|
机器学习/深度学习 数据采集 并行计算
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
|
21天前
|
算法 安全 新能源
基于DistFlow的含分布式电源配电网优化模型【IEEE39节点】(Python代码实现)
基于DistFlow的含分布式电源配电网优化模型【IEEE39节点】(Python代码实现)
|
3月前
|
存储 机器学习/深度学习 人工智能
稀疏矩阵存储模型比较与在Python中的实现方法探讨
本文探讨了稀疏矩阵的压缩存储模型及其在Python中的实现方法,涵盖COO、CSR、CSC等常见格式。通过`scipy.sparse`等工具,分析了稀疏矩阵在高效运算中的应用,如矩阵乘法和图结构分析。文章还结合实际场景(推荐系统、自然语言处理等),提供了优化建议及性能评估,并展望了稀疏计算与AI硬件协同的未来趋势。掌握稀疏矩阵技术,可显著提升大规模数据处理效率,为工程实践带来重要价值。
168 58
|
1月前
|
机器学习/深度学习 算法 调度
【切负荷】计及切负荷和直流潮流(DC-OPF)风-火-储经济调度模型研究【IEEE24节点】(Python代码实现)
【切负荷】计及切负荷和直流潮流(DC-OPF)风-火-储经济调度模型研究【IEEE24节点】(Python代码实现)
|
9月前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能食品消费模式分析的深度学习模型
使用Python实现智能食品消费模式分析的深度学习模型
263 70
|
3月前
|
机器学习/深度学习 人工智能 PyTorch
200行python代码实现从Bigram模型到LLM
本文从零基础出发,逐步实现了一个类似GPT的Transformer模型。首先通过Bigram模型生成诗词,接着加入Positional Encoding实现位置信息编码,再引入Single Head Self-Attention机制计算token间的关系,并扩展到Multi-Head Self-Attention以增强表现力。随后添加FeedForward、Block结构、残差连接(Residual Connection)、投影(Projection)、层归一化(Layer Normalization)及Dropout等组件,最终调整超参数完成一个6层、6头、384维度的“0.0155B”模型
198 11
200行python代码实现从Bigram模型到LLM
|
4月前
|
机器学习/深度学习 人工智能 算法
Python+YOLO v8 实战:手把手教你打造专属 AI 视觉目标检测模型
本文介绍了如何使用 Python 和 YOLO v8 开发专属的 AI 视觉目标检测模型。首先讲解了 YOLO 的基本概念及其高效精准的特点,接着详细说明了环境搭建步骤,包括安装 Python、PyCharm 和 Ultralytics 库。随后引导读者加载预训练模型进行图片验证,并准备数据集以训练自定义模型。最后,展示了如何验证训练好的模型并提供示例代码。通过本文,你将学会从零开始打造自己的目标检测系统,满足实际场景需求。
2749 0
Python+YOLO v8 实战:手把手教你打造专属 AI 视觉目标检测模型
|
8月前
|
数据采集 数据可视化 数据挖掘
金融波动率的多模型建模研究:GARCH族与HAR模型的Python实现与对比分析
本文探讨了金融资产波动率建模中的三种主流方法:GARCH、GJR-GARCH和HAR模型,基于SPY的实际交易数据进行实证分析。GARCH模型捕捉波动率聚类特征,GJR-GARCH引入杠杆效应,HAR整合多时间尺度波动率信息。通过Python实现模型估计与性能比较,展示了各模型在风险管理、衍生品定价等领域的应用优势。
799 66
金融波动率的多模型建模研究:GARCH族与HAR模型的Python实现与对比分析
|
9月前
|
机器学习/深度学习 数据可视化 TensorFlow
使用Python实现深度学习模型的分布式训练
使用Python实现深度学习模型的分布式训练
389 73

推荐镜像

更多