Python实现GBDT(梯度提升树)分类模型(GradientBoostingClassifier算法)并应用网格搜索算法寻找最优参数项目实战

2024-07-11 441 发布于河南

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： Python实现GBDT(梯度提升树)分类模型(GradientBoostingClassifier算法)并应用网格搜索算法寻找最优参数项目实战

说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。

1.项目背景

GBDT是Gradient Boosting Decision Tree（梯度提升树）的缩写。GBDT分类又是建立在回归树的基础上的。

本项目应用GBDT算法实现多分类模型。

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成)，数据项统计如下：

编号	变量名称	描述
1	x1
2	x2
3	x3
4	x4
5	x5
6	x6
7	x7
8	x8
9	y	标签

数据详情如下(部分展示)：

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据：

关键代码：

3.2数据缺失查看

使用Pandas工具的info()方法查看数据信息：

从上图可以看到，总共有9个变量，数据中无缺失值，共2000条数据。

关键代码：

3.3数据描述性统计

通过Pandas工具的describe()方法来查看数据的平均值、标准差、最小值、分位数、最大值。

关键代码如下：

4.探索性数据分析

4.1 y分类变量柱状图

用Matplotlib工具的plot()方法绘制柱状图：

从上图可以看出，y变量为0 1 2类型的样本数量基本一致。

4.2 y变量类型为0 x1变量分布直方图

用Pandas工具的hist()方法绘制柱状图：

从上图可以看到，分类类型为0的x1变量主要集中在0.5~2.0之间。

4.3 数据相关性分析

数据越大相关性越强，正值是正相关负值是负相关。上图可以看到x3 x4 x6 x7和y是正相关；x1 x2 x5 x8和y是负相关。

5.特征工程

5.1 建立特征数据和标签数据

关键代码如下：

5.2 数据集拆分

通过train_test_split()方法按照80%训练集、20%测试集进行划分，关键代码如下：

6.构建GBDT分类模型

主要使用GradientBoostingClassifier算法，用于目标分类。

6.1默认参数模型构建

编号	模型名称	参数
1	GBDT分类模型	n_estimators=100
2		learning_rate=0.1
3		random_state=42

模型名称	指标名称	指标值
测试集
GBDT分类模型	准确率	0.9125
	查准率	0.9136
	查全率	0.9125
	F1分值	0.9122

6.2 模型调优：应用网格搜索寻找最优参数值

针对模型中的两个参数n_estimators和learning_rate，通过网格搜索算法寻找最优的参数值，如下图所示：

6.3 最优参数模型构建

编号	模型名称	参数
1	GBDT分类模型	n_estimators=50
2		learning_rate=0.1
3		random_state=42

7. 模型评估

7.1 评估指标及结果

评估指标主要包括准确率、查准率、查全率(召回率)、F1分值等等。

模型名称	指标名称	指标值
测试集
GBDT分类模型	准确率	0.9175
	查准率	0.9184
	查全率	0.9175
	F1分值	0.9171

通过上表可以看到，模型的准确率为91.75%,F1分值为0.9171，和默认相比相比，准确率和F1分值有一点的增加。

7.2 查看是否过拟合

从上图可以看出，训练集和测试集分值相当，无过拟合现象。

7.3 分类报告

从上图可以看出，分类为0的F1分值为0.90；分类为1的F1分值为0.90；分类为2的F1分值为0.94。

7.4 混淆矩阵

从上图可以看出，实际为0预测不为0的有7个样本；实际为1 预测不为1的有13个样本，；实际为2 预测不为2的有13个样本，在可接受的范围内。

7.5 特征重要性

从上图可以看出，特征重要性排名前三的为x1 x8 x3。

8.结论与展望

综上所述，本文采用了GBDT分类模型，最终证明了我们提出的模型效果良好。

# 本次机器学习项目实战所需的资料，项目资源如下：
 
# 项目说明：
 
# 获取方式一：
 
# 项目实战合集导航：
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二：
 
链接：https://pan.baidu.com/s/1I5zKel1xbX6ainhu17W7JQ 
提取码：5qnb

Python实现GBDT(梯度提升树)分类模型(GradientBoostingClassifier算法)并应用网格搜索算法寻找最优参数项目实战

1.项目背景

2.数据获取