Python实现LightGBM分类模型(LGBMClassifier算法)项目实战

简介: Python实现LightGBM分类模型(LGBMClassifier算法)项目实战

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

如今已是大数据时代,具备大数据思想至关重要,人工智能技术在各行各业的应用已是随处可见。GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛,通常被用于多分类、点击率预测、搜索排序等任务;在各种数据挖掘竞赛中也是致命武器,据统计很多比赛有一半以上的冠军方案都是基于GBDT。而LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。 

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下

编号 

变量名称

描述

0

mean_radius

 

1

mean_texture

 

2

mean_perimeter

 

3

mean_area

 

4

mean_smoothness

 

5

diagnosis

目标变量 0 Negative  1 Positive

数据详情如下(部分展示):

image.png

3.数据预处理

真实数据中可能包含了大量的缺失值和噪音数据或人工录入错误导致有异常点存在,非常不利于算法模型的训练。数据清洗的结果是对各种脏数据进行对应方式的处理,得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。数据预处理通常包含数据清洗、归约、聚合、转换、抽样等方式,数据预处理质量决定了后续数据分析挖掘及建模工作的精度和泛化价值。以下简要介绍数据预处理工作中主要的预处理方法:

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据:

image.png

关键代码:

image.png

3.2查看数据集摘要

使用Pandas工具的info()方法查看数据集的摘要信息:

image.png

从上图可以看到,总共有569条数据,6个数据项,所有数据中没有缺失值。

关键代码:

image.png

4.探索性数据分析

4.1检查目标变量的分布

用Pandas工具的value_counts()方法进行统计,输出结果如下:

image.png

图形化展示如下:

image.png

从上面两个图中可以看到,分类为1的有347条/分类为0的有212条,数据偏差不大。另外,可以看到这是一个二分类的任务。

4.2 相关性分析

用Pandas工具的corr()方法 matplotlib seaborn进行相关性分析,结果如下:

image.png

通过上图可以看到,数据项之间正值是正相关/负值是负相关,数值越大 相关性越强。

5.特征工程

5.1 建立特征数据和标签数据

diagnosis为标签数据,除 diagnosis之外的为特征数据。关键代码如下:

image.png

5.2数据集拆分

训练集拆分,分为训练集和验证集,70%训练集和30%验证集。关键代码如下:

image.png

6.构建lightgbm分类模型

主要使用使用LGBMClassifier算法,用于目标分类。

6.1模型参数

 

编号

模型名称

参数

1

 

 

lightgbm分类模型

learning_rate=0.1

2

n_estimators=100

3

boosting_type='gbdt'

4

num_leaves=31

5

max_depth=-1

由于上述参数的值是默认值,所有在建模的代码中直接用的默认值。

关键代码如下:

image.png

7.模型评估

7.1评估指标及结果

评估指标主要包括准确率、查准率、查全率、F1分值等等。

模型名称

指标名称

指标值

测试集

lightgbm分类模型

准确率

0.9298

查准率

0.9286

查全率

0.9630

F1分值

0.9455

从上表可以看出,准确率为93%  F1分值为95%,lightgbm分类模型比较优秀,效果非常好。

关键代码如下:

image.png

7.2 查看是否过拟合

查看训练集和测试集的分数:

image.png

通过结果可以看到,训练集分数和测试集分数基本相当,所以没有出现过拟合现象。

关键代码:

image.png

7.3 混淆矩阵

lightgbm分类模型混淆矩阵:

image.png

image.png

从上图可以看到,实际值为1 预测为0的有4个;实际值为0  预测为1的有8个;这些是预测错误的,总共12个,在可以接受的范围内。

7.4 分类报告

lightgbm分类模型分类报告:

image.png

从上图可以看到,分类类型为0的F1分值为0.90;分类类型为1的F1分值为0.95;整个模型的准确率为0.93.

7.5 模型特征重要性

image.png

从上图可以看到特征变量对此模型的重要性依次为:mean_smoothnessmean_texturemean_perimetermean_radiusmean_area等等。

7.6 ROC曲线

image.png

从上图可以看出AUC值为0.98,模型非常棒。

8.结论与展望

综上所述,本文采用了lightgbm分类模型,最终证明了我们提出的模型效果良好。准确率达到了93%,可用于日常生活中进行建模预测,以提高价值。


# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/1xjJt7s_lqn1U78AHYJWRFA 
提取码:qzrl
相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
4月前
|
算法 搜索推荐 JavaScript
基于python智能推荐算法的全屋定制系统
本研究聚焦基于智能推荐算法的全屋定制平台网站设计,旨在解决消费者在个性化定制中面临的选择难题。通过整合Django、Vue、Python与MySQL等技术,构建集家装设计、材料推荐、家具搭配于一体的一站式智能服务平台,提升用户体验与行业数字化水平。
|
4月前
|
存储 监控 算法
监控电脑屏幕的帧数据检索 Python 语言算法
针对监控电脑屏幕场景,本文提出基于哈希表的帧数据高效检索方案。利用时间戳作键,实现O(1)级查询与去重,结合链式地址法支持多条件检索,并通过Python实现插入、查询、删除操作。测试表明,相较传统列表,检索速度提升80%以上,存储减少15%,具备高实时性与可扩展性,适用于大规模屏幕监控系统。
172 5
|
5月前
|
存储 算法 调度
【复现】【遗传算法】考虑储能和可再生能源消纳责任制的售电公司购售电策略(Python代码实现)
【复现】【遗传算法】考虑储能和可再生能源消纳责任制的售电公司购售电策略(Python代码实现)
257 26
|
5月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
362 2
|
5月前
|
机器学习/深度学习 并行计算 算法
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
130 8
|
5月前
|
机器学习/深度学习 数据采集 传感器
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
345 0
|
5月前
|
机器学习/深度学习 算法 机器人
【机器人路径规划】基于D*算法的机器人路径规划(Python代码实现)
【机器人路径规划】基于D*算法的机器人路径规划(Python代码实现)
297 0
|
Python 人工智能 小程序
拯救Python新手的几个项目实战
Python 做小游戏 实例一:24点游戏 项目名称:经典趣味24点游戏程序设计(python) 如果你不想错过Python这么好的工具,又担心自学遇到问题无处解决,现在就可以Python的学习q u n 227-435-450可以来了解一起进步一起学习!免费分享视频资料 实例二:五子棋游戏 项目...
3856 0
|
5月前
|
数据采集 机器学习/深度学习 人工智能
Python:现代编程的首选语言
Python:现代编程的首选语言
422 102
|
5月前
|
数据采集 机器学习/深度学习 算法框架/工具
Python:现代编程的瑞士军刀
Python:现代编程的瑞士军刀
391 104

热门文章

最新文章

推荐镜像

更多