Python实现深度神经网络gcForest(多粒度级联森林)分类模型

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: Python实现深度神经网络gcForest(多粒度级联森林)分类模型

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

gcForest(多粒度级联森林)是一种深度森林结构。近年来,深度神经网络在图像和声音处理领域取得了很大的进展。关于深度神经网络,我们可以把它简单的理解为多层非线性函数的堆叠,当我们人工很难或者不想去寻找两个目标之间的非线性映射关系,我们就多堆叠几层,让机器自己去学习它们之间的关系,这就是深度学习最初的想法。既然神经网络可以堆叠为深度神经网络,那我们可以考虑,是不是可以将其他的学习模型堆叠起来,以获取更好的表示性能,gcForest就是基于这种想法提出来的一种深度结构。gcForest通过级联的方式堆叠多层随机森林,以获得更好的特征表示和学习性能。 

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下

编号 

变量名称

描述

1

age

 

2

gender

 

3

body_mass_index

 

4

heart_failure hypertension

 

5

chronic_obstructic_pulmonary_disease

 

 

chronic_liver_disease

 

……

29

acute_kidney_disease

目标变量

数据详情如下(部分展示):

image.png

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据:

image.png

关键代码:

image.png

3.2查看数据集摘要

使用Pandas工具的info()方法查看数据集的摘要信息:

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 718 entries, 0 to 717

Data columns (total 29 columns):

 #   Column                                Non-Null Count  Dtype  

---  ------                                --------------  -----  

 0   age                                   718 non-null    int64  

 1   gender                                718 non-null    int64  

 2   body_mass_index                       718 non-null    float64

 3   heart_failure                         718 non-null    int64  

 4   hypertension                          718 non-null    int64  

 5   chronic_obstructic_pulmonary_disease  718 non-null    int64  

 6   chronic_liver_disease                 718 non-null    int64  

 7   diabetes_mellitus                     718 non-null    int64  

 8   chroinc_kidney_disease                718 non-null    int64  

 9   charlson                              718 non-null    int64  

 10  emergency                             718 non-null    int64  

 11  surgery                               718 non-null    int64  

 12  APSIII                                718 non-null    int64  

 13  SAPSII                                718 non-null    int64  

 14  non_renal_sofa-1                      718 non-null    int64  

 15  non_renal_sofa-3                      718 non-null    int64  

 16  non_renal_sofa                        718 non-null    int64  

 17  aki_stage                             718 non-null    int64  

 18  creatinine_baseline                   718 non-null    float64

 19  creatinine-1                          718 non-null    float64

 20  creatinine-3                          718 non-null    float64

 21  creatinine                            718 non-null    float64

 22  urine_output-1                        718 non-null    float64

 23  urine_output-3                        718 non-null    float64

 24  urine_output                          718 non-null    float64

 25  diuretic                              718 non-null    int64  

 26  mechanical_ventalition                718 non-null    int64  

 27  renal_toxic_drug                      718 non-null    int64  

 28  acute_kidney_disease                  718 non-null    int64  

dtypes: float64(8), int64(21)

memory usage: 162.8 KB

从上表可以看到,总共有718条数据,29个数据项,所有数据中没有缺失值。

关键代码:

image.png

4.探索性数据分析

4.1检查目标变量的分布

用Pandas工具的value_counts()方法进行统计,输出结果如下:

image.png

图形化展示如下:

image.png

从上面两个图中可以看到,分类为1的有352条/分类为0的有366条,数据偏差不大。另外,可以看到这是一个二分类的任务。

关键代码:

image.png

4.2 相关性分析

用Pandas工具的corr()方法 matplotlib seaborn进行相关性分析,结果如下:

image.png

image.png

通过上图可以看到,数据项之间正值是正相关/负值是负相关,数值越大 相关性越强。另外通过上面两个图的颜色也可以直观地看出,第二张图的数据项之间的相关性更强。

5.特征工程

5.1 建立特征数据和标签数据

acute_kidney_disease为标签数据,除 acute_kidney_disease之外的为特征数据。关键代码如下:

image.png

5.2数据集拆分

训练集拆分,分为训练集和验证集,80%训练集和20%验证集。关键代码如下:

image.png

6.构建GCForest模型  

6.1建模

模型参数如下: 

 

编号

参数

1

shape_1X:

单个样本元素的形状[n_lines,n_cols]。 调用mg_scanning时需要!对于序列数据,可以给出单个int。

2

n_mgsRFtree:

多粒度扫描期间随机森林中的树木数量。

3

window:int(default = None)

多粒度扫描期间使用的窗口大小列表。如果“无”,则不进行切片。

4

stride:int(default = 1)

切片数据时使用的步骤。

5

cascade_test_size:float或int(default = 0.2)

级联训练集分裂的分数或绝对数。

6

n_cascadeRF:int(default = 2)

级联层中随机森林的数量,对于每个伪随机森林,创建完整的随机森林,因此一层中随机森林的总数将为2 * n_cascadeRF。

7

n_cascadeRFtree:int(default = 101)

级联层中单个随机森林中的树数。

8

min_samples_mgs:float或int(default = 0.1)

节点中执行拆分的最小样本数 在多粒度扫描随机森林训练期间。 如果int number_of_samples = int。 如果float,min_samples表示要考虑的初始n_samples的分数。

9

min_samples_cascade:float或int(default = 0.1)

节点中执行拆分的最小样本数 在级联随机森林训练期间。 如果int number_of_samples = int。 如果float,min_samples表示要考虑的初始n_samples的分数。

10

cascade_layer:int(default = np.inf)

允许的最大级联级数。 有用的限制级联的结构。

11

tolerance:float(default= 0.0)

联生长的精度差,整个级联的性能将在验证集上进行估计, 如果没有显着的性能增益,训练过程将终止

12

n_jobs:int(default = 1)

任意随机森林适合并预测的并行运行的工作数量。 如果为-1,则将作业数设置为核心数。

关键代码如下:

image.png

7.模型评估

7.1评估指标及结果

评估指标主要采用准确率、查准率、查全率、F1分值。

 

编号

评估指标名称

评估指标值

1

准确率

66.67%

2

查准率

68.52%

3

查全率

54.41%

4

F1

60.66%

通过上述表格可以看出,准确率为66.67%,F1分值为60.66%;大家可以进一步优化;如果替换成其它数据集效果会更好,因为我提供的这个数据集里面有很多分类的变量未进行进一步的预处理。 

7.2 分类报告

image.png

通过上图可以看到,分类为0的F1分数为0.71,分类为1的F1分数为0.61,准确率为67%。

7.3 ROC曲线

image.png

通过上图可以看到,GCForest模型的AUC值为0.72,说明整体效果还是很不错的,如果把数据集在进行预处理一下,AUC的值会更高。

8.结论与展望

根据测试集的特征数据,来预测这些患者是否会有相关疾病;根据预测结果:针对将来可能会患有此种疾病的人员,提前进行预防。

注意事项:

GCForest.py这个是实现多粒度级联森林模型的源代码,用的时候和其它代码放在同一个目录,避免报错:找不到GCForest模块。

# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/1itkueUtXq4DUTF3c0Qy5bw 
提取码:pyji
相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
基于 GARCH -LSTM 模型的混合方法进行时间序列预测研究(Python代码实现)
基于 GARCH -LSTM 模型的混合方法进行时间序列预测研究(Python代码实现)
|
17天前
|
机器学习/深度学习 数据采集 并行计算
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
182 2
|
29天前
|
算法 安全 新能源
基于DistFlow的含分布式电源配电网优化模型【IEEE39节点】(Python代码实现)
基于DistFlow的含分布式电源配电网优化模型【IEEE39节点】(Python代码实现)
|
4月前
|
存储 机器学习/深度学习 人工智能
稀疏矩阵存储模型比较与在Python中的实现方法探讨
本文探讨了稀疏矩阵的压缩存储模型及其在Python中的实现方法,涵盖COO、CSR、CSC等常见格式。通过`scipy.sparse`等工具,分析了稀疏矩阵在高效运算中的应用,如矩阵乘法和图结构分析。文章还结合实际场景(推荐系统、自然语言处理等),提供了优化建议及性能评估,并展望了稀疏计算与AI硬件协同的未来趋势。掌握稀疏矩阵技术,可显著提升大规模数据处理效率,为工程实践带来重要价值。
173 58
|
2月前
|
机器学习/深度学习 算法 调度
【切负荷】计及切负荷和直流潮流(DC-OPF)风-火-储经济调度模型研究【IEEE24节点】(Python代码实现)
【切负荷】计及切负荷和直流潮流(DC-OPF)风-火-储经济调度模型研究【IEEE24节点】(Python代码实现)
|
4月前
|
机器学习/深度学习 人工智能 PyTorch
200行python代码实现从Bigram模型到LLM
本文从零基础出发,逐步实现了一个类似GPT的Transformer模型。首先通过Bigram模型生成诗词,接着加入Positional Encoding实现位置信息编码,再引入Single Head Self-Attention机制计算token间的关系,并扩展到Multi-Head Self-Attention以增强表现力。随后添加FeedForward、Block结构、残差连接(Residual Connection)、投影(Projection)、层归一化(Layer Normalization)及Dropout等组件,最终调整超参数完成一个6层、6头、384维度的“0.0155B”模型
205 11
200行python代码实现从Bigram模型到LLM
|
5月前
|
机器学习/深度学习 算法 测试技术
图神经网络在信息检索重排序中的应用:原理、架构与Python代码解析
本文探讨了基于图的重排序方法在信息检索领域的应用与前景。传统两阶段检索架构中,初始检索速度快但结果可能含噪声,重排序阶段通过强大语言模型提升精度,但仍面临复杂需求挑战
140 0
图神经网络在信息检索重排序中的应用:原理、架构与Python代码解析
|
10月前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
226 17
|
10月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
178 10
|
10月前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。

推荐镜像

更多