Python实现深度神经网络gcForest(多粒度级联森林)分类模型

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: Python实现深度神经网络gcForest(多粒度级联森林)分类模型

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

gcForest(多粒度级联森林)是一种深度森林结构。近年来,深度神经网络在图像和声音处理领域取得了很大的进展。关于深度神经网络,我们可以把它简单的理解为多层非线性函数的堆叠,当我们人工很难或者不想去寻找两个目标之间的非线性映射关系,我们就多堆叠几层,让机器自己去学习它们之间的关系,这就是深度学习最初的想法。既然神经网络可以堆叠为深度神经网络,那我们可以考虑,是不是可以将其他的学习模型堆叠起来,以获取更好的表示性能,gcForest就是基于这种想法提出来的一种深度结构。gcForest通过级联的方式堆叠多层随机森林,以获得更好的特征表示和学习性能。 

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下

编号 

变量名称

描述

1

age

 

2

gender

 

3

body_mass_index

 

4

heart_failure hypertension

 

5

chronic_obstructic_pulmonary_disease

 

 

chronic_liver_disease

 

……

29

acute_kidney_disease

目标变量

数据详情如下(部分展示):

image.png

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据:

image.png

关键代码:

image.png

3.2查看数据集摘要

使用Pandas工具的info()方法查看数据集的摘要信息:

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 718 entries, 0 to 717

Data columns (total 29 columns):

 #   Column                                Non-Null Count  Dtype  

---  ------                                --------------  -----  

 0   age                                   718 non-null    int64  

 1   gender                                718 non-null    int64  

 2   body_mass_index                       718 non-null    float64

 3   heart_failure                         718 non-null    int64  

 4   hypertension                          718 non-null    int64  

 5   chronic_obstructic_pulmonary_disease  718 non-null    int64  

 6   chronic_liver_disease                 718 non-null    int64  

 7   diabetes_mellitus                     718 non-null    int64  

 8   chroinc_kidney_disease                718 non-null    int64  

 9   charlson                              718 non-null    int64  

 10  emergency                             718 non-null    int64  

 11  surgery                               718 non-null    int64  

 12  APSIII                                718 non-null    int64  

 13  SAPSII                                718 non-null    int64  

 14  non_renal_sofa-1                      718 non-null    int64  

 15  non_renal_sofa-3                      718 non-null    int64  

 16  non_renal_sofa                        718 non-null    int64  

 17  aki_stage                             718 non-null    int64  

 18  creatinine_baseline                   718 non-null    float64

 19  creatinine-1                          718 non-null    float64

 20  creatinine-3                          718 non-null    float64

 21  creatinine                            718 non-null    float64

 22  urine_output-1                        718 non-null    float64

 23  urine_output-3                        718 non-null    float64

 24  urine_output                          718 non-null    float64

 25  diuretic                              718 non-null    int64  

 26  mechanical_ventalition                718 non-null    int64  

 27  renal_toxic_drug                      718 non-null    int64  

 28  acute_kidney_disease                  718 non-null    int64  

dtypes: float64(8), int64(21)

memory usage: 162.8 KB

从上表可以看到,总共有718条数据,29个数据项,所有数据中没有缺失值。

关键代码:

image.png

4.探索性数据分析

4.1检查目标变量的分布

用Pandas工具的value_counts()方法进行统计,输出结果如下:

image.png

图形化展示如下:

image.png

从上面两个图中可以看到,分类为1的有352条/分类为0的有366条,数据偏差不大。另外,可以看到这是一个二分类的任务。

关键代码:

image.png

4.2 相关性分析

用Pandas工具的corr()方法 matplotlib seaborn进行相关性分析,结果如下:

image.png

image.png

通过上图可以看到,数据项之间正值是正相关/负值是负相关,数值越大 相关性越强。另外通过上面两个图的颜色也可以直观地看出,第二张图的数据项之间的相关性更强。

5.特征工程

5.1 建立特征数据和标签数据

acute_kidney_disease为标签数据,除 acute_kidney_disease之外的为特征数据。关键代码如下:

image.png

5.2数据集拆分

训练集拆分,分为训练集和验证集,80%训练集和20%验证集。关键代码如下:

image.png

6.构建GCForest模型  

6.1建模

模型参数如下: 

 

编号

参数

1

shape_1X:

单个样本元素的形状[n_lines,n_cols]。 调用mg_scanning时需要!对于序列数据,可以给出单个int。

2

n_mgsRFtree:

多粒度扫描期间随机森林中的树木数量。

3

window:int(default = None)

多粒度扫描期间使用的窗口大小列表。如果“无”,则不进行切片。

4

stride:int(default = 1)

切片数据时使用的步骤。

5

cascade_test_size:float或int(default = 0.2)

级联训练集分裂的分数或绝对数。

6

n_cascadeRF:int(default = 2)

级联层中随机森林的数量,对于每个伪随机森林,创建完整的随机森林,因此一层中随机森林的总数将为2 * n_cascadeRF。

7

n_cascadeRFtree:int(default = 101)

级联层中单个随机森林中的树数。

8

min_samples_mgs:float或int(default = 0.1)

节点中执行拆分的最小样本数 在多粒度扫描随机森林训练期间。 如果int number_of_samples = int。 如果float,min_samples表示要考虑的初始n_samples的分数。

9

min_samples_cascade:float或int(default = 0.1)

节点中执行拆分的最小样本数 在级联随机森林训练期间。 如果int number_of_samples = int。 如果float,min_samples表示要考虑的初始n_samples的分数。

10

cascade_layer:int(default = np.inf)

允许的最大级联级数。 有用的限制级联的结构。

11

tolerance:float(default= 0.0)

联生长的精度差,整个级联的性能将在验证集上进行估计, 如果没有显着的性能增益,训练过程将终止

12

n_jobs:int(default = 1)

任意随机森林适合并预测的并行运行的工作数量。 如果为-1,则将作业数设置为核心数。

关键代码如下:

image.png

7.模型评估

7.1评估指标及结果

评估指标主要采用准确率、查准率、查全率、F1分值。

 

编号

评估指标名称

评估指标值

1

准确率

66.67%

2

查准率

68.52%

3

查全率

54.41%

4

F1

60.66%

通过上述表格可以看出,准确率为66.67%,F1分值为60.66%;大家可以进一步优化;如果替换成其它数据集效果会更好,因为我提供的这个数据集里面有很多分类的变量未进行进一步的预处理。 

7.2 分类报告

image.png

通过上图可以看到,分类为0的F1分数为0.71,分类为1的F1分数为0.61,准确率为67%。

7.3 ROC曲线

image.png

通过上图可以看到,GCForest模型的AUC值为0.72,说明整体效果还是很不错的,如果把数据集在进行预处理一下,AUC的值会更高。

8.结论与展望

根据测试集的特征数据,来预测这些患者是否会有相关疾病;根据预测结果:针对将来可能会患有此种疾病的人员,提前进行预防。

注意事项:

GCForest.py这个是实现多粒度级联森林模型的源代码,用的时候和其它代码放在同一个目录,避免报错:找不到GCForest模块。

# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/1itkueUtXq4DUTF3c0Qy5bw 
提取码:pyji
相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
4天前
|
机器学习/深度学习 数据采集 数据可视化
使用Python实现深度学习模型:智能舆情监测与分析
【8月更文挑战第16天】 使用Python实现深度学习模型:智能舆情监测与分析
23 1
|
4天前
|
分布式计算 网络协议 Python
Python网络编程:socket编程
Socket 编程是网络编程的重要部分,主要用于在不同计算机之间进行通信。Python 提供了一个非常强大的 socket 库,使得网络编程变得简单和灵活。本篇博文将详细介绍 Python 的 socket 编程,包括基础概念、核心组件、常用功能,并附上一个综合的示例及其运行结果。
|
4天前
|
JSON API 数据格式
Python网络编程:HTTP请求(requests模块)
在现代编程中,HTTP请求几乎无处不在。无论是数据抓取、API调用还是与远程服务器进行交互,HTTP请求都是不可或缺的一部分。在Python中,requests模块被广泛认为是发送HTTP请求的最简便和强大的工具之一。本文将详细介绍requests模块的功能,并通过一个综合示例展示其应用。
|
6天前
|
机器学习/深度学习 传感器 自动驾驶
使用Python实现深度学习模型:智能车联网与自动驾驶
【8月更文挑战第14天】 使用Python实现深度学习模型:智能车联网与自动驾驶
27 10
|
2天前
|
数据采集 存储 中间件
Python进行网络爬虫:Scrapy框架的实践
【8月更文挑战第17天】网络爬虫是自动化程序,用于从互联网收集信息。Python凭借其丰富的库和框架成为构建爬虫的首选语言。Scrapy作为一款流行的开源框架,简化了爬虫开发过程。本文介绍如何使用Python和Scrapy构建简单爬虫:首先安装Scrapy,接着创建新项目并定义爬虫,指定起始URL和解析逻辑。运行爬虫可将数据保存为JSON文件或存储到数据库。此外,Scrapy支持高级功能如中间件定制、分布式爬取、动态页面渲染等。在实践中需遵循最佳规范,如尊重robots.txt协议、合理设置爬取速度等。通过本文,读者将掌握Scrapy基础并了解如何高效地进行网络数据采集。
27 6
|
4天前
|
机器学习/深度学习 JSON API
【Python奇迹】FastAPI框架大显神通:一键部署机器学习模型,让数据预测飞跃至Web舞台,震撼开启智能服务新纪元!
【8月更文挑战第16天】在数据驱动的时代,高效部署机器学习模型至关重要。FastAPI凭借其高性能与灵活性,成为搭建模型API的理想选择。本文详述了从环境准备、模型训练到使用FastAPI部署的全过程。首先,确保安装了Python及相关库(fastapi、uvicorn、scikit-learn)。接着,以线性回归为例,构建了一个预测房价的模型。通过定义FastAPI端点,实现了基于房屋大小预测价格的功能,并介绍了如何运行服务器及测试API。最终,用户可通过HTTP请求获取预测结果,极大地提升了模型的实用性和集成性。
18 1
|
6天前
|
算法 Ubuntu 机器人
DRAKE - 基于模型的机器人设计与验证 由丰田研究所支持的 C++ / Python 工具箱。
DRAKE - 基于模型的机器人设计与验证 由丰田研究所支持的 C++ / Python 工具箱。
17 1
|
1天前
|
机器学习/深度学习 数据采集 数据可视化
使用Python实现深度学习模型:智能医疗影像识别与诊断
【8月更文挑战第19天】 使用Python实现深度学习模型:智能医疗影像识别与诊断
11 0
|
2天前
|
机器学习/深度学习 数据采集 数据可视化
使用Python实现深度学习模型:智能娱乐与虚拟现实技术
【8月更文挑战第18天】 使用Python实现深度学习模型:智能娱乐与虚拟现实技术
6 0
|
3天前
|
运维 网络架构 Python
利用Python查询H3C网络设备示例,运维用了它,都称赞!
利用Python查询H3C网络设备示例,运维用了它,都称赞!