IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据

简介: IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据

全文链接:http://tecdat.cn/?p=30752


如何通过方法有效的分析海量数据,并从其中找到有利的资讯已经成为一种趋势点击文末“阅读原文”获取完整代码数据


而决策树算法是目前在进行数据分析时很常用的方法。本文将使用IBM SPSS Modeler进行实践,介绍决策树在空气污染预测领域的实践案例。


分类预测模型的构建流程,具体步骤如下:

(1)数据处理 :审核数据,过滤掉含有缺失值的数据记录。

(2)划分数据集,训练集70%,测试集30% 。

(3)构建模型时的参数设置 。

(4)构建模型:构建C5.0模型。

(5)结果评估,用测试集数据运行得到的运行结果,对模型采用命中率评估两个模型的预测效果。


加入表节点



读取数据



添加“抽样”节点


随机抽取70%的样本作为训练集


“C5.0”节点


生成的决策树模型,并对测试数据进行预测

得到测试数据的分类结果的准确度


预测分类结果


有88.1%的测试样本的预测值和实际值相符。

并且得到如下的决策树模型:

点击标题查阅往期内容


数据分享|PYTHON用决策树分类预测糖尿病和可视化实例


01

02

03

04


其中变量的重要性如下图所示:

从结果可以看到,首要污染物类型与AQI、NO2还有O3等变量有关。其中AQI对首要污染物类型的结果具有最重要的影响。

C5.0是在C4.5的基础上发展起来的。C5.0 算法是用信息增益(根节点的熵减去该拆分的熵)来度量拆分纯度的。第一次拆分某一字段,划分出相对应的样本子集。然后继续拆分这些样本子集,一般情况下使用的是另一字段进行拆分,一直循环这样一个过程,直到满足拆分终止条件。最后,若生成的树出现过度拟合的状况,则要修剪那些缺乏价值的样本子集。

相关文章
|
5月前
|
机器学习/深度学习 人工智能
IBM推出创新框架用“黑盒”方式,评估大模型的输出
【7月更文挑战第17天】IBM研发的创新框架以“黑盒”方法评估大模型输出的可信度,通过观察输入和输出,不涉及模型内部。采用逻辑回归模型,基于四个特征(输出长度、多样性、一致性和新颖性)来估计可信度。在多个数据集上测试,显示优于其他“黑盒”方法,且具有可解释性。但仅适用于可访问的模型,可能忽略内部细节,不适用于所有场景。[[arXiv:2406.04370](https://arxiv.org/abs/2406.04370)]
59 4
|
7月前
|
消息中间件 人工智能 Unix
第五十二章 使用 ^SystemPerformance 监视性能 - IBM AIX® 平台的 InterSystems IRIS 性能数据报告
第五十二章 使用 ^SystemPerformance 监视性能 - IBM AIX® 平台的 InterSystems IRIS 性能数据报告
55 0
|
7月前
|
图形学
IBM SPSS Amos下载与安装
IBM SPSS Amos下载与安装
383 1
|
数据采集 数据可视化
IBM HR Analytics 员工流失 EDA 和可视化绩效分析
IBM HR Analytics 员工流失 EDA 和可视化绩效分析
219 0
|
SQL 存储 分布式计算
IBM Data Lake:发现事实,数据模式和临时报告
IBM Data Lake:发现事实,数据模式和临时报告
|
机器学习/深度学习 人工智能 自动驾驶
大模型如何可靠?IBM等学者最新《基础模型的基础鲁棒性》教程|NeurIPS 2022
大模型如何可靠?IBM等学者最新《基础模型的基础鲁棒性》教程|NeurIPS 2022
225 0
|
机器学习/深度学习 数据可视化
Nat. Mach. Intel. | IBM RXN: 深度学习在化学反应分类上大放异彩
Nat. Mach. Intel. | IBM RXN: 深度学习在化学反应分类上大放异彩
326 0
Nat. Mach. Intel. | IBM RXN: 深度学习在化学反应分类上大放异彩
|
人工智能 计算机视觉 机器学习/深度学习
IBM发布最新AI模型,帮视障者“看”到更多
在IBM最新的论文中,研究人员提出了一种能自主制作多样化、创造性和符合人类语境的图片文字说明的模型。实验证明,图片的文字说明取得了“良好”的性能,未来可以为强大的新计算机视觉系统奠定了基础。
556 0

热门文章

最新文章

下一篇
DataWorks