机器学习:在SAS中运行随机森林

简介: 机器学习:在SAS中运行随机森林

为了在SAS中运行随机森林,我们必须使用PROC HPFOREST指定目标变量,并概述天气变量是“类别”还是“定量”。为了进行此分析,我们使用了目标(Repsone变量),该目标是分类的(SAS语言中标称的),如下面的图像代码中所描述的黄色和红色:


运行代码后,我们得到了一系列表格,这些表格将详细分析数据。例如,模型信息让我们知道,随机选择了3个变量来测试每个节点或每个树中可能的分割(黄色)。我们还可以看到,运行的最大树数为100,如蓝色下划线所示。


HPFOREST仅使用在任何观察值下均没有缺失记录的有效变量。但是,我们还可以看到,在研究样本的213个国家中,有213个被利用。

接下来,我们可以看到模型生成带有“基线拟合统计量”的表。就本研究中的数据而言,我们可以看到该模型识别出38%的误分类,换句话说是62%的准确分类。这表示大部分样本已在每个随机选择的样本中正确分类。


在下表中分析森林时,我们可以看到误分类率已经达到了最低点,这表明在OOB样本中使用该模型进行测试时,误分类率仅在22%。


最后,我们看到SAS POC HPFOREST为我们提供了“损失减少变量的重要性”表。下表概述了每个变量如何有助于模型的可预测性的重要性等级。如下图所示,酒精变量排名最高。

现在,以下内容将帮助我们理解如何阅读表格:

  • 规则数:告诉我们使用变量的拆分规则数
  • 每个数据计算两次:
  • Gini OOB:这是在“ Out of Bag”阶段中计算出的数据
  • 拟合统计告诉我们,OOB数据的偏差较小,因此,数据通过OOB Gini度量进行排序
  • 就预测自杀率高于正常水平而言,这些变量被列为高度重要性(顶部)和最低重要性(底部)。
  • 从下表中我们可以看出,最容易预测模型自杀率高于正常模型的变量是酒精消费量,就业率和城市率。



通过上面的练习,我们可以看到随机森林是一种数据挖掘算法,可以选择重要的解释变量,这些变量可以用于确定响应变量(目标变量)的分类结果还是定量结果。此外,此练习还允许我们结合使用分类变量和定量变量。总之,这个森林让我们知道哪些变量很重要,但彼此之间没有关系。


相关文章
|
2月前
|
机器学习/深度学习 算法 前端开发
【机器学习】Bagging和随机森林
【机器学习】Bagging和随机森林
|
6月前
|
机器学习/深度学习 数据采集 算法
【阿旭机器学习实战】【35】员工离职率预测---决策树与随机森林预测
【阿旭机器学习实战】【35】员工离职率预测---决策树与随机森林预测
|
3月前
|
机器学习/深度学习 算法 前端开发
R语言基础机器学习模型:深入探索决策树与随机森林
【9月更文挑战第2天】决策树和随机森林作为R语言中基础且强大的机器学习模型,各有其独特的优势和适用范围。了解并熟练掌握这两种模型,对于数据科学家和机器学习爱好者来说,无疑是一个重要的里程碑。希望本文能够帮助您更好地理解这两种模型,并在实际项目中灵活应用。
|
4月前
|
机器学习/深度学习 存储 缓存
【机器学习】随机森林、AdaBoost、GBDT、XGBoost从零开始理解
介绍了机器学习中的几种集成学习算法,包括随机森林、AdaBoost、梯度提升决策树(GBDT)和XGBoost,解释了它们的概念、优缺点、算法过程以及系统设计。
257 5
【机器学习】随机森林、AdaBoost、GBDT、XGBoost从零开始理解
|
6月前
|
机器学习/深度学习 人工智能 监控
人工智能平台PAI产品使用合集之运行书上的源代码时没有任何输出,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
|
机器学习/深度学习 数据采集 算法
基于机器学习预测未来的二氧化碳排放量(随机森林和XGBoost)
基于机器学习预测未来的二氧化碳排放量(随机森林和XGBoost)
260 2
|
6月前
|
机器学习/深度学习 人工智能 Apache
人工智能平台PAI操作报错合集之alink任务可以在本地运行,上传到flink web运行就报错,如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
7月前
|
机器学习/深度学习 数据采集 前端开发
【机器学习】随机森林:深度解析与应用实践
在机器学习的广阔天地中,集成学习方法因其卓越的预测能力和泛化性能而备受青睐。其中,随机森林(Random Forest)作为集成学习的一个重要分支,凭借其简单、高效且易于实现的特性,在分类和回归任务中展现了非凡的表现。本文将深入探讨随机森林的基本原理、核心构建模块、关键参数调优以及在实际应用中的策略与案例分析,旨在为读者提供一个全面而深入的理解。
818 3
|
6月前
|
机器学习/深度学习 数据采集 JavaScript
技术心得记录:机器学习——用逻辑回归及随机森林实现泰坦尼克号的生存预测
技术心得记录:机器学习——用逻辑回归及随机森林实现泰坦尼克号的生存预测
60 0
|
7月前
|
机器学习/深度学习 算法 Python
【Python 机器学习专栏】随机森林算法的性能与调优
【4月更文挑战第30天】随机森林是一种集成学习方法,通过构建多棵决策树并投票或平均预测结果,具有高准确性、抗过拟合、处理高维数据的能力。关键性能因素包括树的数量、深度、特征选择和样本大小。调优方法包括调整树的数量、深度,选择关键特征和参数优化。Python 示例展示了使用 GridSearchCV 进行调优。随机森林广泛应用于分类、回归和特征选择问题,是机器学习中的重要工具。
326 1
下一篇
DataWorks