机器学习：在SAS中运行随机森林-阿里云开发者社区

机器学习：在SAS中运行随机森林

2024-04-16 98

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 机器学习：在SAS中运行随机森林

为了在SAS中运行随机森林，我们必须使用PROC HPFOREST指定目标变量，并概述天气变量是“类别”还是“定量”。为了进行此分析，我们使用了目标（Repsone变量），该目标是分类的（SAS语言中标称的），如下面的图像代码中所描述的黄色和红色：

运行代码后，我们得到了一系列表格，这些表格将详细分析数据。例如，模型信息让我们知道，随机选择了3个变量来测试每个节点或每个树中可能的分割（黄色）。我们还可以看到，运行的最大树数为100，如蓝色下划线所示。

HPFOREST仅使用在任何观察值下均没有缺失记录的有效变量。但是，我们还可以看到，在研究样本的213个国家中，有213个被利用。

接下来，我们可以看到模型生成带有“基线拟合统计量”的表。就本研究中的数据而言，我们可以看到该模型识别出38％的误分类，换句话说是62％的准确分类。这表示大部分样本已在每个随机选择的样本中正确分类。

在下表中分析森林时，我们可以看到误分类率已经达到了最低点，这表明在OOB样本中使用该模型进行测试时，误分类率仅在22％。

最后，我们看到SAS POC HPFOREST为我们提供了“损失减少变量的重要性”表。下表概述了每个变量如何有助于模型的可预测性的重要性等级。如下图所示，酒精变量排名最高。

现在，以下内容将帮助我们理解如何阅读表格：

通过上面的练习，我们可以看到随机森林是一种数据挖掘算法，可以选择重要的解释变量，这些变量可以用于确定响应变量（目标变量）的分类结果还是定量结果。此外，此练习还允许我们结合使用分类变量和定量变量。总之，这个森林让我们知道哪些变量很重要，但彼此之间没有关系。

机器学习：在SAS中运行随机森林