【机器学习】回归树生成过程及举例理解

简介: 【8月更文挑战第6天】本文介绍了回归树的生成过程,并通过一个打高尔夫球时间预测的例子详细解释了如何选择分支节点和评估标准方差,以及如何确定停止条件来构建最终的树模型。

在这里插入图片描述

1 基本概念

回归树(Regression Tree),就是用树模型做回归问题,每片叶子都输出一个预测值。预测值一般时叶子节点所含训练集元素输出的均值。(除了使用均值可以作为预测值,也可以使用其他方法,例如线性回归)

举例理解,以下是一个打高尔夫球的时间表。根据天气、适度、温度、风来预测打高尔夫的时间长短。

在这里插入图片描述

右边的回归树叶子节点值,就是取样本数的均值。

2 回归树分支标准

回归树的选择分支节点的评价指标是标准方差(Standard Deviation)。回归树使用某一种特征将原集合分为多个子集,用标准方差衡量子集中的元素是否相近,越小表示越相近。

第一步:首先计算根节点的标准方差

在这里插入图片描述

第二步:计算每个特征的条件标准方差,选择(根节点标准方差-特征的条件标准方差)最大的特征作为下一个分支节点

outlook的条件标准方差计算如下

在这里插入图片描述

同理计算其他特征的标准方差

在这里插入图片描述

第三步:计算根节点标准方差与特征的条件标准方差的差,选择差值最大的特征为下一个分支节点。重复以上工程,直到满足停止条件。停止条件包括

1、当某个分支的变化系数小于某个值

2、当前节点所包含的元素个数小于某个值

第四步:设定变化系数小于10%和所包含元素个数小于3个为停止条件

1、计算Outlook中Overcat的变化系数及所包含元素个数

在这里插入图片描述

Overcat的变化系数为8%。小于10%,即停止继续分支。

2、计算Outlook中Sunny的变化系数及所包含元素个数

在这里插入图片描述

从左边的表i个中,知道变化系数为28%,且样本数为5个,则需要继续分支。再来计算下一个特征的(Sunny节点标准方差-特征的条件标准方差),从右边的表格知道,Windy这个特征的差值最大,则以Windy作为Sunny节点之后的新节点。分支得到以下的树结构。

在这里插入图片描述

此时Windy的True节点,只有两个样本数了,小于3个。满足了停止的条件。

3、计算Outlook中Rainy的变化系数及所包含元素个数

在这里插入图片描述

从左边的表可知,Rainy分支的变化系数CV=22%,需要继续分支。再来计算下一个特征的(Rainy节点标准方差-特征的条件标准方差),从右边的表格知道,Temp这个特征的差值最大,则以Temp作为Rainy节点之后的新节点。分支得到以下的树结构。

在这里插入图片描述

使用Temp分支后,三个分支所包含是元素个数小于设定的3。则停止继续分支。叶子节点每条分支样本的均值,即为生成的回归树。

目录
相关文章
|
8月前
|
机器学习/深度学习
大模型开发:解释正则化及其在机器学习中的作用。
正则化是防止机器学习过拟合的技术,通过限制模型参数和控制复杂度避免过拟合。它包含L1和L2正则化,前者产生稀疏解,后者适度缩小参数。选择合适的正则化方法和强度对模型性能关键,常用交叉验证评估。
217 1
|
8月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】决策树归纳中ID3算法讲解及构建决策树实战(图文解释 超详细)
【数据挖掘】决策树归纳中ID3算法讲解及构建决策树实战(图文解释 超详细)
693 0
|
7月前
|
机器学习/深度学习 分布式计算 算法
在机器学习项目中,选择算法涉及问题类型识别(如回归、分类、聚类、强化学习)
【6月更文挑战第28天】在机器学习项目中,选择算法涉及问题类型识别(如回归、分类、聚类、强化学习)、数据规模与特性(大数据可能适合分布式算法或深度学习)、性能需求(准确性、速度、可解释性)、资源限制(计算与内存)、领域知识应用以及实验验证(交叉验证、模型比较)。迭代过程包括数据探索、模型构建、评估和优化,结合业务需求进行决策。
65 0
|
机器学习/深度学习 算法 数据可视化
机器学习的四个分支及分类回归常用术语解释
机器学习的四个分支及分类回归常用术语解释
|
机器学习/深度学习 数据采集 算法
13 机器学习 - KNN算法补充
13 机器学习 - KNN算法补充
55 0
|
机器学习/深度学习 算法 数据可视化
机器学习测试笔记(10)——K邻近算法(上)
机器学习测试笔记(10)——K邻近算法(上)
179 0
机器学习测试笔记(10)——K邻近算法(上)
|
机器学习/深度学习 算法
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(三)
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(三)
247 0
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(三)
|
机器学习/深度学习 存储
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(一)
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(一)
430 0
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(一)
|
机器学习/深度学习 vr&ar
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(二)
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(二)
259 0
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(二)
|
机器学习/深度学习 算法
【阿旭机器学习实战】【7】岭回归基本原理及其λ的选取方法
【阿旭机器学习实战】【7】岭回归基本原理及其λ的选取方法
【阿旭机器学习实战】【7】岭回归基本原理及其λ的选取方法

热门文章

最新文章