【机器学习算法】13、决策树与随机森林（非常的全面讲解和实践）（一）-阿里云开发者社区

【机器学习算法】13、决策树与随机森林（非常的全面讲解和实践）（一）

2023-05-17 221

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【机器学习算法】13、决策树与随机森林（非常的全面讲解和实践）（一）

1.简介

决策树（Decision Tree）是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用。

决策树常用的算法：ID3、C4.5与CART算法。

2.数学基础部分

2.1、熵（Entropy）

熵表示随机变量不确定性的度量，随机变量X的熵定义如下：

熵越大代表随机变量的不确定性就越大。

2.2、条件熵（Conditional Entropy）

设有随机变量(X,Y)，其联合概率分布为：

条件熵H(Y|X)表示在已知随机变量X 的条件下，随机变量Y的不确定度。随机变量X给定的情况下随机变量Y的条件熵H(Y|X)定义为X给定条件下Y的条件概率分布的熵对X 的数学期望：

当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵与条件熵分别称为经验熵（empirical entropy）和经验条件熵（empirical conditional entropy）。

2.3、信息增益（Information Gain）

信息增益表示得知特征A的信息而使得类D的信息的不确定性减少的程度。

特征A对训练数据集D的信息增益g(D,A)，定义为集合D 的经验熵H(D)与特征A 给定条件下D的经验条件熵H(D|A)之差，即：

一般地，熵H(D)与条件熵H(D|A)之差称为互信息（Mutual Information）。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

决策树学习应用信息增益准则选择特征。给定训练数据集D和特征A，经验熵H(D)表示对数据集D进行分类的不确定性。而经验条件熵H(D|A)表示在特征A 给定的条件下对数据集D进行分类的不确定性，那么它们的差，即信息增益，就表示由于特征A而使得对数据集D的分类的不确定性减少的程度。不同的特征往往具有不同的信息增益，信息增益大的特征具有更强的分类能力。

缺点：信息增益偏向取值较多的特征

原因：当特征的取值较多时，根据此特征划分更容易得到纯度更高的子集，因此划分之后的熵更低，由于划分前的熵是一定的，因此信息增益更大，因此信息增益比较偏向取值较多的特征。

2.4、信息增益比（Information Gain Ratio）

信息增益比本质：是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大。

信息增益比 = 惩罚参数 * 信息增益

特征A对训练数据集D 的信息增益比gR(D,A)定义为其信息增益g(D,A)与训练数据集D 关于特征A的值的熵HA(D)之比，即：

其中的HA(D)，对于样本集合D，将当前特征A作为随机变量（取值是特征A的各个特征值），求得的经验熵。

惩罚参数：数据集D以特征A作为随机变量的熵的倒数，即：将特征A取值相同的样本划分到同一个子集中（之前所说数据集的熵是依据类别进行划分的）

缺点：信息增益比偏向取值较少的特征；

原因：当特征取值较少时HA(D)的值较小，因此其倒数较大，因而信息增益比较大。因而偏向取值较少的特征。

使用信息增益比：基于以上缺点，并不是直接选择信息增益率最大的特征，而是现在候选特征中找出信息增益高于平均水平的特征，然后在这些特征中再选择信息增益率最高的特征。

2.5、Gini指数（Gini Index）

定义：基尼指数（基尼不纯度）：表示在样本集合中一个随机选中的样本被分错的概率。Gini指数越小表示集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。

基尼指数= 样本被选中的概率 * 样本被分错的概率

分类问题中，假设有K个类，样本点属于第k类的概率为pk，则概率分布的基尼指数定义为：

说明:

1. pk表示选中的样本属于k类别的概率，则这个样本被分错的概率是(1-pk)；

2. 样本集合中有K个类别，一个随机选中的样本可以属于这k个类别中的任意一个，因而对类别就加和；

3. 当为二分类是，Gini(P) = 2p(1-p)；

对于给定的样本集合D，其基尼指数为（假设集合中有K个类别）：

如果样本集合D 可以根据特征A是否取某一可能值a被分割成D1、D2两部分，即：

则在特征A的条件下，集合D的基尼指数定义为：

基尼指数Gini(D)表示集合D的不确定度，基尼指数Gini(D,A)表示经A=a分割后集合D的不确定度。基尼指数越大，样本集合的不确定度也就越大，这一点与熵很相似。

【机器学习算法】13、决策树与随机森林（非常的全面讲解和实践）（一）

1.简介