【机器学习算法】13、决策树与随机森林(非常的全面讲解和实践)(一)

简介: 【机器学习算法】13、决策树与随机森林(非常的全面讲解和实践)(一)

1.简介


  决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。


   决策树常用的算法:ID3、C4.5与CART算法。


2.数学基础部分


2.1、熵(Entropy)

熵表示随机变量不确定性的度量,随机变量X的熵定义如下:

熵越大代表随机变量的不确定性就越大。


2.2、条件熵(Conditional Entropy)

设有随机变量(X,Y),其联合概率分布为:

   条件熵H(Y|X)表示在已知随机变量X 的条件下,随机变量Y的不确定度。随机变量X给定的情况下随机变量Y的条件熵H(Y|X)定义为X给定条件下Y的条件概率分布的熵对X 的数学期望:

   当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵与条件熵分别称为经验熵(empirical entropy)经验条件熵(empirical conditional entropy)


2.3、信息增益(Information Gain)

   信息增益表示得知特征A的信息而使得类D的信息的不确定性减少的程度。


   特征A对训练数据集D的信息增益g(D,A),定义为集合D 的经验熵H(D)与特征A 给定条件下D的经验条件熵H(D|A)之差,即:

bdaa4a75cad5a277d7dd8f0277911a66.png

   一般地,熵H(D)与条件熵H(D|A)之差称为互信息(Mutual Information)。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。


   决策树学习应用信息增益准则选择特征。给定训练数据集D和特征A,经验熵H(D)表示对数据集D进行分类的不确定性。而经验条件熵H(D|A)表示在特征A 给定的条件下对数据集D进行分类的不确定性,那么它们的差,即信息增益,就表示由于特征A而使得对数据集D的分类的不确定性减少的程度。不同的特征往往具有不同的信息增益,信息增益大的特征具有更强的分类能力。


 缺点:信息增益偏向取值较多的特征

原因:当特征的取值较多时,根据此特征划分更容易得到纯度更高的子集,因此划分之后的熵更低,由于划分前的熵是一定的,因此信息增益更大,因此信息增益比较 偏向取值较多的特征。

 

2.4、信息增益比(Information Gain Ratio)

   信息增益比本质:是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。

信息增益比 = 惩罚参数 * 信息增益

   特征A对训练数据集D 的信息增益比gR(D,A)定义为其信息增益g(D,A)与训练数据集D 关于特征A的值的熵HA(D)之比,即:

144058fffb4f7ddd28d6fde9d10a2c01.png

   其中的HA(D),对于样本集合D,将当前特征A作为随机变量(取值是特征A的各个特征值),求得的经验熵。


惩罚参数:数据集D以特征A作为随机变量的熵的倒数,即:将特征A取值相同的样本划分到同一个子集中(之前所说数据集的熵是依据类别进行划分的)

985adaa605a04510ff7ef5e39e76ae6c.png

缺点:信息增益比偏向取值较少的特征;  

原因:当特征取值较少时HA(D)的值较小,因此其倒数较大,因而信息增益比较大。因而偏向取值较少的特征。


使用信息增益比:基于以上缺点,并不是直接选择信息增益率最大的特征,而是现在候选特征中找出信息增益高于平均水平的特征,然后在这些特征中再选择信息增益率最高的特征。


2.5、Gini指数(Gini Index)

   定义:基尼指数(基尼不纯度):表示在样本集合中一个随机选中的样本被分错的概率。Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。

基尼指数= 样本被选中的概率 * 样本被分错的概率

   分类问题中,假设有K个类,样本点属于第k类的概率为pk,则概率分布的基尼指数定义为:

e3eb9928c96bb1428d0a54b4a3667739.png

说明:

   1. pk表示选中的样本属于k类别的概率,则这个样本被分错的概率是(1-pk);

   2. 样本集合中有K个类别,一个随机选中的样本可以属于这k个类别中的任意一个,因而对类别就加和;

   3. 当为二分类是,Gini(P) = 2p(1-p);


   对于给定的样本集合D,其基尼指数为(假设集合中有K个类别):

757c4562023c3f5179db9e1e1dd35216.png

如果样本集合D 可以根据特征A是否取某一可能值a被分割成D1、D2两部分,即:

20480fd922d5e2ec4606a9a10e7c9d1e.png

则在特征A的条件下,集合D的基尼指数定义为:

2144507808fb5dd43b7209770003dd1f.png

   基尼指数Gini(D)表示集合D的不确定度,基尼指数Gini(D,A)表示经A=a分割后集合D的不确定度。基尼指数越大,样本集合的不确定度也就越大,这一点与熵很相似。

相关文章
|
8天前
|
机器学习/深度学习 算法 数据挖掘
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-2
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
28 1
|
1天前
|
机器学习/深度学习 算法 搜索推荐
R语言LASSO特征选择、决策树CART算法和CHAID算法电商网站购物行为预测分析
R语言LASSO特征选择、决策树CART算法和CHAID算法电商网站购物行为预测分析
|
2天前
|
机器学习/深度学习 人工智能 缓存
人工智能平台PAI产品使用合集之机器学习PAI实践参考在哪里
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2天前
|
机器学习/深度学习 数据采集 算法
Python用逻辑回归、决策树、SVM、XGBoost 算法机器学习预测用户信贷行为数据分析报告
Python用逻辑回归、决策树、SVM、XGBoost 算法机器学习预测用户信贷行为数据分析报告
10 1
|
4天前
|
算法
数据结构与算法-AVL树入门
数据结构与算法-AVL树入门
8 0
|
4天前
|
算法
数据结构与算法-Trie树添加与搜索
数据结构与算法-Trie树添加与搜索
5 0
|
4天前
|
机器学习/深度学习 数据采集 算法
共享单车需求量数据用CART决策树、随机森林以及XGBOOST算法登记分类及影响因素分析
共享单车需求量数据用CART决策树、随机森林以及XGBOOST算法登记分类及影响因素分析
11 0
|
6天前
|
机器学习/深度学习 算法 数据挖掘
数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病
数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病
20 6
|
6天前
|
机器学习/深度学习 算法 数据挖掘
R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病
R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病
|
7天前
|
机器学习/深度学习 算法 搜索推荐
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
33 12