机器学习算法决策树(二)

简介: **ID3决策树算法**是1975年由J. Ross Quinlan提出的,它基于信息增益来选择最佳划分特征。信息增益是衡量数据集纯度变化的指标,熵则是评估数据不确定性的度量。算法通过比较每个特征的信息增益来选择分裂属性,目标是构建一个能最大化信息增益的决策树。然而,ID3容易偏向于选择具有更多特征值的属性,C4.5算法为解决这一问题引入了信息增益率,降低了这种偏好。CART决策树则不仅用于分类,也用于回归,并使用基尼指数或信息熵来选择分割点。剪枝是防止过拟合的重要手段,包括预剪枝和后剪枝策略。

机器学习算法决策树(一)+https://developer.aliyun.com/article/1544086?spm=a2c6h.13148508.setting.17.1fa24f0ewU5jCe


ID3 决策树


ID3 树是基于信息增益构建的决策树


  • 熵在信息论中代表随机变量不确定度的度量。


  • 熵越大,数据的不确定性度越高



import numpy as np
import matplotlib.pyplot as plt
 
def entropy(p):
    return -p*np.log(p)-(1-p)*np.log(1-p)
 
x = np.linspace(0.01,0.99,200)
plt.plot(x,entropy(x))
plt.show()



信息增益


信息熵是一种衡量数据混乱程度的指标,信息熵越小,则数据的“纯度”越高


ID3算法步骤


  1. 计算每个特征的信息增益


  1. 使用信息增益最大的特征将数据集 S 拆分为子集


  1. 使用该特征(信息增益最大的特征)作为决策树的一个节点


  1. 使用剩余特征对子集重复上述(1,2,3)过程


C4.5 决策树


信息增益率计算公式




如果某个特征的特征值种类较多,则其内在信息值就越大。特征值种类越多,除以的系数就越大。


如果某个特征的特征值种类较小,则其内在信息值就越小


C4.5算法优缺点


  • 优点:分类规则利于理解,准确率高
  • 缺点


  •           在构造过程中,需要对数据集进行多次的顺序扫描和排序,导致算法的低效
  •           C4.5只适合于能够驻留内存的数据集,当数据集非常大时,程序无法运行


  • 无论是ID3还是C4.5最好在小数据集上使用,当特征取值很多时最好使用C4.5算法。



CART 分类决策树


Cart模型是一种决策树模型,它即可以用于分类,也可以用于回归


(1)决策树生成:用训练数据生成决策树,生成树尽可能大


(2)决策树剪枝:基于损失函数最小化的剪枝,用验证数据对生成的数据进行剪枝。


分类和回归树模型采用不同的最优化策略。Cart回归树使用平方误差最小化策略,Cart分类生成树采用的基尼指数最小化策略。


Criterion这个参数正是用来决定模型特征选择的计算方法的。sklearn提供了两种选择:


  • 输入”entropy“,使用信息熵(Entropy)
  • 输入”gini“,使用基尼系数(Gini Impurity)


基尼指数:



  1. 信息增益(ID3)、信息增益率值越大(C4.5),则说明优先选择该特征。


  1. 基尼指数值越小(cart),则说明优先选择该特征。


剪枝


剪枝是决策树学习算法对付过拟合的主要手段。


在决策树学习中,为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过多,这时就可能因训练样本学得"太好"了,以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合



决策树的构建过程是一个递归的过层,所以必须确定停止条件,否则过程将不会停止,树会不停生长。


先剪枝和后剪枝


  • 先剪枝就是提前结束决策树的增长。


  • 后剪枝是在决策树生长完成之后再进行剪枝的过程。


  • 预剪枝使决策树的很多分支没有展开,不单降低了过拟合风险,还显著减少了决策树的训练、测试时间开销。


  • 后剪枝比预剪枝保留了更多的分支。一般情况下,后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝。




相关文章
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
117 4
|
13天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
97 15
|
16天前
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
39 2
|
2月前
|
机器学习/深度学习 算法 Python
随机森林算法是一种强大的集成学习方法,通过构建多个决策树并综合其结果进行预测。
随机森林算法是一种强大的集成学习方法,通过构建多个决策树并综合其结果进行预测。本文详细介绍了随机森林的工作原理、性能优势、影响因素及调优方法,并提供了Python实现示例。适用于分类、回归及特征选择等多种应用场景。
59 7
|
2月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
51 1
|
2月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
147 1
|
2月前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
2月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
105 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
2月前
|
机器学习/深度学习 算法
深入探索机器学习中的决策树算法
深入探索机器学习中的决策树算法
42 0
|
2月前
|
机器学习/深度学习 算法 Python
机器学习入门:理解并实现K-近邻算法
机器学习入门:理解并实现K-近邻算法
39 0