需要完整代码和PPT请点赞关注收藏后评论区留言私信~~~
1:C4.5算法
Quinlan在1993年提出了ID3的改进版本C4.5算法。它与ID3算法的不同主要有以下几点
(1)分支指标采用增益比例,而不是ID3所使用的信息增益
(2)按照数值属性值的大小对样本排序,从中选择一个分割点,划分数值属性的取值区间,从而将ID3的处理能力扩充到数值属性上来
(3)将训练样本集中的位置属性值用最常用的值代替,或者用该属性的所有取值的平均值代替,从而处理缺少属性值的训练样本
(4)使用K次迭代交叉验证,评估模型的优劣程度
(5)根据生成的决策树,可以产生一个if-then规则的集合,每一个规则代表从根结点到叶结点的一条路径
C4.5算法的优缺点
C4.5是基于ID3算法进行改进的算法,目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的未知类别进行分类。C4.5算法产生的分类规则易于理解,准确率高,改进了ID3算法倾向于选择具有最大增益率的属性作为分裂属性的缺点,而且相比于ID3算法,能处理非离散数据或不完整数据。 C4.5由于使用了熵模型,里面有大量的耗时的对数运算,如果是连续值还需要大量的排序运算,而且C4.5只能用于分类
2:CART算法
原理:分类回归树(Classification And Regression Tree, CART)算法最早由Breiman等人提出,目前已在统计领域和数据挖掘技术中普遍使用。Python中的scikit-learn模块的Tree子模块主要使用CART算法实现决策树
CART算法用基尼系数代替熵模型。基尼指数度量数据分区或训练元组D的不纯度,定义为:
CART算法将最大化不纯度降低的属性选择为分裂属性,CART算法采用与传统统计学完全不同的方式构建准则,而且以二叉树形式给出,易于理解,使用和解释。由CART算法构建的决策树在很多情况下比常用的统计方式构建的代数预测更加准确,而且数据越复杂,变量越多,算法的优越性越显著
树剪枝
随着决策树深度的增加,模型的准确度肯定会越来越好。但是对于新的未知数据,模型的表现会很差,产生的决策树会出现过分适应数据的问题。而且,由于数据中的噪声和孤立点,许多分枝反映的是训练数据中的异常,对新样本的判定很不精确。为防止构建的决策树出现过拟合,需要对决策树进行剪枝。决策树的剪枝方法一般有预剪枝和后剪枝方法
1. 预剪枝
当在某一结点选择使用某一属性作为划分属性时,会由于本次划分而产生几个分支。预剪枝就是对划分前后两棵树的泛化性能进行评估,根据评估结果决定该结点是否进行划分。如果在一个结点划分样本将导致低于预定义临界值的分裂(如使用信息增益度量)则提前停止树的构造,但是选择一个合适的临界值往往非常困难
2. 后剪枝
在后剪枝方法中,先构造一颗完整的决策树,然后从下向上计算每个结点的经验熵,递归地从决策树的叶子结点进行回缩,通过计算回缩前后的损失函数并进行比较判断是否进行剪枝。剪枝可以只在树的某一部分进行,即局部剪枝,这样极大提高了剪枝的效率
3:决策树应用
sklearn.tree.DecisionTreeClassifier实现了决策树的构建,在该方法中,参数criterion规定了该决策树所采用的 最佳分割属性的判决方法,取值有“gini”和“entropy”两种;max_depth限定了决策树的最大深度,对于防止过拟合非常有用。参数min_samples_leaf 限定了叶子结点包含的最小样本数
生成的决策树如下图所示
代码如下
from sklearn.datasets import load_iris import pandas as pd from sklearn import tree from sklearn.tree import export_graphviz # import graphviz iris = load_iris() clf = tree.DecisionTreeClassifier() clf = clf.fit(iris.data, iris.target) # dot_file = 'tree.dot' # tree.export_graphviz(clf, out_file = dot_file) # with open("D:\\tree.dot", 'w') as f: # f=export_graphviz(clf, out_file = f,feature_names = ['SL','SW','PL','PW'])
创作不易 觉得有帮助请点赞关注收藏~~~