决策树分类算法(包含隐形眼镜分类的代码)

简介: 一个有监督学习算法 、属于判别模型 、非线性分类

决策树-(Detection Tree)

首先它是一个有监督学习算法 、属于判别模型非线性分类

优缺点:

优点:

(1)能够处理数值型和类别型数据

(2)不需要先验知识和参数假设

(3)适合高维数据

(4)准确性高,计算量小

缺点:

(1)决策树的结果不太稳定,数据很小变化会导致生成一个完全不同的树

(2)决策树学习基于启发式,每次寻找每个节点的局部最优就决策,无法保证全局最优

(3)决策树可以创建很复杂的树,但是可能无法推广,也即是过拟合,为此剪枝很关键

适用数据类型:数值型和标称型。

应用场景:常用于分类和回归,市场营销和生物医药

描述:

参考:决策树学习的本质: 从训练集中归纳出一组分类规则,或者说是由训练数据集估计条件概率模型?

包含3个步骤:特征选择、决策树的生成、决策树的修剪

有3个典型的算法:ID3(使用信息增益生成决策树)、C4.5(使用信息增益比生成决策树)、CART

框架:模型、策略(损失函数)、算法

学习模型:目的是找到一个决策模型使得对数据进行正确分类

f7e35c22113e57948de5a9e81a9c42be_70.png

策略:

损失函数通常是正则化的极大似然函数,策略是以此损失函数为目标函数的最小化

算法:

学习的问题转变为在损失函数意义下选择最优决策树的问题

解决方法:采用递归算法

决策树包含3个步骤:特征选择、决策树的生成、决策树的修剪

1、特征选择

特征数量多时只留下对数据有足够分类能力的特征。

特征选择的准则是:信息增益,当然数据集的熵很大时可以采用信息增益比的方式。

信息增益的计算:

在已知的特征A下使得类Y的信息不确定性减少的程度

7907d8c301798edb72d15931cc0403ab_70.png

经验熵:熵表示为随机变量不确定性的大小,值越大表示不确定性越大

2767d16aa88eb80635df7014ebdfdb44_70.png

应用于此决策树,i则表示为不同类别,pi表示不同类别所属的概率

经验条件熵:

0b7e1cbf00c046b6473190924b359526_70.png

应用于此决策树,X表示特征数,具体可能为k个特征A1、A2...A k,Y表示数据集;考虑对一个特征A1分析,其它特征同理;首先根据此特征A1的取值不同有不同的样本集划分Di,例如A1有3个取值,则3个取值下有3个样本集,此3个样本集构成数据集Y;

则上述的求和次数为n=3;H(Y|X=xi)相当于H(Di)表示每个取值下的数据集的经验熵;(可参考青年中年老年的 贷款例子)

pi表示特征取不同值的概率。

2、决策树生成:


分为两种使用信息增益和信息增益比。也即是ID3算法和C4.5算法;

其中ID3算法是:从根结点出发,对结点计算所有的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点(不同的样本),再对子结点(样本集)递归调用上述计算信息增益的过程,构建出决策树,直到所有特征的信息增益均很小或者是没有特征可以选择时结束,最后得到一个决策树模型。

C4.5算法类似ID3,不同之处在于选择特征使用的信息增益比

信息增益计算,哪个信息增益最大:

7b427f7cbf7bfd6804ead9dc6bbb0655_70.png

(1)

https://www.cnblogs.com/zy230530/p/6813250.html

关于字符串的和列表的访问详细的介绍https://blog.csdn.net/qq_26442553/article/details/81507972

使用决策树预测隐形眼镜类型解读:

使用的ID3算法

1)递归的构造决策树

# -*- coding: utf-8 -*-
"""
Created on Tue Sep 24 14:55:39 2019
@author: Administrator
"""
from math import log
import operator
import treePlotter as tP
import trees as tr_f
#递归构建决策树
def createTree(dataSet, labels):
    # classList 表示类别
    classList = [example[-1] for example in dataSet]#把dataset中的每一行放入example,然后找到相应的example[-1] 组成列表
   # 参考https://blog.csdn.net/jiangsujiangjiang/article/details/84313227
    #https://blog.csdn.net/weixin_41580067/article/details/82888699
    #两种特殊情况1、最终只剩下一个样本 2、只剩下一个特征
    if classList.count(classList[0]) == len(classList):
        return classList[0]#stop splitting when all of the classes are equal
    if len(dataSet[0]) == 1: #stop splitting when there are no more features in dataSet
        return majorityCnt(classList)#多数表决法决定该叶子节点的分类
    #寻找最佳的特征 bestFeat表示索引
    bestFeat = chooseBestFeatureToSplit(dataSet)#选择最好的数据集划分方式
    bestFeatLabel = labels[bestFeat]#找出特征作为根节点
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])#删除此特征
    #特征下对应的值
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)#找出不重复的特征值(该特征下可能对应多个特征值)
    for value in uniqueVals:
        subLabels = labels[:]       #copy all of labels, so trees don't mess up existing labels
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)
    return myTree
#多数表决法决定该叶子节点的分类
def majorityCnt(classList):
    classCount={}
    for vote in classList:
        if vote not in classCount.keys(): classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)#降序
    return sortedClassCount[0][0]    
#选择最好的数据集划分方式
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1      #the last column is used for the labels
    baseEntropy = calcShannonEnt(dataSet)#计算原始数据的香农熵
    bestInfoGain = 0.0; bestFeature = -1
    # 依据特征数选择最佳的划分特征
    for i in range(numFeatures):        #iterate over all the features
        featList = [example[i] for example in dataSet]#create a list of all the examples of this feature
        #创建此特征取值的不重复类型
        uniqueVals = set(featList)       #get a set of unique values
        newEntropy = 0.0
        #计算特征下(列)对应的经验条件熵
        for value in uniqueVals:
            #找出第i个特征下对应值的数据样本个数
            subDataSet = splitDataSet(dataSet, i, value)#划分数据集: 按照给定特征划分数据集
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)#计算熵
        #计算信息增益
        infoGain = baseEntropy - newEntropy     #calculate the info gain; ie reduction in entropy
        if (infoGain > bestInfoGain):       #compare this to the best gain so far
            bestInfoGain = infoGain         #if better than current best, set to best
            bestFeature = i
    return bestFeature
#划分数据集: 按照给定特征划分数据集
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]     #chop out axis used for splitting
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet
#熵的定义
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    #统计当前数据集的类别标签出现的次数,例如两个类别 类别1出现的次数为x1 类别2出现的次数为x2 总数=x1+x2
    for featVec in dataSet: #the the number of unique elements and their occurance
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob, 2) #log base 2
    return shannonEnt

2)测试

#使用决策树执行分类
    #解析https://www.cnblogs.com/wyuzl/p/7700872.html
    #依据类别标签和待测数据的的值,找到对应的树子结点,递归的查找。并返回最终分类的值
def classify(inputTree, featLabels, testVec):
    firstStr = list(inputTree)[0]#当前树的根节点的特征名称 
    secondDict = inputTree[firstStr]#根节点的所有子节点
    featIndex = featLabels.index(firstStr)#找到根节点特征对应的下标  
    key = testVec[featIndex] #找出待测数据的特征值  
    valueOfFeat = secondDict[key]
    if isinstance(valueOfFeat, dict):#判断valueOfFeat是否是dict类型,若是dict类型则说明不是叶结点(叶结点为str)
        classLabel = classify(valueOfFeat, featLabels, testVec)#递归的进入下一层结点
    else: classLabel = valueOfFeat#如果是叶结点,则确定待测数据的分类
    return classLabel    

3)实际执行(读取数据--构建决策树---分类--存储决策树-绘制决策树)

# main
  #读取眼镜数据并构建树
fr = open('lenses.txt')
lenses = [inst.strip().split('\t') for inst in fr.readlines()]
lensesLabels = ['age', 'prescript', 'astigmatic', 'tearRate']
lensesTree = createTree(lenses,lensesLabels)
print(lensesTree)
# plot tree
tP.createPlot(lensesTree)
#对新数据进行分类
lensesLabels = ['age', 'prescript', 'astigmatic', 'tearRate']
testVec=['young','hyper','yes','normal']
result=classify(lensesTree,lensesLabels, testVec)
print(result)
#存储构建的树并加载树
tr_f.storeTree(lensesTree,'ClassfyTree_lenses.txt')
load_tree=tr_f.grabTree('ClassfyTree_lenses.txt')
print(load_tree)

具体见:https://github.com/codehgq/ML-note/tree/master/Lense%20Classify

欢迎Star!

目录
相关文章
|
7天前
|
算法
分享一些提高二叉树遍历算法效率的代码示例
这只是简单的示例代码,实际应用中可能还需要根据具体需求进行更多的优化和处理。你可以根据自己的需求对代码进行修改和扩展。
|
10天前
|
算法
树的遍历算法有哪些?
不同的遍历算法适用于不同的应用场景。深度优先搜索常用于搜索、路径查找等问题;广度优先搜索则在图的最短路径、层次相关的问题中较为常用;而二叉搜索树的遍历在数据排序、查找等方面有重要应用。
19 2
|
19天前
|
算法 测试技术 开发者
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗;代码审查通过检查源代码发现潜在问题,提高代码质量和团队协作效率。本文介绍了一些实用的技巧和工具,帮助开发者提升开发效率。
19 3
|
17天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
1月前
|
存储 缓存 算法
如何通过优化算法和代码结构来提升易语言程序的执行效率?
如何通过优化算法和代码结构来提升易语言程序的执行效率?
|
1月前
|
搜索推荐
插入排序算法的讲解和代码
【10月更文挑战第12天】插入排序是一种基础的排序算法,理解和掌握它对于学习其他排序算法以及数据结构都具有重要意义。你可以通过实际操作和分析,进一步深入了解插入排序的特点和应用场景,以便在实际编程中更好地运用它。
|
1月前
|
机器学习/深度学习 算法 Python
探索机器学习中的决策树算法:从理论到实践
【10月更文挑战第5天】本文旨在通过浅显易懂的语言,带领读者了解并实现一个基础的决策树模型。我们将从决策树的基本概念出发,逐步深入其构建过程,包括特征选择、树的生成与剪枝等关键技术点,并以一个简单的例子演示如何用Python代码实现一个决策树分类器。文章不仅注重理论阐述,更侧重于实际操作,以期帮助初学者快速入门并在真实数据上应用这一算法。
|
15天前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的决策树算法
【10月更文挑战第29天】本文将深入浅出地介绍决策树算法,一种在机器学习中广泛使用的分类和回归方法。我们将从基础概念出发,逐步深入到算法的实际应用,最后通过一个代码示例来直观展示如何利用决策树解决实际问题。无论你是机器学习的初学者还是希望深化理解的开发者,这篇文章都将为你提供有价值的见解和指导。
|
1月前
|
存储 算法 关系型数据库
数据结构与算法学习二一:多路查找树、二叉树与B树、2-3树、B+树、B*树。(本章为了解基本知识即可,不做代码学习)
这篇文章主要介绍了多路查找树的基本概念,包括二叉树的局限性、多叉树的优化、B树及其变体(如2-3树、B+树、B*树)的特点和应用,旨在帮助读者理解这些数据结构在文件系统和数据库系统中的重要性和效率。
19 0
数据结构与算法学习二一:多路查找树、二叉树与B树、2-3树、B+树、B*树。(本章为了解基本知识即可,不做代码学习)
|
1月前
|
存储 缓存 分布式计算
数据结构与算法学习一:学习前的准备,数据结构的分类,数据结构与算法的关系,实际编程中遇到的问题,几个经典算法问题
这篇文章是关于数据结构与算法的学习指南,涵盖了数据结构的分类、数据结构与算法的关系、实际编程中遇到的问题以及几个经典的算法面试题。
29 0
数据结构与算法学习一:学习前的准备,数据结构的分类,数据结构与算法的关系,实际编程中遇到的问题,几个经典算法问题