机器学习实战_初识决策树(ID3)算法_理解其python代码(二)

简介: 机器学习实战_初识决策树(ID3)算法_理解其python代码(二)

python递归构建决策树:

Python 基础:

count()方法

Python count() 方法用于统计字符串里某个字符出现的次数。可选参数为在字符串搜索的开始与结束位置。

示例:

>>> a = [-1, 3, 'aa', 85] # 定义一个list
>>> a
[-1, 3, 'aa', 85]
>>> del a[0] # 删除第0个元素
>>> a
[3, 'aa', 85]
>>> del a[2:4] # 删除从第2个元素开始,到第4个为止的元素。包括头不包括尾
>>> a
[3, 'aa']
>>> del a # 删除整个list
>>> a
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name 'a' is not defined
>>>

开始构造第一个基础的决策树

(一):得到决策树(字典的表示形式)的代码:

def majorityCnt(classList):#得到出现次数最多的分类名称(投票表决代码)
    classCount={}
    for vote in classList:
        if vote not in classCount.keys():classCount[vote]=0
        classCount[vote]+=1
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]
def createTree(dataSet,labels):#**构造的决策树**
    classList = [example[-1] for example in dataSet]#得到数据集的所有类标签,列表解析详见前一节
    if classList.count(classList[0]) == len(classList):#Python count() 方法用于统计字符串里某个字符出现的次数。可选参数为在字符串搜索的开始与结束位置。
        return classList[0]
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)#分离出最适合的那个属性
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel:{}}#创建一个嵌套有属性bestFeatLabel的字典,bestFeatLabel:{}后的字典内嵌套的是 myTree[bestFeatLabel][value](递归得到的字典)
    # 或者是上面两个if语句结束时return的myTree[bestFeatLabel][value])的值majorityCnt(classList)或classList[0]
    del(labels[bestFeat])#删除已经选择出来的属性标签
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)#得到属性的各种取值(所得元素不重复)
    for value in uniqueVals:
        subLabels = labels[:]#在python中函数参数是列表类型时,参数是按照引用的方式传递,可防止改变原始列表的内容
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet,bestFeat,value),subLabels)
    return myTree
#测试代码:
def createDataSet():
    dataSet = [[1,1,0,'maybe'],
               [1, 1,0,'yes'],
               [1, 1, 1,'yes'],
               [1,0,1,'maybe'],
               [0,1,0,'no'],
               [0,1,0,'no']]
    labels = ['no surfacing','flippers','maybe']
    return dataSet,labels
import CreateDataSet
import trees
myDat,labels=CreateDataSet.createDataSet()
myTree = trees.createTree(myDat,labels)
print(myTree)
#结果:{'no surfacing': {0: 'no', 1: {'flippers': {0: 'maybe', 1: {'maybe': {0: 'maybe', 1: 'yes'}}}}}}

(二)绘制树形图的代码(由于代码仅是依照上述的字典绘制,这里就不再占用过多的空间):

中间可能会遇到的一些问题:主要是Python2.x与3.x的差别导致的:

firstStr = myTree.keys()[0]

#Clearly you’re passing in d.keys() to your shuffle function.

# Probably this was written with python2.x (when d.keys() returned a list). With python3.x, d.keys() returns a dict_keys object which behaves a lot more like a set than a list.

# As such, it can’t be indexed.

#The solution is to pass list(d.keys()) (or simply list(d)) to shuffle.

或者中文可以参照这位csdn的:firstStr = myTree.keys()[0]

(三)测试算法,使用决策树:

def classify(inputTree, featLabels, testVec):
    firstStr = list(inputTree.keys())#得到节点所代表的属性eg:'flippers'
    firstStr = firstStr[0]
    secondDict = inputTree[firstStr]#得到该节点的子节点,是一个dict,eg:{0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}
    featIndex = featLabels.index(firstStr)#得到firstStr在所给的featLabels(属性)中的位置,以便将testVec中的值与相应的属性对应
    for key in secondDict.keys():#将testVec中的值放入决策树中进行判断
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__=='dict':#如果还有子节点则继续判断
                classLabel = classify(secondDict[key],featLabels,testVec)
            else: classLabel = secondDict[key]#否则返回该节点的值
    return classLabel

(四)决策树的存储与读取:

此处主要遇到的问题是pickle的问题

Pickle文件是二进制数据文件,因此必须使用’rb’模式打开文件,’wb’模式写入文件,而不是使用文本模式。

def storeTree(inputTree,filename):
    import pickle
    fw = open(filename,'wb')#Pickle files are binary data files, so you always have to open the file with the 'wb' mode when writing. Don't try to use a text mode here.
    pickle.dump(inputTree,fw)
    fw.close()
def grabTree(filename):
    import pickle
    fr = open(filename,'rb')#Pickle files are binary data files, so you always have to open the file with the 'rb' mode when loading. Don't try to use a text mode here.
    return pickle.load(fr)• 1
• 2
• 3
• 4
• 5
• 6
• 7
• 8
• 9
• 10

AIEarth是一个由众多领域内专家博主共同打造的学术平台,旨在建设一个拥抱智慧未来的学术殿堂!【平台地址:https://devpress.csdn.net/aiearth】 很高兴认识你!加入我们共同进步!

目录
相关文章
|
7月前
|
测试技术 Python
Python装饰器:为你的代码施展“魔法”
Python装饰器:为你的代码施展“魔法”
367 100
|
7月前
|
开发者 Python
Python列表推导式:一行代码的艺术与力量
Python列表推导式:一行代码的艺术与力量
550 95
|
7月前
|
缓存 Python
Python装饰器:为你的代码施展“魔法
Python装饰器:为你的代码施展“魔法
428 88
|
7月前
|
监控 机器人 编译器
如何将python代码打包成exe文件---PyInstaller打包之神
PyInstaller可将Python程序打包为独立可执行文件,无需用户安装Python环境。它自动分析代码依赖,整合解释器、库及资源,支持一键生成exe,方便分发。使用pip安装后,通过简单命令即可完成打包,适合各类项目部署。
1301 68
|
算法 编译器 开发者
如何提高Python代码的性能:优化技巧与实践
本文探讨了如何提高Python代码的性能,重点介绍了一些优化技巧与实践方法。通过使用适当的数据结构、算法和编程范式,以及利用Python内置的性能优化工具,可以有效地提升Python程序的执行效率,从而提升整体应用性能。本文将针对不同场景和需求,分享一些实用的优化技巧,并通过示例代码和性能测试结果加以说明。
|
人工智能 数据挖掘 数据处理
揭秘Python编程之美:从基础到进阶的代码实践之旅
【9月更文挑战第14天】本文将带领读者深入探索Python编程语言的魅力所在。通过简明扼要的示例,我们将揭示Python如何简化复杂问题,提升编程效率。无论你是初学者还是有一定经验的开发者,这篇文章都将为你打开一扇通往高效编码世界的大门。让我们开始这段充满智慧和乐趣的Python编程之旅吧!
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
268 2
|
机器学习/深度学习 Python
时间序列特征提取:从理论到Python代码实践
时间序列是一种特殊的存在。这意味着你对表格数据或图像进行的许多转换/操作/处理技术对于时间序列来说可能根本不起作用。
687 1
时间序列特征提取:从理论到Python代码实践
|
大数据 Python
Python 高级编程:深入探索高级代码实践
本文深入探讨了Python的四大高级特性:装饰器、生成器、上下文管理器及并发与并行编程。通过装饰器,我们能够在不改动原函数的基础上增添功能;生成器允许按需生成值,优化处理大数据;上下文管理器确保资源被妥善管理和释放;多线程等技术则助力高效完成并发任务。本文通过具体代码实例详细解析这些特性的应用方法,帮助读者提升Python编程水平。
716 5
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析的新手指南深入浅出操作系统:从理论到代码实践
【8月更文挑战第30天】在数据驱动的世界中,掌握数据分析技能变得越来越重要。本文将引导你通过Python这门强大的编程语言来探索数据分析的世界。我们将从安装必要的软件包开始,逐步学习如何导入和清洗数据,以及如何使用Pandas库进行数据操作。文章最后会介绍如何使用Matplotlib和Seaborn库来绘制数据图表,帮助你以视觉方式理解数据。无论你是编程新手还是有经验的开发者,这篇文章都将为你打开数据分析的大门。

热门文章

最新文章

推荐镜像

更多