机器学习实战_初识决策树(ID3)算法_理解其python代码(二)

简介: 机器学习实战_初识决策树(ID3)算法_理解其python代码(二)

python递归构建决策树:

Python 基础:

count()方法

Python count() 方法用于统计字符串里某个字符出现的次数。可选参数为在字符串搜索的开始与结束位置。

示例:

>>> a = [-1, 3, 'aa', 85] # 定义一个list
>>> a
[-1, 3, 'aa', 85]
>>> del a[0] # 删除第0个元素
>>> a
[3, 'aa', 85]
>>> del a[2:4] # 删除从第2个元素开始,到第4个为止的元素。包括头不包括尾
>>> a
[3, 'aa']
>>> del a # 删除整个list
>>> a
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name 'a' is not defined
>>>

开始构造第一个基础的决策树

(一):得到决策树(字典的表示形式)的代码:

def majorityCnt(classList):#得到出现次数最多的分类名称(投票表决代码)
    classCount={}
    for vote in classList:
        if vote not in classCount.keys():classCount[vote]=0
        classCount[vote]+=1
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]
def createTree(dataSet,labels):#**构造的决策树**
    classList = [example[-1] for example in dataSet]#得到数据集的所有类标签,列表解析详见前一节
    if classList.count(classList[0]) == len(classList):#Python count() 方法用于统计字符串里某个字符出现的次数。可选参数为在字符串搜索的开始与结束位置。
        return classList[0]
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)#分离出最适合的那个属性
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel:{}}#创建一个嵌套有属性bestFeatLabel的字典,bestFeatLabel:{}后的字典内嵌套的是 myTree[bestFeatLabel][value](递归得到的字典)
    # 或者是上面两个if语句结束时return的myTree[bestFeatLabel][value])的值majorityCnt(classList)或classList[0]
    del(labels[bestFeat])#删除已经选择出来的属性标签
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)#得到属性的各种取值(所得元素不重复)
    for value in uniqueVals:
        subLabels = labels[:]#在python中函数参数是列表类型时,参数是按照引用的方式传递,可防止改变原始列表的内容
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet,bestFeat,value),subLabels)
    return myTree
#测试代码:
def createDataSet():
    dataSet = [[1,1,0,'maybe'],
               [1, 1,0,'yes'],
               [1, 1, 1,'yes'],
               [1,0,1,'maybe'],
               [0,1,0,'no'],
               [0,1,0,'no']]
    labels = ['no surfacing','flippers','maybe']
    return dataSet,labels
import CreateDataSet
import trees
myDat,labels=CreateDataSet.createDataSet()
myTree = trees.createTree(myDat,labels)
print(myTree)
#结果:{'no surfacing': {0: 'no', 1: {'flippers': {0: 'maybe', 1: {'maybe': {0: 'maybe', 1: 'yes'}}}}}}

(二)绘制树形图的代码(由于代码仅是依照上述的字典绘制,这里就不再占用过多的空间):

中间可能会遇到的一些问题:主要是Python2.x与3.x的差别导致的:

firstStr = myTree.keys()[0]

#Clearly you’re passing in d.keys() to your shuffle function.

# Probably this was written with python2.x (when d.keys() returned a list). With python3.x, d.keys() returns a dict_keys object which behaves a lot more like a set than a list.

# As such, it can’t be indexed.

#The solution is to pass list(d.keys()) (or simply list(d)) to shuffle.

或者中文可以参照这位csdn的:firstStr = myTree.keys()[0]

(三)测试算法,使用决策树:

def classify(inputTree, featLabels, testVec):
    firstStr = list(inputTree.keys())#得到节点所代表的属性eg:'flippers'
    firstStr = firstStr[0]
    secondDict = inputTree[firstStr]#得到该节点的子节点,是一个dict,eg:{0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}
    featIndex = featLabels.index(firstStr)#得到firstStr在所给的featLabels(属性)中的位置,以便将testVec中的值与相应的属性对应
    for key in secondDict.keys():#将testVec中的值放入决策树中进行判断
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__=='dict':#如果还有子节点则继续判断
                classLabel = classify(secondDict[key],featLabels,testVec)
            else: classLabel = secondDict[key]#否则返回该节点的值
    return classLabel

(四)决策树的存储与读取:

此处主要遇到的问题是pickle的问题

Pickle文件是二进制数据文件,因此必须使用’rb’模式打开文件,’wb’模式写入文件,而不是使用文本模式。

def storeTree(inputTree,filename):
    import pickle
    fw = open(filename,'wb')#Pickle files are binary data files, so you always have to open the file with the 'wb' mode when writing. Don't try to use a text mode here.
    pickle.dump(inputTree,fw)
    fw.close()
def grabTree(filename):
    import pickle
    fr = open(filename,'rb')#Pickle files are binary data files, so you always have to open the file with the 'rb' mode when loading. Don't try to use a text mode here.
    return pickle.load(fr)• 1
• 2
• 3
• 4
• 5
• 6
• 7
• 8
• 9
• 10

AIEarth是一个由众多领域内专家博主共同打造的学术平台,旨在建设一个拥抱智慧未来的学术殿堂!【平台地址:https://devpress.csdn.net/aiearth】 很高兴认识你!加入我们共同进步!

目录
相关文章
|
3月前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
2月前
|
测试技术 数据库 Python
Python装饰器实战:打造高效性能计时工具
在数据分析中,处理大规模数据时,分析代码性能至关重要。本文介绍如何使用Python装饰器实现性能计时工具,在不改变现有代码的基础上,方便快速地测试函数执行时间。该方法具有侵入性小、复用性强、灵活度高等优点,有助于快速发现性能瓶颈并优化代码。通过设置循环次数参数,可以更准确地评估函数的平均执行时间,提升开发效率。
114 61
Python装饰器实战:打造高效性能计时工具
|
1天前
|
关系型数据库 数据库 数据安全/隐私保护
云数据库实战:基于阿里云RDS的Python应用开发与优化
在互联网时代,数据驱动的应用已成为企业竞争力的核心。阿里云RDS为开发者提供稳定高效的数据库托管服务,支持多种数据库引擎,具备自动化管理、高可用性和弹性扩展等优势。本文通过Python应用案例,从零开始搭建基于阿里云RDS的数据库应用,详细演示连接、CRUD操作及性能优化与安全管理实践,帮助读者快速上手并提升应用性能。
|
14天前
|
存储 数据采集 数据库
Python爬虫实战:股票分时数据抓取与存储
Python爬虫实战:股票分时数据抓取与存储
|
2月前
|
运维 Shell 数据库
Python执行Shell命令并获取结果:深入解析与实战
通过以上内容,开发者可以在实际项目中灵活应用Python执行Shell命令,实现各种自动化任务,提高开发和运维效率。
68 20
|
3月前
|
小程序 开发者 Python
探索Python编程:从基础到实战
本文将引导你走进Python编程的世界,从基础语法开始,逐步深入到实战项目。我们将一起探讨如何在编程中发挥创意,解决问题,并分享一些实用的技巧和心得。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你提供有价值的参考。让我们一起开启Python编程的探索之旅吧!
71 10
|
3月前
|
数据采集 存储 XML
python实战——使用代理IP批量获取手机类电商数据
本文介绍了如何使用代理IP批量获取华为荣耀Magic7 Pro手机在电商网站的商品数据,包括名称、价格、销量和用户评价等。通过Python实现自动化采集,并存储到本地文件中。使用青果网络的代理IP服务,可以提高数据采集的安全性和效率,确保数据的多样性和准确性。文中详细描述了准备工作、API鉴权、代理授权及获取接口的过程,并提供了代码示例,帮助读者快速上手。手机数据来源为京东(item.jd.com),代理IP资源来自青果网络(qg.net)。
|
10月前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习】K-Means对文本聚类和半环形数据聚类实战(附源码和数据集)
【Python机器学习】K-Means对文本聚类和半环形数据聚类实战(附源码和数据集)
248 0
|
5月前
|
机器学习/深度学习 算法 数据挖掘
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧1
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧
91 5
|
5月前
|
机器学习/深度学习 数据采集 分布式计算
【Python篇】深入机器学习核心:XGBoost 从入门到实战
【Python篇】深入机器学习核心:XGBoost 从入门到实战
385 3

热门文章

最新文章