机器学习 - [源码实现决策树小专题]决策树学习中如何进行分类预测

简介: 本文介绍 决策树学习中如何进行分类预测,并使用 Python 语言实现

机器学习 - 决策树学习中如何进行分类预测


李俊才 的个人博客
邮箱 :291148484@163.com
本文地址
- https://developer.aliyun.com/article/
- https://blog.csdn.net/qq_28550263/article/details/114995553



目 录


1. 决策树建树回顾

2. 实现决策树分类预测的思路

3. 使用递归查询编程实现分类

4. 寻找预剪枝最佳参数


1. 决策树建树回顾

在阅读本文之前,你应该掌握如何去建立一颗决策树。由于不同的决策树存储结构算法的实现细节上存在一定的差异,因此本文源代码实现对决策树的索引是基于我之前的一篇博文【决策树如何分裂以扩展节点】中所建立的决策树而实现的。

通过该博文我给出的源码运行后可以得到类似于这样一颗决策树:

# 训练参数:{features=features, max_depth=3, min_samples_split=1000, impurity_t='entropy',selector_t = 'majority_label'}
{
    'depth': 1,                                  # 这里是根节点,深度为1
    'the_best_feature': 'blueTowersDestroyed',   # 节点对应选出的最佳特征
    'bestfeature_values': [0, 1, 2, 3, 4],       # 最佳特征的所有取值,也就是'branchs'列表中的分支
    'samples': 7903,                             # 当前节点处剩余的样本数,根节点处的样本数即测试数据集初始样本数
    'label': 0,                                  # 节点提前结束分裂(剪枝)时则作为叶节点将使用的标签
    'branchs': [                                 # 分支列表,列表中的每个元素都是一个子节点
            {
                # 根节点的第 1 个子节点
                'branch': 0,                                  # 作为子节点来子父节点的分支(父节点最佳特征的一个取值)
                'depth': 2, 
                'the_best_feature': 'redTowersDestroyed',     # 最佳特征
                'bestfeature_values': [0, 1, 2],              # 最佳特征的所有取值(所有分支名)
                'samples': 7533,                              # 节点处剩余样本数
                'label': 0,                                   # 节点提前结束分裂(剪枝)时则作为叶节点将使用的标签
                'branchs': [                                  # 分支列表,列表中的每个元素都是一个子节点
                        {
                            'branch': 0, 
                            'depth': 3, 
                            'the_best_feature': 'brTotalGold', 
                            'bestfeature_values': [0, 1, 2, 3, 4], 
                            'samples': 7231, 
                            'label': 0
                        }, 
                        {
                            'branch': 1, 
                            'depth': 3, 
                            'the_best_feature': 'brTotalGold', 
                            'bestfeature_values': [0, 1, 2, 3, 4], 
                            'samples': 279, 
                            'label': 0
                        }, 
                        {
                            'branch': 2, 
                            'depth': 3, 
                            'the_best_feature': 'brTotalGold', 
                            'brTotalGold', 
                            'bestfeature_values': [0, 1], 
                            'samples': 23, 
                            'label': 0
                        }
                ]
            }, 
            {
                # 根节点的第 2 个子节点
                'branch': 1, 
                'depth': 2, 
                'the_best_feature': 'redTowersDestroyed', 
                'bestfeature_values': [0, 1, 2], 
                'samples': 340, 
                'label': 1
            }, 
            {
                # 根节点的第 3 个子节点
                'branch': 2, 
                'depth': 2, 
                'the_best_feature': 'redHeralds', 
                'bestfeature_values': [0, 1], 
                'samples': 23, 'label': 1
            }, 
            {
                # 根节点的第 4 个子节点
                'branch': 3, 
                'depth': 2, 
                'the_best_feature': 'blueWardsPlaced', 
                'bestfeature_values': [0, 1, 4], 
                'samples': 6, 
                'label': 1
            }, 
            {
                # 根节点的第 5 个子节点
                'branch': 4, 
                'depth': 2, 
                'the_best_feature': 'blueWardsPlaced', 
                'bestfeature_values': [1], 
                'samples': 1, 
                'label': 1
            }
    ]
}

为了帮助读者理解,我绘制了该决策树的图形结构示意:

可以看到,在一颗树中节点的本质属性是作为父亲的分支。也就是父节点在依据最佳特征不同的特征值分支后,不同分支再次划分数据集的时候也可以选相同的最佳特征,毕竟同一次分支后的子数据集中拥有的特征类型都是一样的。

该树最简单的样子是这样(但是我们并没有记录成这样而是保留了更多信息,为以后可能的剪枝策略提供数据支持):

[                # root
    [0,1,2],     # root的分支1
    2,           # root的分支2
    3,           # root的分支3
    4            # root的分支4
]

即:

2. 实现决策树分类预测的思路

2.1 单条数据的预测

★ 先假设有一种情况:

建立决策树没有进行过任何剪枝,并且在每一次分裂中都训练到节点数据集中的所有标签恰好都能一致(只剩下最后一种标签)时。给定一条"测试集"数据并在再次恰好时在训练集中学到过的数据,分类器该如何给出这条数据的标签?

2.2 在数据集上做预测

在数据集上做预测,这个数据集在我们的实验项目里也就是所谓的“测试集”,在测试集上做预测的目的是评估我们模型性能的好坏。而在实践项目里就是所谓的未知数据,从哲学上看是将我们的模型用于改造世界的过程。

计算机思维,就是所有事情都要一步一步地来实现,正如古语所云:天下大事必作于细。数据的预测也是如此,在某个数据集上进行预测,本质就是对数据集中的每一条数据逐一预测并依次记录下预测结果。

def predict(tree, test_datas):
    '''
    预测测试集中数据标签
    使用它调用predict_one()对训练集中的每一条数据一次预测获取预测结果
    Parameters
    ----------
    tree:          基于字典的树形结构的一组数据,是我们训练好的决策树
    test_datas:    测试数据集,包含多条待预测分类标签的数据。
    '''
    test_datas = np.array([test_datas]) if len(test_datas.shape) == 1 else test_datas
    predict_list = []                     # 训练结果容器
    # 对每一条数据依次调用predict_one()方法预测并以及将结果装入训练结果容器
    for one_test_data in test_datas:
        one_pre_value = predict_one(tree, one_test_data)     # 计算出一条数据的预测标签
        predict_list.append(one_pre_value)                       # 将这一条数据的预测标签插入预测标签列表predict_list中
    return np.array(predict_list)

3. 使用递归查询编程实现分类

class ClassificationTree(object):
    ... # 上面的内容请在关联博文中阅读,请尝试文中博文链接
    def predict_one(self, tree, one_test_data):
        """
        预测测试集中的一条数据
        这个过程实际上就是基于节点的递归查询过程,在某个节点:
        是否有分支:
            - 有分支:必为非叶子节点:
                          使用测试集该节点对应的特征名索引出测试特征值,决定接下来查询的分支:
                                如测试数据的特征值在分支列表中,进入特征值决定的分支,递归以上过程。
                                如测试数据的特征值不在分支列表中,说明是训练时没有遇到过的新情况:
                                      可以用投票器投出一个标签:即可以按照该节点数据集的标签集各标签占比投票一个,
                                                                也可以直接选该节点标签集中出现次数最多的标签作为投票结果。
            - 无分支:必为叶子节点:
                          返回叶子节点处的标签值为预测结果。
        Parameters
        ----------
        tree:           递归过程中的树(除了根节点是原决策树,其它的节点都是其子树);
        one_test_data:  单条测试数据,本质是单条数据各个特征的取值。
        Returns
        -------
        label,           str 或 int、float等,为一条数据的标签
        """
        # 先将测试的这单条数据与原始的特征名依次组合成字典以待查询
        onetestdata_dict = dict(zip(self.features,list(one_test_data)))
        the_best_feature = tree.get('the_best_feature')   # 当前的节点(特征名)
        branchs = tree.get('branchs')                     # 当前特征节点下树的所有分支,是一个包含分支的列表
        if branchs == None:           # 没有分支时,时叶子节点
            return tree.get('label')  # 返回叶子节点处的标签
        else:                         # 否则是非叶子节点
            node_values = tree['bestfeature_values']                # 获取该非叶子节点所有分支值
            feature_value = onetestdata_dict.get(the_best_feature)  # 这条数据中当前特征对应的标签值
            if feature_value not in node_values:   # 这条来自测试集的特征值没有在训练时出现过(未学习到的样本)
                return tree.get('label')           # 不得不终止递归预测,返回本节点处的预测标签
            else:                                  # 仍然在学习到的分支中
                for i in range(len(branchs)):
                    if branchs[i].get('branch') == feature_value:
                        subtree = branchs[i]                                  # 进入该分支(获取子节点)
                        return self.predict_one(subtree, one_features_data)   # 递归预测之
    def predict(self, test_datas):
        assert len(test_datas.shape) == 1 or len(test_datas.shape) == 2 # 只能是1维或2维
        '''
        预测测试集中数据标签
        使用它调用self.predict_one()对训练集中的每一条数据一次预测获取预测结果
        '''
        if len(test_datas.shape) == 1: 
            test_datas= np.array([test_datas])
        tree = self.tree                      # 准备决策树
        predict_list = []                     # 训练结果容器
        # 对每一条数据依次调用predict_one()方法预测并以及将结果装入训练结果容器
        for one_features_data in test_datas:
            one_pre_value = self.predict_one(tree, one_features_data)   # 计算出一条数据的预测标签
            predict_list.append(one_pre_value)                          # 将这一条数据的预测标签插入预测标签列表predict_list中
        return np.array(predict_list)

4. 寻找预剪枝最佳参数

这是对你的计算机来说可能一个比较麻烦的事情,因为一般我们是通过遍历参数的取值,比较不同取值下在测试集上的预测性能来调整参数的。我们在之前的博文中已经讨论过,在决策树中很多预剪枝参数有一个缺点就是,在进行预测之初是不好确定这些参数到底取哪一个值才能获得最佳性能。既然不好预先确定,自然就只剩下训练后再调整它们的这种方法了。

看起来,我们需要先划定一个参数范围,毕竟每次训练都是要耗费一定的时间成本的,受限于计算机算力,我们难以做到便利无数参数。

# 需要在训练后调整的超参数们和他们的取值
parameters = {
    'impurity_t':['entropy', 'gini'], 
    'max_depth': range(2, 6), 
    'min_samples_split': [100, 200, 400, 500, 800],
    #"selector_t" : ["majority_label","random"],
    #"RANDOM_SEED":[100,500,1000,2000,4000,8000]   # 当 selector_t = random 时还可以测试随机种子对分类的影响
}

接下来,我们需要对所有的参数进行逐个比较,获取性能指标,在指标中取优。

max_acc = 0
max_acc_parameters = None
def one_test(features,max_depth,min_samples_split,impurity_t,selector_t,x_train,y_train,x_test,y_test):
    global max_acc
    global max_acc_parameters
    clt = ClassificationTree(features, max_depth, min_samples_split, impurity_t, selector_t,test=True)
    clt.fit(x_train, y_train)
    p_test = clt.predict(x_test)
    test_acc = accuracy_score(p_test, y_test)
    print("max_depth:",max_depth, "min_samples_split:",min_samples_split, "impurity_t:",impurity_t, "selector_t:",selector_t,"test_acc:",test_acc)
    if test_acc > max_acc:
        max_acc = test_acc
        print("\n>[更新latest_max_acc]:latest_max_acc=",max_acc)
        max_acc_parameters = {"max_depth":max_depth, "min_samples_split":min_samples_split, "impurity_t":impurity_t, "selector_t":selector_t,"test_acc":test_acc}
        print("[更新max_acc_parameters]:",max_acc_parameters)
for impurity_t in parameters["impurity_t"]:
    for max_depth in parameters["max_depth"]:
        for min_samples_split in parameters["min_samples_split"]:
            one_test(features,max_depth,min_samples_split,impurity_t,selector_t=selector_t,x_train=x_train,y_train=y_train,x_test=x_test,y_test=y_test)
            #for selector_t in parameters["selector_t"]:
                #if selector_t == "random":
                    #for RANDOM_SEED in parameters["RANDOM_SEED"]:
                        #one_test(features,max_depth,min_samples_split,impurity_t,selector_t,x_train,y_train,x_test,y_test)
                #else:
                    #one_test(features,max_depth,min_samples_split,impurity_t,selector_t,x_train,y_train,x_test,y_test)
print("\n【最终测试到】:\nMax_Acc=",max_acc,"\nMax_Acc_
目录
相关文章
|
4月前
|
机器学习/深度学习 存储 算法
决策树和随机森林在机器学习中的应用
在机器学习领域,决策树(Decision Tree)和随机森林(Random Forest)是两种非常流行且强大的分类和回归算法。它们通过模拟人类决策过程,将复杂的数据集分割成易于理解和处理的子集,从而实现对新数据的准确预测。
147 10
|
28天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
146 15
|
2月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
195 1
|
4月前
|
机器学习/深度学习 数据采集 监控
探索机器学习:从数据到决策
【9月更文挑战第18天】在这篇文章中,我们将一起踏上一段激动人心的旅程,穿越机器学习的世界。我们将探讨如何通过收集和处理数据,利用算法的力量来预测未来的趋势,并做出更加明智的决策。无论你是初学者还是有经验的开发者,这篇文章都将为你提供新的视角和思考方式。
|
3月前
|
机器学习/深度学习 算法
【机器学习】迅速了解什么是集成学习
【机器学习】迅速了解什么是集成学习
|
4月前
|
机器学习/深度学习 算法 Python
从菜鸟到大师:一棵决策树如何引领你的Python机器学习之旅
【9月更文挑战第9天】在数据科学领域,机器学习如同璀璨明珠,吸引无数探索者。尤其对于新手而言,纷繁复杂的算法常让人感到迷茫。本文将以决策树为切入点,带您从Python机器学习的新手逐步成长为高手。决策树以其直观易懂的特点成为入门利器。通过构建决策树分类器并应用到鸢尾花数据集上,我们展示了其基本用法及效果。掌握决策树后,还需深入理解其工作原理,调整参数,并探索集成学习方法,最终将所学应用于实际问题解决中,不断提升技能。愿这棵智慧之树助您成为独当一面的大师。
56 3
|
4月前
|
机器学习/深度学习 算法 Python
决策树下的智慧果实:Python机器学习实战,轻松摘取数据洞察的果实
【9月更文挑战第7天】当我们身处数据海洋,如何提炼出有价值的洞察?决策树作为一种直观且强大的机器学习算法,宛如智慧之树,引领我们在繁复的数据中找到答案。通过Python的scikit-learn库,我们可以轻松实现决策树模型,对数据进行分类或回归分析。本教程将带领大家从零开始,通过实际案例掌握决策树的原理与应用,探索数据中的秘密。
61 1
|
5月前
|
机器学习/深度学习 算法 数据挖掘
【白话机器学习】算法理论+实战之决策树
【白话机器学习】算法理论+实战之决策树
102 0
|
5月前
|
机器学习/深度学习 算法 自动驾驶
揭秘机器学习模型的决策之道
【8月更文挑战第22天】本文将深入浅出地探讨机器学习模型如何从数据中学习并做出预测。我们将一起探索模型背后的数学原理,了解它们是如何被训练以及如何对新数据进行预测的。文章旨在为初学者提供一个清晰的机器学习过程概述,并启发读者思考如何在自己的项目中应用这些技术。
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】机器学习、深度学习、强化学习和迁移学习简介、相互对比、区别与联系。
机器学习、深度学习、强化学习和迁移学习都是人工智能领域的子领域,它们之间有一定的联系和区别。下面分别对这四个概念进行解析,并给出相互对比、区别与联系以及应用场景案例分析。
238 1