机器学习系列(9)_决策树详解01(上)

简介: 监督学习指:从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。

一、种类介绍



1、监督学习


监督学习指:从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。


监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。


监督学习就是最常见的分类问题,通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统(模型)。


在监督学习中,提供给算法的包含所需解决方案的训练数据,称为标签或标记。


监督学习是包含自变量和因变量(有Y),同时可以用于分类和回归。下来常见的算法都是监督学习算法。


1、K近邻算法(KNN)

2、线性回归

3、logistic回归

4、支持向量机(SVM)

5、决策树和随机森林

6、神经网络

image.png



2、非监督学习


非监督学习:输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类试图使类内差距最小化,类间差距最大化。


非监督学习目标不是告诉计算机怎么做,而是让它自己去学习怎样做事情。


无监督学习的方法分为两大类:


(1) 一类为基于概率密度函数估计的直接方法:指设法找到各类别在特征空间的分布参数,再进行分类。


(2) 另一类是称为基于样本间相似性度量的简洁聚类方法:其原理是设法定出不同类别的核心或初始内核,然后依据样本与核心之间的相似性度量将样本聚集成不同的类别。


聚类算法

K均值算法(K-means)

基于密度的聚类方法(DBSCAN)

最大期望算法

可视化和降维

主成分分析

核主成分分析

关联规则学习(啤酒和尿布)

Apriori

Eclat

有监督学习和无监督学习的区别:


有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而非监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。


有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而非监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不予以某种预先分类标签对上号为目的。


非监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。


有训练样本则考虑采用监督学习方法;无训练样本,则一定不能用监督学习方法。


3、半监督学习


半监督学习:将大量的无类标签的样例加入到少量的有类标签的样本中一起训练来进行学习,期望能对学习性能起到改进的作用,由此产生了半监督学习。半监督学习避免了数据和资源的浪费,同时解决了监督学习的模型泛化能力不强和无监督学习的模型不精确等问题。


如照片识别就是很好的例子。在线相册可以指定识别同一个人的照片(无监督学习),当你把这些同一个人增加一个标签的后,新的有同一个人的照片就自动帮你加上标签了。


4、强化学习


强化学习是一个非常与众不同的算法,它的学习系统能够观测环境,做出选择,执行操作并获得回报,或者是以负面回报的形式获得惩罚。它必须自行学习什么是最好的策略,从而随着时间推移获得最大的回报。


强化学习是一个非常与众不同的算法,它的学习系统能够观测环境,做出选择,执行操作并获得回报,或者是以负面回报的形式获得惩罚。它必须自行学习什么是最好的策略,从而随着时间推移获得最大的回报。

image.png


二、决策树



决策树(Desicion Tree)


是一种非参数的有监督的学习方法,它能够从一系列有特征和标签的数据当中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。

决策树的算法适用于各种数据(不一定非要数据型的),在解决各种问题时都有良好的表现,尤其是以树模型为核心的各种集成算法,在各个领域都有广泛应用。

决策树算法的本质是一种图结构,只需要问一系列问题就可以对数据进行分类。

节点:

4. 根节点:没有进边,只有出边,包含最初的,针对特征的提问。

5. 中间节点:既有进边也有出边,进边只有一条,出边可以很多条,都是针对特征的提问。

6. 叶子节点:有进边,无出边,每个叶子节点都是一个类别标签。

7. 子节点与父节点:两个相连的节点当中,更接近根节点的是父节点,另一个是子节点。


关键问题:

8. 找出最佳节点和分支

9. 如何让决策树适时停止生长,防止过拟合


对比:在图数据库当中,每个节点都是平等的,没有所谓的根节点的概念。


接下来看一个小例子来了解一下节点:

graph={
    'A':['B','C'],
    'B':['A','C','D'],
    'C':['A','B','D','E'],
    'D':['B','C','E','F'],
    'E':['C','D'],
    'F':['D']
}

9accfce259f449eb90ceba02e2367869.pnge1d7c4abc98a4fbb968f232e156a6253.png

def BFS(graph,s):#graph图  s指的是开始结点
    #需要一个队列
    queue=[]
    queue.append(s)
    seen=set()#看是否访问过该结点
    seen.add(s)
    while (len(queue)>0):
        vertex=queue.pop(0)#保存第一结点,并弹出,方便把他下面的子节点接入
        nodes=graph[vertex]#子节点的数组
        for w in nodes:
            if w not in seen:#判断是否访问过,使用一个数组
                queue.append(w)
                seen.add(w)
        print(vertex)
def DFS(graph,s):#图  s指的是开始结点
    #需要一个队列
    stack=[]
    stack.append(s)
    seen=set()#看是否访问过
    seen.add(s)
    while (len(stack)>0):
        #拿出邻接点
        vertex=stack.pop()#这里pop参数没有0了,最后一个元素
        nodes=graph[vertex]
        for w in nodes:
            if w not in seen:#如何判断是否访问过,使用一个数组
                stack.append(w)
                seen.add(w)
        print(vertex)
def DFS_2(graph, s):  # graph是图,s是开始结点
    stack = []        # 栈
    stack.append(s)   # 开始结点入栈
    v = set()
    v.add(s)          # 无序添加
    # print(s, end=' ')
    flag = 0          # 标记
    while len(stack) > 0:       # 栈非空
        flag = 0
        vertex = stack[-1]      # 查看尾元素
        nodes = graph[vertex]   # 访问结点相连的结点列表
        for w in nodes:
            if w not in v:
                stack.append(w) # 未被访问的相连的下一个结点入栈
                v.add(w)        # 标记已访问
                flag = 1        # 存在未被访问的相连结点
                # print(w, end=' ')
                print(vertex + '->' + w)
                break
        if flag == 0:           # 不存在未被访问的相连结点,回溯
            stack.pop()

以节点‘E’为例子,来说明定义的三个函数的例子:


b3a259a9db20456b82d32704341e053e.png


e32c4fabc7bf497587e243cea050acd4.png


655ecde1132a40d09bd8551917ab3ae0.pngcda90c7f24b847cbb4f29f7e5462e655.png

三、红酒数据


1、导入需要的算法和模块

from sklearn import tree
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split  #训练集与测试集分割

2、探索数据

wine=load_wine()
wine.target
wine.data
import pandas as pd
pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1)

2fb9dba9eb504d48addaa2568406cea0.png


3、划分训练集和测试集


from sklearn.model_selection import train_test_split
# 利用红酒代码
Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine.target,test_size=0.3) 
# 30%作为测试集,且这里参数的顺序不要改变,系统会自动进行训练集和测试集的划分

44fabb7adca1413a83f08283b9461353.png

wine.feature_names # 特征名称
wine.target_names # 标签名称

19f2e536f00d44ce8f216fd2e3588266.png


4、建立模型


最佳节点和最佳分枝方法衡量指标:不纯度。不纯度越低,最训练集的拟合越好。决策树有不同的算法:


Criterion这个参数正是用来决定不纯度计算方法的。sklearn提供了两张选择:

【1】输入“entropy”,使用信息熵

【2】输入“gini”,使用基尼系数

【3】信息增益:Information Gain=父节点信息熵-子节点信息熵

【4】信息增益率


三步骤:


实例化

拟合

成绩单(正确率)

使用信息熵参数:

clf = tree.DecisionTreeClassifier(criterion="entropy")   # 信息熵 # 实例化
clf = clf.fit(Xtrain, Ytrain)  # 训练模型
score = clf.score(Xtest, Ytest) # 返回预测的准确度 accuracy

使用基尼系数参数:

clf = tree.DecisionTreeClassifier(criterion="gini")   # 基尼系数
clf = clf.fit(Xtrain, Ytrain)  
score = clf.score(Xtest, Ytest)

6a4155ce3a1548bb895cb8a9703be377.png

画图绘制决策树:

%matplotlib inline
import numpy as np
import pandas as pd
from scipy import stats, integrate
import seaborn as sns
import matplotlib.pyplot as plt
# seaborn中文乱码解决方案
from matplotlib.font_manager import FontProperties
myfont=FontProperties(fname=r'C:\Windows\Fonts\simhei.ttf',size=20)
sns.set(font=myfont.get_name(), color_codes=True)
feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸'] #13个特征都使用了吗?
import graphviz
dot_data = tree.export_graphviz(clf 
#                                 ,out_file="Tree.dot"
                                ,feature_names = feature_name
                                ,class_names=["1","2","3"]  #三分类
                                ,filled=True
                                ,rounded=True
#                                 ,font_name="KaiTi"
                               ) 
graph = graphviz.Source(dot_data)
graph

利用python的graphviz直接得到决策树:

5496f925a7c040bc967870c4a915c2f6.png

import graphviz
dot_data = tree.export_graphviz(clf 
#                                 ,out_file="Tree.dot"
                                ,feature_names = wine.feature_names# feature_name
                                ,class_names=["1","2","3"]  #三分类
                                ,filled=True
                                ,rounded=True
#                                 ,font_name="KaiTi"
                               ) 
graph = graphviz.Source(dot_data)
graph

031a592b297b4a6a8a12fab9e075fe91.png

5、探索决策树


clf.feature_importances_
• 1

显示重要程度:

[*zip(feature_name,clf.feature_importances_)]
• 1
ee67c9fc46774688bc6e0decaea5762b.png
clf = tree.DecisionTreeClassifier(criterion="entropy"
                                    ,random_state=3 
# 当数据很少时,random_state只能为None,所有都要当成重要的
                                    ,splitter="random"  
                                    )
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest)
score


四、绘制决策树参数



random_state:用来设置分枝中的随机模式的参数,默认为None,在高维度时随机性会表现的更明显,低纬度数据(如:鸢尾花数据集),随机性几乎不会显现。输入任意整数,会一直长出同一颗树,让模型稳定下来。

splitter:也是用来控制决策树当中的随机选项的,有两种输入值。

输入best:决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_来查看)。

输入random:决策树在分枝时会更加随机,树会因为含有更多的不必要信息而更深更大,并因为这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合,用这两个参数来帮助降低树建成之后的过拟合可能性。

filled=True :填充颜色

rounded=True:决策树图形变成圆角矩形


62d4fabd0ff8444e913d9c7148803d59.png7c7be32e28bc4fde90a27daf22c25687.png


五、剪枝参数调优


(1)max_depth


限制树的最大深度,超过设定深度的树枝全部剪掉。


通过限制深度来限制过拟合。


这是用得最广泛的剪枝参数,在高维度低样本量时非常有效。决策树多生长一层,对样本量的需求会增加一倍,所以限制树深度能够有效地限制过拟合。在集成算法中也非常实用。实际使用时,建议从=3开始尝试,看看拟合的效果再决定是否增加设定深度。


(2)min_samples_leaf & min_samples_split


min_samples_leaf:一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分枝就不会发生,或者,分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生


一般搭配max_depth使用,在回归树中有神奇的效果,可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合,设置得太大就会阻止模型学习数据。一般来说,建议从=5开始使用。如果叶节点中含有的样本量变化很大,建议输入浮点数作为样本量的百分比来使用。同时,这个参数可以保证每个叶子的最小尺寸,可以在回归问题中避免低方差,过拟合的叶子节点出现。对于类别不多的分类问题,=1通常就是最佳选择。


min_samples_split限定,一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则分枝就不会发生。


(3)max_features& min_impurity_decrease


一般max_depth使用,用作树的”精修“


max_features限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃。和max_depth异曲同工


max_features是用来限制高维度数据的过拟合的剪枝参数,但其方法比较暴力,是直接限制可以使用的特征数量而强行使决策树停下的参数,在不知道决策树中的各个特征的重要性的情况下,强行设定这个参数可能会导致模型学习不足。如果希望通过降维的方式防止过拟合,建议使用PCA,ICA或者特征选择模块中的降维算法。


min_impurity_decrease限制信息增益(父子节点之间的信息熵之差)的大小,信息增益小于设定数值的分枝不会发生。这是在0.19版本中更新的功能,在0.19版本之前时使用min_impurity_split。

clf = tree.DecisionTreeClassifier(criterion="entropy"
                                    ,random_state=30
                                    ,splitter="random"
                                    ,max_depth=6
#                                    ,min_samples_leaf=10 
#                                    ,min_samples_split=25
                                    )
clf = clf.fit(Xtrain, Ytrain)
dot_data = tree.export_graphviz(clf
                                ,feature_names= feature_name
                                ,class_names=["琴酒","雪莉","贝尔摩德"]
                                ,filled=True
                                ,rounded=True
                                )
graph = graphviz.Source(dot_data)
graph

【1】这里选择最大深度为6,max_depth=6

【2】注意此代码的规范化写法:将逗号写在前面,这样当需要注释参数的时候,就可以直接注释,而不用担心逗号不匹配的问题了

【3】得到的结果如下图,此时决策树有6层

image.png


此时的得分:

score=clf.score(Xtest,Ytest)
score
Xtrain.shape

c3c22764a83e42618a21d57e0cd164ed.png

# 修枝 
clf = tree.DecisionTreeClassifier(criterion="gini"
                                  ,random_state=30
                                  ,splitter="random"
                                  ,max_depth=6 #最大层数不超过6层
                                  ,min_samples_leaf=10 # 表示叶子节点的样本数必须》=10
                                 ,min_samples_split=25 # 表示如果样本小于25就不在继续分枝下去
                                    )
clf = clf.fit(Xtrain, Ytrain)
dot_data = tree.export_graphviz(clf
                                ,feature_names= feature_name
                                ,class_names=["琴酒","雪莉","贝尔摩德"]
                                ,filled=True
                                ,rounded=True
                                )
graph = graphviz.Source(dot_data)
graph

94d02bb7919e4ed79589454e13562901.png

修改参数之后发现正确率下降了


e0f2bd6fbe00489096d192bc8c191fb4.png


相关文章
|
3月前
|
机器学习/深度学习 存储 算法
决策树和随机森林在机器学习中的应用
在机器学习领域,决策树(Decision Tree)和随机森林(Random Forest)是两种非常流行且强大的分类和回归算法。它们通过模拟人类决策过程,将复杂的数据集分割成易于理解和处理的子集,从而实现对新数据的准确预测。
131 10
|
8天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
78 15
|
1月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
129 1
|
3月前
|
机器学习/深度学习 数据采集 监控
探索机器学习:从数据到决策
【9月更文挑战第18天】在这篇文章中,我们将一起踏上一段激动人心的旅程,穿越机器学习的世界。我们将探讨如何通过收集和处理数据,利用算法的力量来预测未来的趋势,并做出更加明智的决策。无论你是初学者还是有经验的开发者,这篇文章都将为你提供新的视角和思考方式。
|
3月前
|
机器学习/深度学习 算法 Python
从菜鸟到大师:一棵决策树如何引领你的Python机器学习之旅
【9月更文挑战第9天】在数据科学领域,机器学习如同璀璨明珠,吸引无数探索者。尤其对于新手而言,纷繁复杂的算法常让人感到迷茫。本文将以决策树为切入点,带您从Python机器学习的新手逐步成长为高手。决策树以其直观易懂的特点成为入门利器。通过构建决策树分类器并应用到鸢尾花数据集上,我们展示了其基本用法及效果。掌握决策树后,还需深入理解其工作原理,调整参数,并探索集成学习方法,最终将所学应用于实际问题解决中,不断提升技能。愿这棵智慧之树助您成为独当一面的大师。
52 3
|
3月前
|
机器学习/深度学习 算法 Python
决策树下的智慧果实:Python机器学习实战,轻松摘取数据洞察的果实
【9月更文挑战第7天】当我们身处数据海洋,如何提炼出有价值的洞察?决策树作为一种直观且强大的机器学习算法,宛如智慧之树,引领我们在繁复的数据中找到答案。通过Python的scikit-learn库,我们可以轻松实现决策树模型,对数据进行分类或回归分析。本教程将带领大家从零开始,通过实际案例掌握决策树的原理与应用,探索数据中的秘密。
56 1
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【白话机器学习】算法理论+实战之决策树
【白话机器学习】算法理论+实战之决策树
|
4月前
|
机器学习/深度学习 算法 自动驾驶
揭秘机器学习模型的决策之道
【8月更文挑战第22天】本文将深入浅出地探讨机器学习模型如何从数据中学习并做出预测。我们将一起探索模型背后的数学原理,了解它们是如何被训练以及如何对新数据进行预测的。文章旨在为初学者提供一个清晰的机器学习过程概述,并启发读者思考如何在自己的项目中应用这些技术。
|
4月前
|
机器学习/深度学习 算法 搜索推荐
基于机器学习的用户行为分析:深入洞察与精准决策
【8月更文挑战第3天】基于机器学习的用户行为分析为企业提供了深入了解用户需求、优化产品设计和制定精准营销策略的有力工具。随着人工智能和大数据技术的不断发展,用户行为分析将更加智能化和个性化。未来,我们可以期待更加高效、精准的机器学习算法和模型的出现,以及更多创新性的应用场景的拓展。同时,也需要关注数据隐私和安全性问题,确保用户数据的安全和合规使用。
|
4月前
|
机器学习/深度学习 算法 Python
决策树下的智慧果实:Python机器学习实战,轻松摘取数据洞察的果实
【8月更文挑战第3天】在数据的海洋中探寻真知,决策树犹如智慧之树,以其直观易懂的强大功能,引领我们逐步缩小决策范围,轻松获取数据洞察。本篇将带您踏上Python机器学习之旅,从理解决策树为何受青睐开始,通过scikit-learn库实现鸢尾花数据集分类,解析其决策机制,并掌握调参技巧,最终优化模型性能,共同摘取数据科学的甜美果实。
56 1