Python机器学习——决策树

简介: Python机器学习——决策树

1、概念

决策树(DEcision Tree)

他通过对训练样本的学习,并建立分类规则,对新样本数据进行分类,属于有监督学习

决策树也是一种多功能的机器学习算法,它可以

实现分类和回归任务,甚至是多输出任务。

优点:

决策树易于理解和实现

决策树可处理数值型和非数值型数据

2 决策树生成方法

dtModel=DecisionTreeClassifier(max_leaf_nodes=None)

max_leaf_nodes 最大的叶子节点

训练模型

dtMOdel.fit(featureData,targetData)

featuereData 属性数据

targetData 目标数据

dtModel.Predict(featureData)

3、决策树绘图方法

sKlearn.tree.export_graphviz(…)

dtModel 决策树模型

out_file 图形数据的输出路径

class_names 目标属性名称,中文

feature_names 特征属性名称 中文

filled=Ture 是否使用颜色填充

rounded=TRUE 边框是否采用圆角边框

special_characters 是否有特殊字符

4、案例代码示例

升学意愿调查——

列 备注

studentID 学生ID

GEnder 性别

ParentIncome 父母亲收入

IQ IQ

parentEncouragement 父母亲是否鼓励

ColegePlans 是否打算上大学

目的: 想换出决策树的图形,用于指导人员判断某个学生是否具有升学意愿

```python
import pandas;
data = pandas.read_csv('D:\\DATA\\pycase\\number2\\5.3\\data.csv')
# 将虚拟变量转换为数值变量,在这里有性别和是否推荐升学
dummyColumns=["Gender","ParentEncouragement"]
for column in dummyColumns:
    data[column]=data[column].astype('category')
dummiesData=pandas.get_dummies(
        data,
        columns=dummyColumns,
        prefix=dummyColumns,
        prefix_sep="=",
        drop_first=True
        )
# 列表展示
dummiesData.columns
# 挑选出可以建模的列
fData=dummiesData[[
        'ParentIncome','IQ','Gender=Male',
        'ParentEncouragement=Not Encouraged'
        ]]
# 挑选出目标变量
tData=dummiesData['CollegePlans']
# 导入决策树方法
from sklearn.tree import DecisionTreeClassifier
# 设置叶子节点的数据为8,太大的话会导致过拟合,8表示的是叶子最下端的叶子数量
dtModel=DecisionTreeClassifier(max_leaf_nodes=8)
# 导入十折交叉验证方法,得出模型的最终分数
from sklearn.model_selection import cross_val_score
cross_val_score(
        dtModel,
        fData,
        tData,
        cv=10
        )
# 进行模型的训练
dtModel.fit(fData,tData)
from sklearn.tree import export_graphviz
# 需要绘图的dot文件
with open('D:\\DATA\\pycase\\number2\\5.3\\data.dot','w') as f:
    f=export_graphviz(dtModel,out_file=f)
# 在cmd客户端进行dote命令绘图,切换到dot文件路径
# dot -Tpng data.dot -o loan_tree.png #png
# dot -Tpdf data.dot -o loan_tree.pdf
# 通过pypdot进行运行和绘制
import pydot
from sklearn.externals.six import StringIO
dot_data=StringIO()
export_graphviz(
        dtModel,
        out_file=dot_data,
        class_names=["不计划","计划"],
        feature_names=["父母收入","智商","性别=男","父母鼓励=不鼓励"],
        filled=True,
        rounded=True,
        special_characters=True
        )
# 将dot_data 转换为图形变量
graph=pydot.graph_from_dot_data(dot_data.getvalue())
#设置字体格式
graph.get_node("node")[0].set_fontname("Microsoft YaHei")
# 导出图片
graph.write_png('D:\\DATA\\pycase\\number2\\5.3\\tree.png')
原文链接:https://blog.csdn.net/qq_36327687/article/details/84944850


目录
相关文章
|
15天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
100 15
|
2月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
151 1
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
2月前
|
数据采集 数据可视化 数据挖掘
掌握Python数据分析,解锁数据驱动的决策能力
掌握Python数据分析,解锁数据驱动的决策能力
|
2月前
|
机器学习/深度学习 数据可视化 数据处理
掌握Python数据科学基础——从数据处理到机器学习
掌握Python数据科学基础——从数据处理到机器学习
47 0
|
2月前
|
机器学习/深度学习 数据采集 人工智能
机器学习入门:Python与scikit-learn实战
机器学习入门:Python与scikit-learn实战
72 0
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
Python在数据科学中的应用:从数据处理到模型训练
Python在数据科学中的应用:从数据处理到模型训练
|
1月前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!