Python3入门机器学习 - 决策树

简介: 信息熵左式的信息熵较高,代表左式的不确定性更强,左式即指数据有三个类别,每个类别占1/3右式的信息熵为0,是信息熵可以达到的最小值,代表数据的不确定性最低,即最确定绘制决策树的决策边界import numpy as npimport matplotlib.

信息熵


img_51e96405a413f4855387d799e60194cf.png

img_6affab1bf952a409a052b2cf71251805.png
左式的信息熵较高,代表左式的不确定性更强,左式即指数据有三个类别,每个类别占1/3

img_0b810efece75b83be3368d5a359ca981.png
右式的信息熵为0,是信息熵可以达到的最小值,代表数据的不确定性最低,即最确定


绘制决策树的决策边界


import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

iris = datasets.load_iris()
X = iris.data[:,2:]
y = iris.target

from sklearn.tree import DecisionTreeClassifier
#criterion="entropy"代表使用信息熵进行划分
dt_clf = DecisionTreeClassifier(max_depth=2, criterion="entropy")
dt_clf.fit(X,y)

plot_decision_boundary(dt_clf,axis=[0.5,7.5,0,3])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.scatter(X[y==2,0],X[y==2,1])
plt.show()
img_339abfd6c2cfa19c416bb8b805e98f60.png


使用信息熵寻找最优划分


from collections import Counter
from math import log

def split(X,y,d,value):
    index_a = (X[:,d]<=value)
    index_b = (X[:,d]>value)
    return X[index_a],X[index_b],y[index_a],y[index_b]

def entropy(y):
    counter = Counter(y)
    res = 0.0
    for num in counter.values():
        p = num/len(y)
        res += -p*log(p)
    return res

def try_split(X,y):
    
    best_entropy = float('inf')
    best_d,best_v = -1,-1
    
    for d in range(X.shape[1]):
        sorted_index = np.argsort(X[:,d])
        for i in range(1,len(X)):
            if(X[sorted_index[i-1],d]!=X[sorted_index[i],d]):
                v = (X[sorted_index[i-1],d]+X[sorted_index[i],d])/2
                X_l,X_r,y_l,y_r = split(X,y,d,v)
                e = entropy(y_l)+entropy(y_r)
                if e<best_entropy:
                    best_entropy,best_d,best_v = e,d,v
    return  best_entropy,best_d,best_v

try_split(X,y)
>>> (0.6931471805599453, 0, 2.45)  #对于第一次划分,得到的信息熵为0.36,是在第0个维度上的2.45处划分的结果

best_entropy,best_d,best_v = try_split(X,y)
X_l,X_r,y_l,y_r = split(X,y,best_d,best_v)
entropy(y_l)   #划分结果的y_l信息熵为0,不能继续划分,但我们可以对y_r继续划分
>>> 0.0

try_split(X_r,y_r)
>>> (0.4132278899361904, 1, 1.75)


使用基尼系数进行划分


基尼系数的划分整体和信息熵是一样的,只是使用计算的公式不同


img_54d0457571dd6a85daf34750dfce8501.png
基尼系数计算公式
def entropy(y):
    counter = Counter(y)
    res = 1.0
    for num in counter.values():
        p = num/len(y)
        res -= p**2
    return res
#try_split逻辑和信息熵划分完全一样


决策树的超参数


#在创建对象的时候,如果不传参数,那么默认会划分到所有分类的基尼系数都为0
dec_clf = DecisionTreeClassifier()
dec_clf.fit(X,y)
plot_decision_boundary(dec_clf,[-1.5,2.5,-1.0,1.5])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()
img_8407f7e79fa5044c1e4fdd886830673f.png
过拟合
  • max_depth #最大深度
  • min_samples_split #对于节点来说至少有多少个样本数据
  • min_samples_leaf #对于叶子节点至少要几个样本
  • max_leaf_nodes #最多有多少个叶子节点
img_0401534a012816f49b2e54f4e319431d.png
CART决策树的超参数


决策树解决回归问题


决策树解决回归问题的思路是,将每个叶子节点内所有样本数据的平均值作为预测结果。

目录
相关文章
|
5天前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
【10月更文挑战第12天】本文介绍了如何使用Python和Scikit-learn进行机器学习的基础知识和入门实践。首先概述了机器学习的基本概念,包括监督学习、无监督学习和强化学习。接着详细讲解了Python和Scikit-learn的安装、数据处理、模型训练和评估等步骤,并提供了代码示例。通过本文,读者可以掌握机器学习的基本流程,并为深入学习打下坚实基础。
11 1
|
6天前
|
机器学习/深度学习 API 计算机视觉
基于Python_opencv人脸录入、识别系统(应用dlib机器学习库)(下)
基于Python_opencv人脸录入、识别系统(应用dlib机器学习库)(下)
14 2
|
6天前
|
机器学习/深度学习 存储 算法
基于Python_opencv人脸录入、识别系统(应用dlib机器学习库)(上)
基于Python_opencv人脸录入、识别系统(应用dlib机器学习库)(上)
16 1
|
7天前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
本文介绍了如何使用Python和Scikit-learn进行机器学习的基础知识和实践。首先概述了机器学习的基本概念,包括监督学习、无监督学习和强化学习。接着详细讲解了Python和Scikit-learn的安装、数据处理、模型选择与训练、模型评估及交叉验证等关键步骤。通过本文,初学者可以快速上手并掌握机器学习的基本技能。
32 2
|
7天前
|
机器学习/深度学习 数据挖掘 Serverless
手把手教你全面评估机器学习模型性能:从选择正确评价指标到使用Python与Scikit-learn进行实战演练的详细指南
【10月更文挑战第10天】评估机器学习模型性能是开发流程的关键,涉及准确性、可解释性、运行速度等多方面考量。不同任务(如分类、回归)采用不同评价指标,如准确率、F1分数、MSE等。示例代码展示了使用Scikit-learn库评估逻辑回归模型的过程,包括数据准备、模型训练、性能评估及交叉验证。
19 1
|
9天前
|
存储 程序员 开发者
Python编程基础:从入门到实践
【10月更文挑战第8天】在本文中,我们将一起探索Python编程的奇妙世界。无论你是初学者还是有一定经验的开发者,这篇文章都将为你提供有价值的信息。我们将从Python的基本概念开始,然后逐步深入到更复杂的主题,如数据结构、函数和类。最后,我们将通过一些实际的代码示例来巩固我们的知识。让我们一起开始这段Python编程之旅吧!
|
3天前
|
设计模式 开发者 Python
Python编程中的设计模式:从入门到精通####
【10月更文挑战第14天】 本文旨在为Python开发者提供一个关于设计模式的全面指南,通过深入浅出的方式解析常见的设计模式,帮助读者在实际项目中灵活运用这些模式以提升代码质量和可维护性。文章首先概述了设计模式的基本概念和重要性,接着逐一介绍了几种常用的设计模式,并通过具体的Python代码示例展示了它们的实际应用。无论您是Python初学者还是经验丰富的开发者,都能从本文中获得有价值的见解和实用的技巧。 ####
|
10天前
|
机器学习/深度学习 数据采集 数据挖掘
探索Python编程的奥秘
【10月更文挑战第7天】本文将带你走进Python的世界,探索其背后的逻辑与魅力。我们将从基础语法开始,逐步深入到函数、面向对象编程等高级特性,最后通过实际项目案例,让你体验Python的强大与便捷。无论你是编程新手,还是有一定基础的开发者,都能在这篇文章中找到你需要的信息和启发。