Python3入门机器学习 - 决策树

简介: 信息熵左式的信息熵较高,代表左式的不确定性更强,左式即指数据有三个类别,每个类别占1/3右式的信息熵为0,是信息熵可以达到的最小值,代表数据的不确定性最低,即最确定绘制决策树的决策边界import numpy as npimport matplotlib.

信息熵


img_51e96405a413f4855387d799e60194cf.png

img_6affab1bf952a409a052b2cf71251805.png
左式的信息熵较高,代表左式的不确定性更强,左式即指数据有三个类别,每个类别占1/3

img_0b810efece75b83be3368d5a359ca981.png
右式的信息熵为0,是信息熵可以达到的最小值,代表数据的不确定性最低,即最确定


绘制决策树的决策边界


import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

iris = datasets.load_iris()
X = iris.data[:,2:]
y = iris.target

from sklearn.tree import DecisionTreeClassifier
#criterion="entropy"代表使用信息熵进行划分
dt_clf = DecisionTreeClassifier(max_depth=2, criterion="entropy")
dt_clf.fit(X,y)

plot_decision_boundary(dt_clf,axis=[0.5,7.5,0,3])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.scatter(X[y==2,0],X[y==2,1])
plt.show()
img_339abfd6c2cfa19c416bb8b805e98f60.png


使用信息熵寻找最优划分


from collections import Counter
from math import log

def split(X,y,d,value):
    index_a = (X[:,d]<=value)
    index_b = (X[:,d]>value)
    return X[index_a],X[index_b],y[index_a],y[index_b]

def entropy(y):
    counter = Counter(y)
    res = 0.0
    for num in counter.values():
        p = num/len(y)
        res += -p*log(p)
    return res

def try_split(X,y):
    
    best_entropy = float('inf')
    best_d,best_v = -1,-1
    
    for d in range(X.shape[1]):
        sorted_index = np.argsort(X[:,d])
        for i in range(1,len(X)):
            if(X[sorted_index[i-1],d]!=X[sorted_index[i],d]):
                v = (X[sorted_index[i-1],d]+X[sorted_index[i],d])/2
                X_l,X_r,y_l,y_r = split(X,y,d,v)
                e = entropy(y_l)+entropy(y_r)
                if e<best_entropy:
                    best_entropy,best_d,best_v = e,d,v
    return  best_entropy,best_d,best_v

try_split(X,y)
>>> (0.6931471805599453, 0, 2.45)  #对于第一次划分,得到的信息熵为0.36,是在第0个维度上的2.45处划分的结果

best_entropy,best_d,best_v = try_split(X,y)
X_l,X_r,y_l,y_r = split(X,y,best_d,best_v)
entropy(y_l)   #划分结果的y_l信息熵为0,不能继续划分,但我们可以对y_r继续划分
>>> 0.0

try_split(X_r,y_r)
>>> (0.4132278899361904, 1, 1.75)


使用基尼系数进行划分


基尼系数的划分整体和信息熵是一样的,只是使用计算的公式不同


img_54d0457571dd6a85daf34750dfce8501.png
基尼系数计算公式
def entropy(y):
    counter = Counter(y)
    res = 1.0
    for num in counter.values():
        p = num/len(y)
        res -= p**2
    return res
#try_split逻辑和信息熵划分完全一样


决策树的超参数


#在创建对象的时候,如果不传参数,那么默认会划分到所有分类的基尼系数都为0
dec_clf = DecisionTreeClassifier()
dec_clf.fit(X,y)
plot_decision_boundary(dec_clf,[-1.5,2.5,-1.0,1.5])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()
img_8407f7e79fa5044c1e4fdd886830673f.png
过拟合
  • max_depth #最大深度
  • min_samples_split #对于节点来说至少有多少个样本数据
  • min_samples_leaf #对于叶子节点至少要几个样本
  • max_leaf_nodes #最多有多少个叶子节点
img_0401534a012816f49b2e54f4e319431d.png
CART决策树的超参数


决策树解决回归问题


决策树解决回归问题的思路是,将每个叶子节点内所有样本数据的平均值作为预测结果。

目录
相关文章
|
15天前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能浪潮下的自我修养:从Python编程入门到深度学习实践
【10月更文挑战第39天】本文旨在为初学者提供一条清晰的道路,从Python基础语法的掌握到深度学习领域的探索。我们将通过简明扼要的语言和实际代码示例,引导读者逐步构建起对人工智能技术的理解和应用能力。文章不仅涵盖Python编程的基础,还将深入探讨深度学习的核心概念、工具和实战技巧,帮助读者在AI的浪潮中找到自己的位置。
|
15天前
|
机器学习/深度学习 数据挖掘 Python
Python编程入门——从零开始构建你的第一个程序
【10月更文挑战第39天】本文将带你走进Python的世界,通过简单易懂的语言和实际的代码示例,让你快速掌握Python的基础语法。无论你是编程新手还是想学习新语言的老手,这篇文章都能为你提供有价值的信息。我们将从变量、数据类型、控制结构等基本概念入手,逐步过渡到函数、模块等高级特性,最后通过一个综合示例来巩固所学知识。让我们一起开启Python编程之旅吧!
|
15天前
|
存储 Python
Python编程入门:打造你的第一个程序
【10月更文挑战第39天】在数字时代的浪潮中,掌握编程技能如同掌握了一门新时代的语言。本文将引导你步入Python编程的奇妙世界,从零基础出发,一步步构建你的第一个程序。我们将探索编程的基本概念,通过简单示例理解变量、数据类型和控制结构,最终实现一个简单的猜数字游戏。这不仅是一段代码的旅程,更是逻辑思维和问题解决能力的锻炼之旅。准备好了吗?让我们开始吧!
|
5天前
|
设计模式 缓存 开发者
Python中的装饰器:从入门到实践####
本文深入探讨了Python中强大的元编程工具——装饰器,它能够以简洁优雅的方式扩展函数或方法的功能。通过具体实例和逐步解析,文章不仅介绍了装饰器的基本原理、常见用法及高级应用,还揭示了其背后的设计理念与实现机制,旨在帮助读者从理论到实战全面掌握这一技术,提升代码的可读性、可维护性和复用性。 ####
|
15天前
|
设计模式 缓存 开发框架
Python中的装饰器:从入门到实践####
本文深入探讨了Python中装饰器的工作原理与应用,通过具体案例展示了如何利用装饰器增强函数功能、提高代码复用性和可读性。读者将学习到装饰器的基本概念、实现方法及其在实际项目开发中的实用技巧。 ####
26 3
|
17天前
|
机器学习/深度学习 数据挖掘 开发者
Python编程入门:理解基础语法与编写第一个程序
【10月更文挑战第37天】本文旨在为初学者提供Python编程的初步了解,通过简明的语言和直观的例子,引导读者掌握Python的基础语法,并完成一个简单的程序。我们将从变量、数据类型到控制结构,逐步展开讲解,确保即使是编程新手也能轻松跟上。文章末尾附有完整代码示例,供读者参考和实践。
|
17天前
|
人工智能 数据挖掘 程序员
Python编程入门:从零到英雄
【10月更文挑战第37天】本文将引导你走进Python编程的世界,无论你是初学者还是有一定基础的开发者,都能从中受益。我们将从最基础的语法开始讲解,逐步深入到更复杂的主题,如数据结构、面向对象编程和网络编程等。通过本文的学习,你将能够编写出自己的Python程序,实现各种功能。让我们一起踏上Python编程之旅吧!
|
16天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
51 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
11天前
|
机器学习/深度学习 存储 数据挖掘
Python 编程入门:理解变量、数据类型和基本运算
【10月更文挑战第43天】在编程的海洋中,Python是一艘易于驾驭的小船。本文将带你启航,探索Python编程的基础:变量的声明与使用、丰富的数据类型以及如何通过基本运算符来操作它们。我们将从浅显易懂的例子出发,逐步深入到代码示例,确保即使是零基础的读者也能跟上步伐。准备好了吗?让我们开始吧!
23 0
|
7月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
246 14