机器学习 - [源码实现决策树小专题]决策树中混杂度数值度量的Python编程实现(信息熵和基尼系数的计算)

简介: 顾名思义,所谓混杂度就是指无序程度,一般使用“信息熵”(香浓熵)或者“及逆序数进行度量”。本文介绍及其学习决策树算法中混杂度数值度量的Python编程实现

混杂度数值度量的Python编程实现


李俊才 的个人博客

已入驻阿里云社区

邮箱 :291148484@163.com
本文地址
- https://developer.aliyun.com/article/
- https://blog.csdn.net/qq_28550263/article/details/114883862

顾名思义,所谓混杂度就是指无序程度,一般使用“信息熵”(香浓熵)或者“及逆序数进行度量”。

阅读本文后推荐:信息增益与信息增益率计算的Python实现


目 录

1.信息熵(entropy)

2.基尼系数

3. 小结


1.信息熵(entropy)

1.1 信息熵的概念

信息熵是从热力学中借用过来提出以解决了对信息的量化度量问题的概念,把信息中排除了冗余后的平均信息量称为信息熵。信息熵的计算步骤为:

  • 先确定当前特征有多少取值(i=1,2,3,…),计算每种不同取值的概率pi
  • 在依据公式计算信息熵:
    image.png

1.2 信息熵的编程计算

frommathimportlogdefentropy1(anArray):
"""    计算信息熵(香浓熵)    """entropy=0.0# 信息熵(香农熵)feature_dict= {}                  # 用字典键获取不重复的取值foriinlist(anArray):
feature_dict.update({i:None,})
# 计算所有不同特征值取值的概率进而计算信息熵foriinfeature_dict:                              # 这里每一个i是不重复的特征取值(每个特征出现一次)ct=list(anArray).count(i)                     # 计算某个特征取值为i的频数pi=ct/len(anArray)                          # 计算出特征值i在该特征中出现的概率 piifpi==0:                                     # 这个条件相当于人为定义log0=1entropy=entropy-1else:
entropy=entropy-pi*log(pi,2)          # 以2位底求熵returnentropy

以上是自己实现对不同元素地频率进行统计以求取信息熵,理解起来难度略大。Python有个好处就是,很多模块都有人给你写好了,你只要import一下就可以通过更加便捷的方式完成你想要的功能。

使用Python内建模块collections中的Counter对象能方便地对数组中的不同元素出现次数进行统计以简化以上代码。collections.Counter 可以参见另外一篇博文【https://blog.csdn.net/qq_28550263/article/details/114867848)】)中的1.1 节

实现代码如下:

importnumpyasnpdefentropy2(anArray):
'''    计算信息熵(香浓熵)    '''cnt=Counter(anArray)
data_length=len(anArray)
pis= []
foriincnt:
pis.append(cnt[i]/data_length)
hi= []
forpiinpis:
ifpi>0:
hi.append(pi*np.log2(pi))
return-np.sum(hi)


2.基尼系数

2.1.基尼系数的概念

基尼系数也可以用于度量数据的混乱程度,比起信息熵而言基尼系数比较稳定,因为熵的值将随着所有取值情况的增多而呈现发散态势,但基尼系数最大为1,最小为0。这使得基尼系数在有些情况下用于混杂度的度量以实现某种算法时显得比基于信息熵的度量更方便。比如在决策树算法中,使用基于信息熵的信息增益总是会偏向于选取取值类型更多的特征,而这却不是我们所期待的。

基尼系数的计算步骤为:

  • 确定当前特征有多少取值(i=1,2,3,…),计算每种不同取值的概率Pk
  • 由以下公式计算基尼系数
    image.png

2.2.基尼系数的编程计算

我们采用等式右边的式子,即Gini = 1-∑(k=1,n)|(Pk)^2实现求解如下:

importnumpyasnpdefGini(anArray):
'''    计算基尼系数    '''cnt=Counter(anArray)
data_length=len(anArray)
Pks= []                           # 先计算每种不同取值的概率Pk,装入列表Pks foriincnt:
Pks.append(cnt[i]/data_length)
Pk2s= [Pk**2forPkinPks]       # 再计算 1-∑(k=1,n)|(Pk)^2return1-np.sum(Pk2s)

3. 小结

frommathimportlogimportnumpyasnpdefimpurity(anArray, impurity_t="entropy"):
"""    计算混杂度    Parameters    ----------    anArray:     an Array like object,由某特征依次对应每条数据下的取值构成。    impurity_t:  str,表示混杂度的度量方式,只能是{"entropy","gini"}中的一个。    Return    result: float        为计算得到的impurity的数值。    """cnt=Counter(anArray)
data_length=len(anArray)
pis= [cnt[i]/data_lengthforiincnt]
ifimpurity_t=="entropy":         # 信息熵:Entropy = -∑(i=1,n)|(pi·logpi)return-np.sum([pi*np.log2(pi) forpiinpisifpi>0])
elifimpurity_t=="gini":          # 基尼系数:Gini = 1-∑(k=1,n)|(Pk)^2return1-np.sum([Pi**2forPiinpis])
else:
raiseValueError("impurity_t can only be one of {'entropy','gini'}")

如果喜欢,记得一赞三连噢!

目录
相关文章
|
4天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
46 15
|
27天前
|
JSON 开发工具 git
基于Python和pygame的植物大战僵尸游戏设计源码
本项目是基于Python和pygame开发的植物大战僵尸游戏,包含125个文件,如PNG图像、Python源码等,提供丰富的游戏开发学习素材。游戏设计源码可从提供的链接下载。关键词:Python游戏开发、pygame、植物大战僵尸、源码分享。
|
1月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
110 1
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
1月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
90 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
1月前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
47 2
|
1月前
|
机器学习/深度学习 数据采集 搜索推荐
利用Python和机器学习构建电影推荐系统
利用Python和机器学习构建电影推荐系统
86 1
|
1月前
|
机器学习/深度学习 算法 PyTorch
用Python实现简单机器学习模型:以鸢尾花数据集为例
用Python实现简单机器学习模型:以鸢尾花数据集为例
127 1
|
1月前
|
机器学习/深度学习 数据采集 算法
Python机器学习:Scikit-learn库的高效使用技巧
【10月更文挑战第28天】Scikit-learn 是 Python 中最受欢迎的机器学习库之一,以其简洁的 API、丰富的算法和良好的文档支持而受到开发者喜爱。本文介绍了 Scikit-learn 的高效使用技巧,包括数据预处理(如使用 Pipeline 和 ColumnTransformer)、模型选择与评估(如交叉验证和 GridSearchCV)以及模型持久化(如使用 joblib)。通过这些技巧,你可以在机器学习项目中事半功倍。
51 3
|
1月前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
机器学习基础:使用Python和Scikit-learn入门
35 1