【机器学习】信息量、香农熵、信息增益(增加例子,方便理解)

简介: 【机器学习】信息量、香农熵、信息增益(增加例子,方便理解)


【机器学习】Logistic回归(重新整理)


B站视频:“交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”


信息量(信息)

6744b69e3b8d3669c7a62f546b7198b2_2a69cfb2bea84648af897028a330e8a3.png

举个例子:

 如果有人告诉你,今天太阳从东边出来了,那么这条信息的信息量就很低,因为每天的太阳常常从东边出来。

 但是,突然某一天有人告诉你,今天太阳是从西边出来的,那么这条信息的信息量就很高,因为,在你的意识里,太阳几乎不可能从西边出来


“很高”,“很低”这些都是很模糊的形容词,那么我们怎么量化这些信息程度呢?哎嘿!这就是信息量。


信息量公式的推理过程


“日出东方”这是一个大概率事件,其携带信息量很少。而“日出西方”是一个小概率事件,它所携带的信息量就很大了。

从上面可以得出一个结论就是:信息量的高低总是和一个事件的概率负相关(片面理解)


猜想一:那么是不是image.png就可以量化的表示信息的信息量了。答:不完全正确,虽然在一些情况下,信息量可以通过一个事件发生的概率来表示,但是image.png并不能准确地表示信息量.

知识点一:在信息论中,通常使用负对数函数来计算信息量。对于一个事件 i,其信息量image.png可以表示为:

image.png

其中image.png表示事件i发生的概率

这个公式的物理意义是,当事件 i 发生的概率越小时,其所包含的信息量就越大。例如,在一组有 8 个等概率的符号中选出一个符号,它所包含的信息量为image.png。而当在同一组符号中选出一个概率为 1 的符号时,它所包含的信息量为image.png

57b4605b672a43c8184d29ca4433839a_8cd3b5f64adf4b0997d310e1ed37b0fe.png


以2为底的优势就是单位为比特,这个写进了信息量的定义,不能更改。 log的优势是可以将P(AB) = P(A)·P(B) 转化为 I(AB) = I(A)+I(B),逻辑自洽。


香农熵


5b9616264e4656f7bdb59c73038ab3c2_f3c56eaba2e94a929f02264eac67e961.png


给定题目:有一枚均匀的硬币image.png(正面的概率和抛反面概率都是0.5),还有一枚不均匀的硬币image.png(正面概率0.8,反面概率0.2)

事件A:正面

事件B:反面


事件(A|B)发生的难度有多大?这就是熵


简单说,就是


信息量:衡量某一具体事件从不确定到确定的难度大小

熵:衡量整个系统的所有事件从不确定到确定的难度大小


猜想二:是不是可以简单的将系统中的所有事件的信息量加和大小作为整个系统的香农熵值?

答:不完全正确。香农熵是用来衡量一个系统的不确定性或者信息量的度量方式。在信息论中,香农熵通常被定义为一个系统中所有可能事件的信息量的期望值。


知识点一:香农熵是信息论中的一个概念,通常用符号H表示。它描述的是一个离散信源所产生的信息量的平均值。具体地说,如果一个离散信源可以发出n个符号,每个符号出现的概率分别为p1,p2,…,pn,那么这个信源每产生一个符号所带来的信息量就是-log2(pi)(以2为底的对数),而香农熵就是所有符号的信息量的平均值:

image.png

如果将第一个p(x)修改为y,变化后的公式就是交叉熵。想一想为啥?提示:KL散度


结合上面例子,系统image.png的香农熵就是

image.png


信息增益


fc3f3f3eb68888a044a499e1049edce0_3d42b78db562409cb0cb90e19e8c055a.png


其公式为:


image.png


其中image.png为划分数据集(子集)

它表示的含义是,划分过后,新的集合相对于原集合减少了多少不确定性,比如

给定数据:

数据拟定背景:小明想出去玩?

ID Class Wind Temp Outlook
1 Play Weak Hot Sunny
2 Play Strong Hot Sunny
3 Stay Weak Hot Rain
4 Play Weak Mid Overcast
5 Stay Strong Cold Rain
6 Play Weak Cold Overcast
7 Stay Strong Cold Rain
8 Play Weak Mid Sunny
9 Play Weak Cold Sunny
10 Play Strong Mid Overcast
11 Stay Weak Mid Sunny
12 Stay Strong Mid Rain
13 Play Weak Hot Overcast
14 Play Weak Cold Rain


对于系统香农熵H(D)

Class Count
play 6
stay 4


image.png


计算关于Wind的信息增益


Weak
Strong
Play 7 2
Stay 2 3


image.png

计算关于Temperature的信息增益


Hot
Mid Cold
Play 3 3 3
Stay 1 2 2

image.png

计算关于Outlook的信息增益


Sunny
Overcast Rain
Play 4 4 1
Stay 1 0 4

image.png

image.png

image.png


信息增益汇总


wind
Temp Outlook
信息增益 0.102 0.008 0.424


不难看出,小明去不去玩啊,温度只能减少0.008的不确定性,但是天气景观(Outlook)可以减少0.424的不确定性,那我们是不是说Outlook更重要一些,更适合作为重要决策节点。


相关文章
|
3月前
|
机器学习/深度学习 自然语言处理 算法
机器学习-特征选择:如何用信息增益提升模型性能?
机器学习-特征选择:如何用信息增益提升模型性能?
164 1
|
3月前
|
机器学习/深度学习 算法 搜索推荐
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
|
3月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI 操作报错合集之在PAI-DSW(平台上的AI数据科学工作站)上尝试修改实例名时,收到"实例不存在"的错误信息如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
3月前
|
机器学习/深度学习 算法 Python
机器学习 - [源码实现决策树小专题]决策树中,信息增益、信息增益率计算以及最佳特征挑选的Python实现
机器学习 - [源码实现决策树小专题]决策树中,信息增益、信息增益率计算以及最佳特征挑选的Python实现
66 0
|
机器学习/深度学习 算法 Python
机器学习 - 决策树中,信息增益、信息增益率计算以及最佳特征挑选的Python实现
本文介绍决策树中,信息增益、信息增益率计算以及最佳特征挑选的Python实现
440 0
|
机器学习/深度学习 算法
【机器学习-决策树模块-信息论相关必备知识】
【机器学习-决策树模块-信息论相关必备知识】
119 0
|
3月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
184 14
|
3月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
3月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
71 1
|
3月前
|
机器学习/深度学习 数据采集 算法
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
220 0

热门文章

最新文章