不用再往下划,信息熵(Entropy)概念及应用(附视频)都在这里啦!

简介: 不用再往下划,信息熵(Entropy)概念及应用(附视频)都在这里啦!

在学习浙财石向荣老师的“数据分析在审计中的应用”课程时,内容中涉及“信息熵”相关概念及应用,听完课程后仍旧困惑、一知半解,遂整理此文想法产生。因受限于数学功底,如有谬误还请多指教。您的支持,将是我前行的动力。


1 什么是信息熵


1.1 由来

1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息熵这个词是C.E.Shannon(香农)从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。


一条信息的信息量与其不确定性有着直接的关系。比如说我们要搞清一件非常不确定的事,就需要了解大量的信息;反之,如果已对某件事了解较多,则不需要太多的信息就能把它搞清楚。所以,从这个角度,可以认为,信息量就等于不确定性的多少。而通过信息熵这个指标可以将其量化。


1.2 公式定义

image.png

1.3 性质

信息论之父克劳德·香农给出的信息熵的三个性质:

  1. 单调性,发生概率越高的事件,其携带的信息量越低;
  2. 非负性,信息熵可以看作为一种广度量,非负性是一种合理的必然;
  3. 累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和,这也是广度量的一种体现。


1.4 视频

这里推荐一个我喜欢的up主的良心视频,十分推荐。也许看完之后你将不再困惑!

【学习观10】老师,我没有传纸条作弊,我在学习信息论

【学习观11】为什么信息还有单位?如何计算信息量?


2 如何量化


2.1 《数学之美》足球赛例子

image.png


2.2 为什么用对数?

下图原文链接:https://zhuanlan.zhihu.com/p/52739409

9495b9832e1c4782ab26de7543d56f68.png

截自知乎作者忆臻的回答: https://www.zhihu.com/question/30828247/answer/160647576

74b2fc419f5d48f4ade2a3eec52a8fed.png


3 应用


信息熵(Information Entropy)是度量信息混乱程度的指标,越混乱值越大,越纯粹越接近于0。决策树的生成过程中,也使用了熵来作为样本最优属性划分的判据。


3.1 审计“参保人员购药骗保”

不法分子倾向于在医保最高限额下,从多家不同的药店和医院购买不同的药物用于贩卖。因此,其购药行为特点是所关联的药店和医院数量多,且金额倾向于平均。


可见,若要有效锁定不法分子,不能仅仅看消费总额,还要看消费方式。信息熵提供了这样一种度量方式,购药金额信息熵高的人存在较高嫌疑。

image.png


上图可以看出,4次购买记录,总金额相同情况下,不同的金额配比造成信息熵差异大,令我们从中挑出可能存在异常的数据提供了可能。


3.2 决策树

在决策树算法的学习过程中,信息增益是特征选择的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大。


P.s


随着内容进一步深入,才觉知自己所识之匮乏。愿不负时光,加油!


相关阅读:

1 信息熵是什么? - 知乎 (zhihu.com)

2 信息熵及其相关概念 | M’ Blog (anmou.me)

3 为什么香农要将信息熵公式要定义成 -Σp·log₂§ 或 -∫p·log₂§dp? - 知乎 (zhihu.com)

4 信息熵的公式为什么这么定义? - 知乎 (zhihu.com)

5 [书籍]《数学之美》第6章 信息的度量和作用

6 [视频]老师,我没有传纸条作弊,我在学习信息论

7 [视频]为什么信息还有单位?如何计算信息量?

8 通俗理解决策树算法中的信息增益 - 知乎 (zhihu.com)

目录
相关文章
|
6月前
|
机器学习/深度学习
为什么在二分类问题中使用交叉熵函数作为损失函数
为什么在二分类问题中使用交叉熵函数作为损失函数
191 2
|
Python 机器学习/深度学习
Cross Entropy Loss 交叉熵损失函数公式推导
表达式 输出标签表示为{0,1}时,损失函数表达式为: $L = -[y log \hat{y} + (1-y)log(1- \hat{y})]$ 二分类 二分类问题,假设 y∈{0,1} 正例:$P(y = 1| x) = \hat{y}$ 反例:$P(y=0|x) = 1-\hat{y}$ 取似然函数 似然函数就是所有样本在参数θ下发生概率最大的那种情况,由于样本独立同分布,因此概率最大的情况就是每个样本发生概率的连乘。
15893 0
|
6月前
|
机器学习/深度学习 JavaScript Python
熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵
熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵
91 1
|
机器学习/深度学习
信息熵、KL散度、交叉熵、softmax函数学习小记
信息熵、KL散度、交叉熵、softmax函数学习小记
97 0
|
6月前
|
人工智能
实现广义相加模型GAM和普通最小二乘(OLS)回归
实现广义相加模型GAM和普通最小二乘(OLS)回归
|
机器学习/深度学习
Lesson 4.2 逻辑回归参数估计:极大似然估计、相对熵与交叉熵损失函数-2
Lesson 4.2 逻辑回归参数估计:极大似然估计、相对熵与交叉熵损失函数-2
|
机器学习/深度学习 算法
Lesson 4.2 逻辑回归参数估计:极大似然估计、相对熵与交叉熵损失函数-1
Lesson 4.2 逻辑回归参数估计:极大似然估计、相对熵与交叉熵损失函数-1
|
机器学习/深度学习 人工智能 JavaScript
【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度
对抗神经网络(如DIM模型)及图神经网络(如DGI模型)中,使用互信息来作为无监督方式提取特征的方法。
897 0
|
机器学习/深度学习 数据挖掘
KL散度和交叉熵的对比介绍
KL散度(Kullback-Leibler Divergence)和交叉熵(Cross Entropy)是在机器学习中广泛使用的概念。这两者都用于比较两个概率分布之间的相似性,但在一些方面,它们也有所不同。本文将对KL散度和交叉熵的详细解释和比较。
753 0
决策树中的香农熵(Shannon Entropy)
决策树中的香农熵(Shannon Entropy)
决策树中的香农熵(Shannon Entropy)