在学习浙财石向荣老师的“数据分析在审计中的应用”课程时,内容中涉及“信息熵”相关概念及应用,听完课程后仍旧困惑、一知半解,遂整理此文想法产生。因受限于数学功底,如有谬误还请多指教。您的支持,将是我前行的动力。
1 什么是信息熵
1.1 由来
1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息熵这个词是C.E.Shannon(香农)从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。
一条信息的信息量与其不确定性有着直接的关系。比如说我们要搞清一件非常不确定的事,就需要了解大量的信息;反之,如果已对某件事了解较多,则不需要太多的信息就能把它搞清楚。所以,从这个角度,可以认为,信息量就等于不确定性的多少。而通过信息熵这个指标可以将其量化。
1.2 公式定义
1.3 性质
信息论之父克劳德·香农给出的信息熵的三个性质:
- 单调性,发生概率越高的事件,其携带的信息量越低;
- 非负性,信息熵可以看作为一种广度量,非负性是一种合理的必然;
- 累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和,这也是广度量的一种体现。
1.4 视频
这里推荐一个我喜欢的up主的良心视频,十分推荐。也许看完之后你将不再困惑!
【学习观10】老师,我没有传纸条作弊,我在学习信息论
【学习观11】为什么信息还有单位?如何计算信息量?
2 如何量化
2.1 《数学之美》足球赛例子
2.2 为什么用对数?
下图原文链接:https://zhuanlan.zhihu.com/p/52739409
截自知乎作者忆臻的回答: https://www.zhihu.com/question/30828247/answer/160647576
3 应用
信息熵(Information Entropy)是度量信息混乱程度的指标,越混乱值越大,越纯粹越接近于0。决策树的生成过程中,也使用了熵来作为样本最优属性划分的判据。
3.1 审计“参保人员购药骗保”
不法分子倾向于在医保最高限额下,从多家不同的药店和医院购买不同的药物用于贩卖。因此,其购药行为特点是所关联的药店和医院数量多,且金额倾向于平均。
可见,若要有效锁定不法分子,不能仅仅看消费总额,还要看消费方式。信息熵提供了这样一种度量方式,购药金额信息熵高的人存在较高嫌疑。
上图可以看出,4次购买记录,总金额相同情况下,不同的金额配比造成信息熵差异大,令我们从中挑出可能存在异常的数据提供了可能。
3.2 决策树
在决策树算法的学习过程中,信息增益是特征选择的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大。
P.s
随着内容进一步深入,才觉知自己所识之匮乏。愿不负时光,加油!
相关阅读:
1 信息熵是什么? - 知乎 (zhihu.com)
2 信息熵及其相关概念 | M’ Blog (anmou.me)
3 为什么香农要将信息熵公式要定义成 -Σp·log₂§ 或 -∫p·log₂§dp? - 知乎 (zhihu.com)
4 信息熵的公式为什么这么定义? - 知乎 (zhihu.com)
5 [书籍]《数学之美》第6章 信息的度量和作用
6 [视频]老师,我没有传纸条作弊,我在学习信息论
7 [视频]为什么信息还有单位?如何计算信息量?
8 通俗理解决策树算法中的信息增益 - 知乎 (zhihu.com)