不用再往下划,信息熵(Entropy)概念及应用(附视频)都在这里啦!

简介: 不用再往下划,信息熵(Entropy)概念及应用(附视频)都在这里啦!

在学习浙财石向荣老师的“数据分析在审计中的应用”课程时,内容中涉及“信息熵”相关概念及应用,听完课程后仍旧困惑、一知半解,遂整理此文想法产生。因受限于数学功底,如有谬误还请多指教。您的支持,将是我前行的动力。


1 什么是信息熵


1.1 由来

1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息熵这个词是C.E.Shannon(香农)从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。


一条信息的信息量与其不确定性有着直接的关系。比如说我们要搞清一件非常不确定的事,就需要了解大量的信息;反之,如果已对某件事了解较多,则不需要太多的信息就能把它搞清楚。所以,从这个角度,可以认为,信息量就等于不确定性的多少。而通过信息熵这个指标可以将其量化。


1.2 公式定义

image.png

1.3 性质

信息论之父克劳德·香农给出的信息熵的三个性质:

  1. 单调性,发生概率越高的事件,其携带的信息量越低;
  2. 非负性,信息熵可以看作为一种广度量,非负性是一种合理的必然;
  3. 累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和,这也是广度量的一种体现。


1.4 视频

这里推荐一个我喜欢的up主的良心视频,十分推荐。也许看完之后你将不再困惑!

【学习观10】老师,我没有传纸条作弊,我在学习信息论

【学习观11】为什么信息还有单位?如何计算信息量?


2 如何量化


2.1 《数学之美》足球赛例子

image.png


2.2 为什么用对数?

下图原文链接:https://zhuanlan.zhihu.com/p/52739409

9495b9832e1c4782ab26de7543d56f68.png

截自知乎作者忆臻的回答: https://www.zhihu.com/question/30828247/answer/160647576

74b2fc419f5d48f4ade2a3eec52a8fed.png


3 应用


信息熵(Information Entropy)是度量信息混乱程度的指标,越混乱值越大,越纯粹越接近于0。决策树的生成过程中,也使用了熵来作为样本最优属性划分的判据。


3.1 审计“参保人员购药骗保”

不法分子倾向于在医保最高限额下,从多家不同的药店和医院购买不同的药物用于贩卖。因此,其购药行为特点是所关联的药店和医院数量多,且金额倾向于平均。


可见,若要有效锁定不法分子,不能仅仅看消费总额,还要看消费方式。信息熵提供了这样一种度量方式,购药金额信息熵高的人存在较高嫌疑。

image.png


上图可以看出,4次购买记录,总金额相同情况下,不同的金额配比造成信息熵差异大,令我们从中挑出可能存在异常的数据提供了可能。


3.2 决策树

在决策树算法的学习过程中,信息增益是特征选择的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大。


P.s


随着内容进一步深入,才觉知自己所识之匮乏。愿不负时光,加油!


相关阅读:

1 信息熵是什么? - 知乎 (zhihu.com)

2 信息熵及其相关概念 | M’ Blog (anmou.me)

3 为什么香农要将信息熵公式要定义成 -Σp·log₂§ 或 -∫p·log₂§dp? - 知乎 (zhihu.com)

4 信息熵的公式为什么这么定义? - 知乎 (zhihu.com)

5 [书籍]《数学之美》第6章 信息的度量和作用

6 [视频]老师,我没有传纸条作弊,我在学习信息论

7 [视频]为什么信息还有单位?如何计算信息量?

8 通俗理解决策树算法中的信息增益 - 知乎 (zhihu.com)

目录
打赏
0
0
0
0
2
分享
相关文章
NVIDIA Tesla GPU系列P4、T4、P40以及V100参数性能对比
NVIDIA Tesla系列GPU适用于高性能计算(HPC)、深度学习等超大规模数据计算,Tesla系列GPU能够处理解析PB级的数据,速度比使用传统CPU快几个数量级,NVIDIA Tesla GPU系列P4、T4、P40以及V100是Tesla GPU系列的明星产品,云服务器吧分享NVIDIA.
81046 1
Internet的形成与发展
Internet的形成与发展。
462 1
《花雕学AI》19:比较ChatGPT与新Bing在文章润色方面的应用优势与测试案例
文章润色是指对已经写好的文章进行修改、优化或完善的过程,以提高文章的质量和效果。文章润色涉及到多方面的内容,如语言表达、逻辑结构、文献引用、格式规范等。文章润色对于提升写作水平、提高论文发表率、增加学术影响力等都有重要意义。然而,文章润色也是一项耗时耗力的工作,需要作者具备较高的语言能力、专业知识和审美判断。因此,如何利用现代科技手段来辅助文章润色,提高润色效率和质量,是一个值得探讨的问题。本文将从以下几个方面进行分析和比较:(1)分析ChatGPT的应用优势和测试案例;(2)分析新Bing的应用优势和测试案例;(3)比较ChatGPT和新Bing在文章润色方面的异同点和优缺点。
870 0
《花雕学AI》19:比较ChatGPT与新Bing在文章润色方面的应用优势与测试案例
ClickHouse使用场景和案列分析
@[TOC](目录) # 一、ClickHouse 概述 ## 1. ClickHouse简介 ClickHouse 是一款开源的分布式列式数据库,旨在处理大规模数据集并实现快速查询。它最初由俄罗斯搜索引擎公司 Yandex 于 2016 年发布,并在短时间内获得了广泛的关注和应用。ClickHouse 具有高性能、可扩展性和可靠性等特点,成为处理海量数据的理想工具。 ## 2. ClickHouse 发展历程 ClickHouse 的发展历程可以追溯到 2016 年,当时 Yandex 公司意识到传统的关系型数据库在处理大规模数据时存在性能瓶颈,于是开始研发一款专为大数据处理而设计的列式数
3491 0
C通讯录<动态版>
目录 1、动态版需求 2、不同于静态版之处 (1)创建通讯录 (2)初始化通讯录 (3)增加联系人信息 (4)退出通讯录 3、完整代码 (1)test.c 文件 (2)contact.h 文件 (3)contact.c 文件
C通讯录<动态版>
云存储网关"NFS V4优化"选项详解
本文主要介绍了云存储网关的“NFS V4优化”选项的工作原理,如果您并没有需求必须使用NFSv3的方式挂载网关的NFS共享,建议您都以NFSv4的方式挂载并打开这个选项,从而获得更理想的文件上传效率。
3674 0
云存储网关"NFS V4优化"选项详解
直播软件app开发,遵守这三个原则为架构设计助力
直播软件app开发,遵守这三个原则为架构设计助力

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等