【人工智能数学基础(五)】信息论

简介: 【人工智能数学基础(五)】信息论

信息论

信息论(Information Theory)是数学、物理、统计、计算机科学等多个学科的交叉领域.信息论是由克劳德·香农最早提出的,主要研究信息的量化、存储和通信等方法.这里,“信息”是指一组消息的集合.假设在一个噪声通道上发送消息,我们需要考虑如何对每一个信息进行编码、传输以及解码,使得接收者可以尽可能准确地重构出消息.


在机器学习相关领域,信息论也有着大量的应用.比如特征抽取、统计推断、自然语言处理等.


1. 熵

熵(Entropy)最早是物理学的概念,用于表示一个热力学系统的无序程度.在信息论中,熵用来衡量一个随机事件的不确定性.


1.1 自信息和熵

自信息(Self Information)表示一个随机事件所包含的信息量.一个随机事件发生的概率越高,其自信息越低.如果一个事件必然发生,其自信息为0.


对于一个随机变量 𝑋(取值集合为 𝒳,概率分布为 𝑝(𝑥), 𝑥 ∈ 𝒳),当 𝑋 = 𝑥时的自信息𝐼(𝑥)定义为

image.png

在自信息的定义中,对数的底可以使用 2、自然常数 𝑒 或是 10.当底为 2 时,自信息的单位为bit;当底为𝑒时,自信息的单位为nat.对于分布为𝑝(𝑥)的随机变量𝑋,其自信息的数学期望,即熵𝐻(𝑋)定义为

image.png

其中当𝑝(𝑥𝑖 ) = 0时,我们定义0 log 0 = 0,这与极限一致,lim𝑝→0+ 𝑝 log 𝑝 = 0.


熵越高,则随机变量的信息越多;熵越低,则随机变量的信息越少.如果变量𝑋 当且仅当在 𝑥 时 𝑝(𝑥) = 1,则熵为 0.也就是说,对于一个确定的信息,其熵为0,信息量也为0.如果其概率分布为一个均匀分布,则熵最大.


假设一个随机变量𝑋 有三种可能值𝑥1 , 𝑥2, 𝑥3,不同概率分布对应的熵如下:

image.png



1.2 熵编码

信息论的研究目标之一是如何用最少的编码表示传递信息.假设我们要传递一段文本信息,这段文本中包含的符号都来自于一个字母表𝑨,我们就需要对字母表𝑨中的每个符号进行编码.以二进制编码为例,我们常用的ASCII码就是用固定的 8bits 来编码每个字母.但这种固定长度的编码方案不是最优的.一种高效的编码原则是字母的出现概率越高,其编码长度越短.比如对字母 𝑎, 𝑏, 𝑐 分别编码为0, 10, 110.


给定一串要传输的文本信息,其中字母 𝑥 的出现概率为 𝑝(𝑥),其最佳编码长度为 − log2 𝑝(𝑥),整段文本的平均编码长度为 − ∑𝑥 𝑝(𝑥)log2 𝑝(𝑥),即底为 2的熵.


在对分布 𝑝(𝑥) 的符号进行编码时,熵 𝐻(𝑝) 也是理论上最优的平均编码长度,这种编码方式称为熵编码(Entropy Encoding).


由于每个符号的自信息通常都不是整数,因此在实际编码中很难达到理论上的最优值.霍夫曼编码(Huffman Coding)和算术编码(Arithmetic Coding)是两种最常见的熵编码技术.


1.3 联合熵和条件熵

对于两个离散随机变量𝑋 和𝑌,假设𝑋 取值集合为𝒳;𝑌 取值集合为𝒴,其联合概率分布满足为𝑝(𝑥, 𝑦),则


𝑋 和𝑌 的联合熵(Joint Entropy)为

image.png

𝑋 和𝑌 的条件熵(Conditional Entropy)为

image.png

根据其定义,条件熵也可以写为

image.png


2. 互信息

互信息(Mutual Information)是衡量已知一个变量时,另一个变量不确定性的减少程度.两个离散随机变量𝑋 和𝑌 的互信息定义为

image.png

互信息的一个性质为

image.png

如果变量𝑋 和𝑌 互相独立,它们的互信息为零.


3. 交叉熵和散度

3.1 交叉熵

对于分布为𝑝(𝑥)的随机变量,熵𝐻(𝑝)表示其最优编码长度.交叉熵(CrossEntropy)是按照概率分布𝑞的最优编码对真实分布为𝑝的信息进行编码的长度,定义为

image.png

在给定 𝑝 的情况下,如果 𝑞 和 𝑝 越接近,交叉熵越小;如果 𝑞 和 𝑝 越远,交叉熵就越大.


3.2 KL散度

KL 散度(Kullback-Leibler Divergence),也叫KL 距离或相对熵(Relative Entropy),是用概率分布 𝑞 来近似 𝑝 时所造成的信息损失量.KL 散度是按照概率分布𝑞的最优编码对真实分布为𝑝的信息进行编码,其平均编码长度(即交叉熵)𝐻(𝑝, 𝑞) 和 𝑝 的最优平均编码长度(即熵)𝐻(𝑝) 之间的差异.对于离散概率分布𝑝和𝑞,从𝑞到𝑝的KL散度定义为

image.png

其中为了保证连续性,定义0 log 00 = 0, 0 log 0𝑞= 0.


KL散度总是非负的,KL(𝑝, 𝑞) ≥ 0,可以衡量两个概率分布之间的距离.KL散度只有当𝑝 = 𝑞时,KL(𝑝, 𝑞) = 0.如果两个分布越接近,KL散度越小;如果两个分布越远,KL散度就越大.但KL散度并不是一个真正的度量或距离,一是KL散度不满足距离的对称性,二是KL散度不满足距离的三角不等式性质.


3.3 JS 散度

JS散度(Jensen-Shannon Divergence)是一种对称的衡量两个分布相似度的度量方式,定义为

image.png

3.4 Wasserstein距离

Wasserstein 距离(Wasserstein Distance)也用于衡量两个分布之间的距离.对于两个分布𝑞1 , 𝑞2,𝑝 th-Wasserstein距离定义为

image.png

其中Γ(𝑞1 , 𝑞2)是边际分布为𝑞1 和𝑞2 的所有可能的联合分布集合,𝑑(𝑥, 𝑦)为𝑥 和 𝑦的距离,比如ℓ𝑝 距离等.


如果将两个分布看作两个土堆,联合分布 𝛾(𝑥, 𝑦) 看作从土堆 𝑞1 的位置 𝑥 到土堆𝑞2 的位置𝑦的搬运土的数量,并有

image.png

𝑞1 和𝑞2 为𝛾(𝑥, 𝑦)的两个边际分布.


𝔼(𝑥,𝑦)∼𝛾(𝑥,𝑦)[𝑑(𝑥, 𝑦)𝑝] 可以理解为在联合分布 𝛾(𝑥, 𝑦) 下把形状为 𝑞1 的土堆搬运到形状为𝑞2 的土堆所需的工作量,

image.png

其中从土堆𝑞1 中的点𝑥 到土堆𝑞2 中的点𝑦 的移动土的数量和距离分别为𝛾(𝑥, 𝑦)和 𝑑(𝑥, 𝑦)𝑝.因此,Wasserstein 距离可以理解为搬运土堆的最小工作量,也称为推土机距离(Earth-Mover’s Distance,EMD).图E.1给出了两个离散变量分布的Wasserstein距离示例.图E.1c中同颜色方块表示在分布𝑞1 中为相同位置.

image.png

Wasserstein 距离相比 KL 散度和 JS 散度的优势在于:即使两个分布没有重叠或者重叠非常少,Wasserstein距离仍然能反映两个分布的远近.


对于 ℝ𝐷 空间中的两个高斯分布 𝑝 = 𝒩(𝝁1 , 𝚺1) 和 𝑞 = 𝒩(𝝁2 , 𝚺2),它们的2 nd-Wasserstein距离为

image.png

当两个分布的方差为0时,2 nd-Wasserstein距离等价于欧氏距离.

相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
人工智能(AI)的数学基础
人工智能(AI)的数学基础
558 4
|
机器学习/深度学习 人工智能 算法
“探秘神经算法:如何用人工智能模拟大脑处理信息“
“探秘神经算法:如何用人工智能模拟大脑处理信息“
72 0
|
3月前
|
存储 机器学习/深度学习 人工智能
【科技知识】信息系统和人工智能发展的思考
本文整理自陆军院士关于信息系统和人工智能发展的网课讲座,探讨了信息系统的内涵、狭义与广义信息学的定义、技术发展,并提出了广义信息系统技术需结合思维科学和哲学,以促进强人工智能的发展。
61 7
|
6月前
|
机器学习/深度学习 人工智能 算法
人工智能(AI)中的数学基础
人工智能(AI)是一个多学科交叉的领域,它涉及到计算机科学、数学、逻辑学、心理学和工程学等多个学科。数学是人工智能发展的重要基础之一,为AI提供了理论支持和工具。
109 1
|
6月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI 操作报错合集之在PAI-DSW(平台上的AI数据科学工作站)上尝试修改实例名时,收到"实例不存在"的错误信息如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
6月前
|
存储 人工智能 算法
【软件设计师备考 专题 】信息管理、数据处理、辅助设计、自动控制、科学计算、人工智能等基础知识
【软件设计师备考 专题 】信息管理、数据处理、辅助设计、自动控制、科学计算、人工智能等基础知识
94 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能语音数据标注信息
人工智能语音数据标注信息
152 1
|
11月前
|
机器学习/深度学习 人工智能 算法
人工智能数学基础
人工智能数学基础
103 1
|
人工智能 移动开发 搜索推荐
人工智能手段为依托的智慧导诊系统源码,提供智能分诊、问病信息等服务
智慧导诊页面会显示男性或女性的身体结构图,可切换正面/背面。通过点击部位选项,选择自己身体不适的部位,系统会列出该部位的所有症状疾病,患者只需要选择与自己相同的症状,系统就会列出该疾病的介绍以及建议科室。
112 0
|
机器学习/深度学习 人工智能 自然语言处理
人工智能知识图谱之信息抽取:基于Labelstudio的UIE半监督深度学习的智能标注方案(云端版),提效。
人工智能知识图谱之信息抽取:基于Labelstudio的UIE半监督深度学习的智能标注方案(云端版),提效。