数学基础之——熵与散度的灵魂摆渡(解析大全)(二)

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介: 数学基础之——熵与散度的灵魂摆渡(解析大全)(二)

3.5、α-散度

6c1a95bce95a09f37ff86b9117602482.png

当α→0或1时,可以得到KL散度或者reverse KL散度.

只有当α=0.5的时候对称.


3.6、F-散度

   散度是用来衡量两个概率密度P,Q区别的函数,即:两个分布的相似程度.

193fc582241bf44f2644d20f59b141e5.png

这里的f需要满足2个条件:f是凸函数且f(1)=0.

可以证明:因为f是凸函数,由Jensen不等式可知E[f(x)]≥f(E[x])

91378cfadeede99d1bb336fd46483174.png

   如果f(X)=XlogX,那就是KL散度;如果是f(X)=-logX,那就表示reverse KL散度。甚至,当取某些函数时,它还可以表达α-散度。具体的,下面的表格给出了F-散度的一些特例.

0be259c28cdb5b4291823a4b2d5949e7.png

3.7、互信息

   互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

7ffcb409a46af636038972964921e551.png

互信息定义如下:

e19450775e61471aaaf2337bee10c19a.png

   假设X与Y相互独立,那么p(x,y)=p(x)p(y),于是互信息的直观意义就是X、Y在假设独立情况下和真实的非独立情况下的编码长度之差在X和Y联合分布上的期望。

   对上式继续进行化解,有:

0d062deef4f597f1811ffdd568ff0e45.png

   因此互信息也可以看成条件分布p(x|y)到分布p(x)的KL散度在Y上的期望。


   此外互信息还和条件熵有着极大关系——互信息可以看成熵和条件熵的差:

7344aaaca6139585cf2d73d50ec6eb5f.png

互信息的性质:

(1) 对称性:I(xi ;yj) = I(xi ;yj);

(2) X与Y独立时:I(xi ;yj)= 0;

(3) I(xi ;yj)非负:平均互信息量不是从两个具体消息出发, 而是从随机变量X和Y的整体角度出发, 并在平均意义上观察问题, 所以平均互信息量不会出现负值。或者说从一个事件提取关于另一个事件的信息, 最坏的情况是0, 不会由于知道了一个事件,反而使另一个事件的不确定度增加。


   互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。


   在过滤问题中用于度量特征对于主题的区分度。互信息的定义与交叉熵近似。


   互信息本来是信息论中的一个概念,用于表示信息之间的关系, 是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。


   通常用互信息作为特征词和类别之间的测度,如果特征词属于该类的话,它们的互信息量最大。由于该方法不需要对特征词和类别之间关系的性质作任何假设,因此非常适合于文本分类的特征和类别的配准工作


3.8、Wasserstein距离

   KL散度和JS散度度量的问题:如果两个分配P,Q离得很远,完全没有重叠的时候,那么KL散度值是没有意义的,而JS散度值是一个常数。这在学习算法中是比较致命的,这就意味这这一点的梯度为0。梯度消失了。


   Wasserstein距离度量两个概率分布之间的距离,定义如下:

87a90360f53181a2d315734dce91718f.png

   Π(P1,P2)是P1和P2分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布γ,可以从中采样(x,y)~γ得到一个样本x和y,并计算出这对样本的距离||x−y||,所以可以计算该联合分布γ下,样本对距离的期望值E(x,y)~γ[||x−y||]。在所有可能的联合分布中能够对这个期望值取到的下界infγ~Π(P1,P2)E(x,y)~γ[||x−y||]就是Wasserstein距离。


   直观上可以把E(x,y)~γ[||x−y||]理解为在γ这个路径规划下把土堆P1挪到土堆P2所需要的消耗。而Wasserstein距离就是在最优路径规划下的最小消耗。所以Wesserstein距离又叫Earth-Mover距离。


   Wasserstein距离相比KL散度、JS散度的优越性在于,即便两个分布没有重叠,Wasserstein距离仍然能够反映它们的远近;而JS散度在此情况下是常量,KL散度可能无意义。WGAN本作通过简单的例子展示了这一点。考虑如下二维空间中的两个分布P1和P2,P1在线段AB上均匀分布,P2在线段CD上均匀分布,通过控制参数θ可以控制着两个分布的距离远近。

8e47306a6613448c712651db4cb156fc.png

此时容易得到:

d4c3dd08d43a5df49d82a07839dcae09.png

   KL散度和JS散度是突变的,要么最大要么最小,Wasserstein距离却是平滑的,如果我们要用梯度下降法优化θ这个参数,前两者根本提供不了梯度,Wasserstein距离却可以。类似地,在高维空间中如果两个分布不重叠或者重叠部分可忽略,则KL和JS既反映不了远近,也提供不了梯度,但是Wasserstein却可以提供有意义的梯度。

   使用 Wasserstein distance 来刻画分布之间的不同是必要的:右边的那个gene expression的分布,看上去十分像是把左边那个分布往上挤了之后的结果。所以如果要刻画这种“原因”导致的区别,用Wasserstein distance比其他要更合理。


3.9、Bregman散度

   上述,F散度已经可以表达我们提到的所有散度,目前为止它是最通用的散度形式。但很多paper种也会出现另一种叫做Bregman的散度,它和F散度不太一样,是另一大类散度。


   Bregman散度定义如下:设函数f是一个定义在凸函数Ω∈Rd上的可导且严格凸的函数,F定义域上的任意两点x,y∈Ω,则在F函数上的Bregman散度为:

对上式在y点进行泰勒展开:

   由上式可以得到,Bregman散度就是函数f(x)在y点进行一阶泰勒展开的余项Rn(x),即函数f(x)与其自身的线性近似(一阶泰勒展开)之间的“距离”,如下图所示:

   和F散度类似,Bregman散度也是一大类散度的通用表达形式,具体的,根据f取不同的函数,它可以表示不同的散度,其中KL散度就是它的一个特例。下图给出了一些特例。

相关文章
|
3月前
|
机器学习/深度学习 自然语言处理 JavaScript
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)是量化概率分布差异的关键概念。本文深入探讨了KL散度及其相关概念,包括Jensen-Shannon散度和Renyi散度。KL散度用于衡量两个概率分布之间的差异,而Jensen-Shannon散度则提供了一种对称的度量方式。Renyi散度通过可调参数α,提供了更灵活的散度度量。这些概念不仅在理论研究中至关重要,在实际应用中也广泛用于数据压缩、变分自编码器、强化学习等领域。通过分析电子商务中的数据漂移实例,展示了这些散度指标在捕捉数据分布变化方面的独特优势,为企业提供了数据驱动的决策支持。
190 2
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
|
3月前
|
机器学习/深度学习 算法 C语言
【Python】Math--数学函数(详细附解析~)
【Python】Math--数学函数(详细附解析~)
|
3月前
|
存储 Java 开发者
【编程基础知识】 计算机中的数学魔法:二进制加减运算全解析
本文深入解析了计算机中二进制加减运算的原理,涵盖原码、反码和补码的概念及应用,结合具体示例,帮助读者理解计算机底层数学运算机制,适合Java开发者学习。
70 0
|
5月前
|
人工智能 算法
AI 0基础学习,数学名词解析
AI 0基础学习,数学名词解析
32 2
|
7月前
|
数据可视化 算法 大数据
深入解析高斯过程:数学理论、重要概念和直观可视化全解
这篇文章探讨了高斯过程作为解决小数据问题的工具,介绍了多元高斯分布的基础和其边缘及条件分布的性质。文章通过线性回归与维度诅咒的问题引出高斯过程,展示如何使用高斯过程克服参数爆炸的问题。作者通过数学公式和可视化解释了高斯过程的理论,并使用Python的GPy库展示了在一维和多维数据上的高斯过程回归应用。高斯过程在数据稀疏时提供了一种有效的方法,但计算成本限制了其在大数据集上的应用。
388 1
|
8月前
|
机器学习/深度学习 存储 算法
卷积神经网络(CNN)的数学原理解析
卷积神经网络(CNN)的数学原理解析
233 1
|
8月前
|
机器学习/深度学习 人工智能 数据可视化
号称能打败MLP的KAN到底行不行?数学核心原理全面解析
Kolmogorov-Arnold Networks (KANs) 是一种新型神经网络架构,挑战了多层感知器(mlp)的基础,通过在权重而非节点上使用可学习的激活函数(如b样条),提高了准确性和可解释性。KANs利用Kolmogorov-Arnold表示定理,将复杂函数分解为简单函数的组合,简化了神经网络的近似过程。与mlp相比,KAN在参数量较少的情况下能达到类似或更好的性能,并能直观地可视化,增强了模型的可解释性。尽管仍需更多研究验证其优势,KAN为深度学习领域带来了新的思路。
2943 5
|
8月前
|
算法 测试技术 C#
【分类讨论】【解析几何】【 数学】【推荐】1330. 翻转子数组得到最大的数组值
【分类讨论】【解析几何】【 数学】【推荐】1330. 翻转子数组得到最大的数组值
|
2月前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
88 2
|
13天前
|
存储 设计模式 算法
【23种设计模式·全精解析 | 行为型模式篇】11种行为型模式的结构概述、案例实现、优缺点、扩展对比、使用场景、源码解析
行为型模式用于描述程序在运行时复杂的流程控制,即描述多个类或对象之间怎样相互协作共同完成单个对象都无法单独完成的任务,它涉及算法与对象间职责的分配。行为型模式分为类行为模式和对象行为模式,前者采用继承机制来在类间分派行为,后者采用组合或聚合在对象间分配行为。由于组合关系或聚合关系比继承关系耦合度低,满足“合成复用原则”,所以对象行为模式比类行为模式具有更大的灵活性。 行为型模式分为: • 模板方法模式 • 策略模式 • 命令模式 • 职责链模式 • 状态模式 • 观察者模式 • 中介者模式 • 迭代器模式 • 访问者模式 • 备忘录模式 • 解释器模式
【23种设计模式·全精解析 | 行为型模式篇】11种行为型模式的结构概述、案例实现、优缺点、扩展对比、使用场景、源码解析

热门文章

最新文章

推荐镜像

更多