指数族分布|机器学习推导系列(九)

简介: 指数族分布|机器学习推导系列(九)

一、介绍


  1. 一般形式


指数族分布有:高斯分布、伯努利分布、二项分布、泊松分布、beta分布、Dirichlet分布、gamma分布等。


指数族分布的一般形式:

G8Q1N07$63R`0X6$X3EQ}RW.png


其中:

LLRR@]S%%F(6Z6RLDZX~{PF.png

  1. 配分函数


$$NT4D96]RGA50`D2XPJ@_C.png

HTJT0UFGMOK5MJVMU~K_GRW.png

RM{9%@W}1$7)ZW0O2)B2IIJ.png


  1. 指数族分布的特点、模型和应用


59FV5RE}A6MPKCA%RF8Y3BJ.png


  • 充分统计量

(_XLRDBHVU)R~FR[OQ2C_SS.png是充分统计量。


什么是充分统计量?举例来说,对于从一些从高斯分布中抽取出来的样本HWR%Y4{3AR_HK3`U$9V1S%G.png,以下统计量就是充分统计量:

2{F726BXWUSFW]WZNZXZ~)C.png


因为通过上述统计量可以计算样本的均值和方差进而得到其明确的分布。


有了充分统计量就可以将样本丢掉,从而节省了空间,对online learning有重要意义。


  • 共轭


_X~QP1L7LUD0TLM7%49PYB6.png


4ZGYM@)3HN8]B9G7CZINWTP.png

}YTKU{GK[L}ZX49EA0]QWNV.png


举个例子:


AO]@AA(GJWQ9T_6`%YD$(MT.png


  • 最大熵

MPA[__9DX)M9Y%GT91S11P9.png

最大熵原理给出了一种定义先验的方式,可以使得参数更加地随机。


  • 广义线性模型


广义线性模型中出现的一些概念:


Q~1C)GZBXSB$$C((5TH16)I.png


  • 概率图模型


无向图中的RBM(限制玻尔兹曼机)应用到了指数族分布。


二、高斯分布的指数族分布形式


以一维高斯分布为例,将高斯分布整理成指数族分布的形式:


T072`PKA_CG$Z{Q$ECTEWW2.png

16A2U6EW109}S[_~6QD(EN7.png


由此就将高斯分布整理成了指数族分布的形式:


9N$S(VOX9SS{X4H@2Y}}05O.png


三、对数配分函数与充分统计量


通过对指数族分布的通用形式进行整理,可以得出对数配分函数与充分统计量

的特定关系:


)7QE6X(V2[Z(_FTWHGTJ8QW.png


B4R31%UL3U}R4473CVN)[CT.png


四、极大似然估计与充分统计量


上述推导都是在无样本条件下进行的,在有样本的情况下我们也可以通过极大似然估计法来获得一些特定的关系,假设有如下数据:


JRG[ZMABE()F8PV]{Z{_UY0.png


`@)[X%B$8V%AKEX1HSMN$ZU.png


五、最大熵


  1. 概述


首先定义信息量和熵:


AH0GPA`8BHU`R$J~8314DPR.png


  1. 离散情况下的最大熵


[@SG]LVSXM)SV_~TSUUUEC7.png


通过求解以下约束优化问题可以求得使得离散情况下熵最大的分布:


AD_GR7(08D55}2TAP(5OF_V.png

使用拉格朗日乘子法进行求解:


2XI8MLF%Q(CGE4DS`E%GWPM.png


离散情况下均匀分布会使得熵最大。也就是说在没有任何已知条件约束的情况下均匀分布的熵最大。


  1. 最大熵原理


上一部分得出在无任何已知的情况下的最大熵对应的分布为均匀分布,而在满足一定的约束(已知事实)的条件下就要使用最大熵原理来进行求解。


首先要说明已知事实指的就是我们已经有了一部分数据:


P1~SQXG}Z5ISJSMPVD7711S.png

然后根据数据我们可以定义其经验分布:


`5OBITV83ELAT@`6JZK7%}S.png

01K9_PTNC(EF)PRMBS$L$6J.png



也就是说现在需要满足上述约束条件,于是在该约束下求解最大熵的分布就转换成了一个约束优化问题:


$0AZM(C%~{%01KGF@72QQ61.png

显示JB81`_F4~`%SCK0L4_{AIOR.png是一个指数族分布,因此对于连续变量~{KG7UBH)U@J[SAA{QXP3D0.png,其在满足既定事实的条件下对应的最大熵的分布是一个指数族分布。

相关文章
|
机器学习/深度学习
受限玻尔兹曼机|机器学习推导系列(二十五)
受限玻尔兹曼机|机器学习推导系列(二十五)
677 0
受限玻尔兹曼机|机器学习推导系列(二十五)
|
机器学习/深度学习 人工智能 移动开发
【机器学习】线性分类——高斯判别分析GDA(理论+图解+公式推导)
【机器学习】线性分类——高斯判别分析GDA(理论+图解+公式推导)
285 0
【机器学习】线性分类——高斯判别分析GDA(理论+图解+公式推导)
|
机器学习/深度学习 人工智能 算法
【机器学习】线性分类——线性判别分析LDA(理论+图解+公式推导)
【机器学习】线性分类——线性判别分析LDA(理论+图解+公式推导)
186 0
【机器学习】线性分类——线性判别分析LDA(理论+图解+公式推导)
|
机器学习/深度学习 算法 数据挖掘
100天搞定机器学习|day44 k均值聚类数学推导与python实现
100天搞定机器学习|day44 k均值聚类数学推导与python实现
100天搞定机器学习|day44 k均值聚类数学推导与python实现
|
机器学习/深度学习 算法
100天搞定机器学习|day38 反向传播算法推导
100天搞定机器学习|day38 反向传播算法推导
100天搞定机器学习|day38 反向传播算法推导
|
机器学习/深度学习 算法
Sigmoid信念网络|机器学习推导系列(二十八)
Sigmoid信念网络|机器学习推导系列(二十八)
217 0
Sigmoid信念网络|机器学习推导系列(二十八)
|
机器学习/深度学习 算法
近似推断|机器学习推导系列(二十七)
近似推断|机器学习推导系列(二十七)
120 0
近似推断|机器学习推导系列(二十七)
|
机器学习/深度学习 算法
配分函数|机器学习推导系列(二十六)
配分函数|机器学习推导系列(二十六)
229 0
配分函数|机器学习推导系列(二十六)
|
机器学习/深度学习
高斯过程回归|机器学习推导系列(二十四)
高斯过程回归|机器学习推导系列(二十四)
459 0
高斯过程回归|机器学习推导系列(二十四)
|
机器学习/深度学习
贝叶斯线性回归|机器学习推导系列(二十三)
贝叶斯线性回归|机器学习推导系列(二十三)
279 0
贝叶斯线性回归|机器学习推导系列(二十三)