常见概率分布知多少——13个常用概率分布的介绍（一）-阿里云开发者社区

常见概率分布知多少——13个常用概率分布的介绍（一）

2023-05-17 322

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 常见概率分布知多少——13个常用概率分布的介绍（一）

1、伯努利分布

这是一个二元变量x∈{0,1}的分布，例如投硬币的结果。它由一个连续参数μ∈[0,1]控制，这个参数表示x=1的概率。

伯努利分布是二项分布对单一观测的特殊情况。它对于μ的共轭先验是Beta分布。

2、Beta分布

这是一个连续变量μ∈[0,1]的分布，经常用于表示某些二元事件的概率。它有两个参数a和b。为了保证分布能够归一化，我们要求a>0并且b>0。

Beta分布是伯努利分布的共轭先验，其中a和b可以分别表示为x=1和x=0的观测的有效先验数量。如果a≥1且b≥1，那么它的概率密度是有限值，否者在μ=0和μ=1处会有奇异值。对于a=b=1的情形，它就简化成了均匀分布。Beta分布是K状态狄利克雷分布在K=2时的特殊情况。

3、二项分布

二项分布给出了来自伯努利分布的N个样本中观察到m次x=1的概率。伯努利分布中，观察到x=1的概率时 μ∈[0,1]。

表示从N个完全相同的物体中选择m个物体的总方案数量。这里m！表示乘积m×(m-1)×...×2×1。二项分布中N=1这一特殊情形被称为伯努利分布，对于大的N的值，二项分布近似高斯分布。μ的共轭先验是Beat分布。

4、狄利克雷分布

狄利克雷分布是K个随机变量0≤μk≤1的多变量分布，其中k=1,...,K，并且满足下面的限制

记

我们有

这里的φ(x)被称为digamma函数，为了保证概率归一化，参数αk满足限制αk>0。

狄利克雷分布是多项式分布的共轭先验，是Beta分布的推广。这种情况下，参数αk是K维二元观察向量x对应值的有效观测数量。和Beta分布相同，如果对于所有的k都有αk>=0，那么狄利克雷分布在空间中所有位置的密度均为有限值。

5、Gamma分布

Gamma分布是正随机变量τ的概率分布，参数为a和b，满足限制a>0和b>0，保证概率分布是归一化的。

其中φ(x)被称为digamma函数。Gamma分布式单变量高斯分布的精度（方差的倒数）的共轭先验。当时，概率密度处处为有限值，a=1这一特殊情况被称为指数分布。

6、高斯分布

高斯分布是连续变量中最广泛使用的概率分布，也被称为正态分布。在一元变量x∈(负无穷大，正无穷大)的情况下，它由两个参数控制：均值μ和方差σ。

方差的倒数τ被称为精度，方差的平方根σ被称为标准差。μ的共轭先验是高斯分布，τ的共轭先验是Gamma分布。如果μ和τ都未知，那么它们的联合共轭先验是高斯-Gamma分布。

对于一个D维向量x，高斯分布的参数是一个D维均值向量μ和一个D×D的协方差矩阵Σ。协方差矩阵一定是对称的、正定的。

协方差矩阵的逆矩阵叫做精度矩阵，也是对称的、正定的。根据中心极限定理，随机变量的平均值趋近于高斯分布，并且两个高斯变量之和仍然是高斯。给定方差（或者协方差），高斯分布是最大化熵值的分布。高斯随机变量的任意线性组合仍然是高斯分布。多元高斯分布的变量关于变量的一个子集的边缘分布仍然是高斯分布，类似地，条件分布也是高斯分布。μ的共轭先验仍然是高斯分布，λ的共轭先验是一个Wishart分布，(μ，λ)的共轭先验是高斯-Wishart分布。

如果我们给定有一个x的边缘高斯分布，以及在给定x的条件下y的条件高斯分布，形式如下：