【人工智能数学基础(四)】概率论-阿里云开发者社区

概率论

概率论主要研究大量随机现象中的数量规律，其应用十分广泛，几乎遍及各个领域．

1. 样本空间

样本空间是一个随机试验所有可能结果的集合．例如，如果抛掷一枚硬币，那么样本空间就是集合 {正面，反面}．如果投掷一个骰子，那么样本空间就是{1, 2, 3, 4, 5, 6}．随机试验中的每个可能结果称为样本点．

有些试验有两个或多个可能的样本空间．例如，从 52 张扑克牌中随机抽出一张，样本空间可以是数字（A到K），也可以是花色（黑桃，红桃，梅花，方块）．如果要完整地描述一张牌，就需要同时给出数字和花色，这时样本空间可以通过构建上述两个样本空间的笛卡儿乘积来得到．

2. 事件和概率

随机事件（或简称事件）指的是一个被赋予概率的事物集合，也就是样本空间中的一个子集．概率（Probability）表示一个随机事件发生的可能性大小到1之间的实数．比如，一个0.5的概率表示一个事件有50%的可能性发生．

对于一个机会均等的抛硬币动作来说，其样本空间为“正面”或“反面”．我们可以定义各个随机事件，并计算其概率．比如，

（1） {正面}，其概率为0.5．

（2） {反面}，其概率为0.5．

（3）空集∅，不是正面也不是反面，其概率为0．

（4） {正面|反面}，不是正面就是反面，其概率为1．

如果随机掷两个骰子，整个事件空间Ω可以由36个元素组成：

一个随机事件也可以定义多个随机变量．比如在掷两个骰子的随机事件中，可以定义随机变量 𝑋 为获得的两个骰子的点数和，也可以定义随机变量 𝑌 为获得的两个骰子的点数差．随机变量𝑋 可以有11个整数值，而随机变量𝑌 只有6个整数值．

其中𝑖, 𝑗 分别为两个骰子的点数．

2.1.1 离散随机变量

如果随机变量𝑋 所可能取的值为有限可列举的，有 𝑁 个有限取值

{𝑥1 , ⋯ , 𝑥𝑁 },

则称𝑋 为离散随机变量．

要了解𝑋 的统计规律，就必须知道它取每种可能值𝑥𝑛 的概率，即

其中 𝑝(𝑥1 ), ⋯ , 𝑝(𝑥𝑁 ) 称为离散随机变量 𝑋 的概率分布（Probability Distribution）或分布，并且满足

常见的离散随机变量的概率分布有：

伯努利分布在一次试验中，事件A出现的概率为𝜇，不出现的概率为1 − 𝜇．若用变量𝑋 表示事件𝑨出现的次数，则𝑋 的取值为0和1，其相应的分布为

这个分布称为伯努利分布（Bernoulli Distribution）,又名两点分布或者0-1分布．

二项分布在N次伯努利试验中，若以变量𝑋 表示事件A出现的次数，则𝑋 的取值为{0, ⋯ , 𝑁}，其相应的分布为二项分布（Binomial Distribution）．

其中 (𝑁𝑘 ) 为二项式系数，表示从 𝑁 个元素中取出 𝑘 个元素而不考虑其顺序的组合的总数．

2.1.2 连续随机变量

与离散随机变量不同，一些随机变量𝑋 的取值是不可列举的，由全部实数或者由一部分区间组成，比如

𝑋 = {𝑥|𝑎 ≤ 𝑥 ≤ 𝑏}, −∞ < 𝑎 < 𝑏 < ∞,

则称𝑋 为连续随机变量．连续随机变量的值是不可数及无穷尽的．

对于连续随机变量 𝑋，它取一个具体值 𝑥𝑖 的概率为 0，这和离散随机变量截然不同．因此用列举连续随机变量取某个值的概率来描述这种随机变量不但做不到，也毫无意义．连续随机变量𝑋 的概率分布一般用概率密度函数（Probability Density Function，PDF）𝑝(𝑥)来描述．𝑝(𝑥)为可积函数，并满足

给定概率密度函数𝑝(𝑥)，便可以计算出随机变量落入某一个区域的概率．令 ℛ 表示𝑥 的非常小的邻近区域，|ℛ|表示ℛ 的大小，则𝑝(𝑥)|ℛ|可以反映随机变量处于区域ℛ 的概率大小．

常见的连续随机变量的概率分布有：

均匀分布若 𝑎, 𝑏 为有限数，[𝑎, 𝑏] 上的均匀分布（Uniform Distribution）的概率密度函数定义为

正态分布正态分布（Normal Distribution），又名高斯分布（Gaussian Distribution），是自然界最常见的一种分布，并且具有很多良好的性质，在很多领域都有非常重要的影响力，其概率密度函数为

其中 𝜎 > 0，𝜇 和 𝜎 均为常数．若随机变量 𝑋 服从一个参数为 𝜇 和 𝜎 的概率分布，简记为

当𝜇 = 0，𝜎 = 1时，称为标准正态分布（Standard Normal Distribution）．图D.1a和D.1b分别显示了均匀分布和正态分布的概率密度函数．

2.1.3 累积分布函数

对于一个随机变量 𝑋，其累积分布函数（Cumulative Distribution Function，CDF）是随机变量𝑋 的取值小于等于𝑥的概率．

以连续随机变量𝑋 为例，累积分布函数定义为

其中𝑝(𝑥)为概率密度函数．图D.2给出了标准正态分布的概率密度函数和累计分布函数．

2.2 随机向量

随机向量是指一组随机变量构成的向量．如果 𝑋1 , 𝑋2 , ⋯ , 𝑋𝐾 为 𝐾 个随机变量, 那么称𝑿 = [𝑋1 , 𝑋2 , ⋯ , 𝑋𝐾]为一个𝐾 维随机向量．随机向量也分为离散随机向量和连续随机向量．

2.2.1 离散随机向量

离散随机向量的联合概率分布（Joint Probability Distribution）为

𝑃(𝑋1 = 𝑥1 , 𝑋2 = 𝑥2 , ⋯ , 𝑋𝐾 = 𝑥𝐾) = 𝑝(𝑥1 , 𝑥2 , ⋯ , 𝑥𝐾),

其中𝑥𝑘 ∈ Ω𝑘 为变量𝑋𝑘 的取值和离散随机变量类似，Ω𝑘 为变量𝑋𝑘 的样本空间．

和离散随机变量类似，离散随机向量的概率分布满足

多项分布一个最常见的离散向量概率分布为多项分布（Multinomial Distribution）．多项分布是二项分布在随机向量的推广．假设一个袋子中装了很多球，总共有 𝐾 个不同的颜色．我们从袋子中取出 𝑁 个球．每次取出一个球时，就在袋子中放入一个同样颜色的球．这样保证同一颜色的球在不同试验中被取出的概率是相等的．令 𝑿 为一个 𝐾 维随机向量，每个元素 𝑋𝑘(𝑘 = 1, ⋯ , 𝐾) 为取出的 𝑁个球中颜色为𝑘的球的数量，则𝑋 服从多项分布，其概率分布为

其中𝝁 = [𝜇1, ⋯ , 𝜇𝐾]T 分别为每次抽取的球的颜色为1, ⋯ , 𝐾 的概率；𝑥1 , ⋯ , 𝑥𝐾为非负整数，并且满足∑𝐾𝑘=1 𝑥𝑘 = 𝑁．多项分布的概率分布也可以用gamma函数表示：

其中 Γ(𝑧) = ∫∞0 𝑡 𝑧−1exp(𝑡)d𝑡 为 gamma 函数．这种表示形式和狄利克雷分布类似，而狄利克雷分布可以作为多项分布的共轭先验．

2.2.2 连续随机向量

一个 𝐾 维连续随机向量 𝑿 的联合概率密度函数（Joint Probability Density）满足

多元正态分布使用最广泛的连续随机向量分布为多元正态分布（MultivariateNormal Distribution），也称为多元高斯分布（Multivariate Gaussian Distribution）．若𝐾 维随机向量𝑿 = [𝑋1, ⋯ , 𝑋𝐾]T 服从𝐾 元正态分布，其密度函数为

其中𝝁 ∈ ℝ𝐾 为多元正态分布的均值向量，𝚺 ∈ ℝ𝐾×𝐾 为多元正态分布的协方差矩阵，|𝚺|表示𝚺的行列式．

各项同性高斯分布如果一个多元高斯分布的协方差矩阵简化为𝚺 = 𝜎2𝑰，即每一个维随机变量都独立并且方差相同，那么这个多元高斯分布称为各向同性高斯分布（Isotropic Gaussian Distribution）．

狄利克雷分布如果一个 𝐾 维随机向量 𝑿 服从狄利克雷分布（Dirichlet Distribution）其密度函数为

其中𝜶 = [𝛼1, ⋯ , 𝛼𝐾]T 为狄利克雷分布的参数．

2.3 边际分布

对于二维离散随机向量(𝑋, 𝑌 )，假设𝑋 取值空间为Ω𝑥，𝑌 取值空间为Ω𝑦，其联合概率分布满足

对于联合概率分布𝑝(𝑥, 𝑦)，我们可以分别对𝑥和𝑦进行求和．

（1）对于固定的𝑥，

（2）对于固定的𝑦，

由离散随机向量 (𝑋, 𝑌 ) 的联合概率分布，对 𝑌 的所有取值进行求和得到 𝑋的概率分布；而对 𝑋 的所有取值进行求和得到 𝑌 的概率分布．这里 𝑝(𝑥) 和 𝑝(𝑦)就称为𝑝(𝑥, 𝑦)的边际分布（Marginal Distribution）．

对于二维连续随机向量(𝑋, 𝑌 )，其边际分布为

一个二元正态分布的边际分布仍为正态分布．

2.4 条件概率分布

对于离散随机向量(𝑋, 𝑌 )已知𝑋 = 𝑥 的条件下，随机变量𝑌 = 𝑦 的条件概率（Conditional Probability ）为

这个公式定义了随机变量𝑌 关于随机变量𝑋 的条件概率分布（Conditional Probability Distribution），简称条件分布．

对于二维连续随机向量(𝑋, 𝑌 )，已知𝑋 = 𝑥 的条件下，随机变量𝑌 = 𝑦 的条件概率密度函数（Conditional Probability Density Function）为

同理，已知𝑌 = 𝑦 的条件下，随机变量𝑋 = 𝑥 的条件概率密度函数为

2.5 贝叶斯定理

通过公式(D.30)和(D.31)，两个条件概率𝑝(𝑦|𝑥)和𝑝(𝑥|𝑦)之间的关系为

这个公式称为贝叶斯定理（Bayes’ Theorem），或贝叶斯公式．

2.6 独立与条件独立

对于两个离散（或连续）随机变量𝑋 和𝑌，如果其联合概率（或联合概率密度函数）𝑝(𝑥, 𝑦)满足

则称𝑋 和𝑌 互相独立（Independence），记为𝑋 ⟂⟂ 𝑌．

对于三个离散（或连续）随机变量𝑋、𝑌 和𝑍，如果条件概率（或联合概率密度函数）𝑝(𝑥, 𝑦|𝑧)满足

则称在给定变量𝑍 时，𝑋 和𝑌条件独立（Conditional Independence），记为𝑋 ⟂⟂𝑌|𝑍．

2.7 期望和方差

期望对于 𝑁 个取值的离散变量 𝑋，其概率分布为 𝑝(𝑥1 ), ⋯ , 𝑝(𝑥𝑁 )，𝑋 的期望（Expectation）定义为

对于连续随机变量𝑋，概率密度函数为𝑝(𝑥)，其期望定义为

方差随机变量𝑋 的方差（Variance）用来定义它的概率分布的离散程度：

随机变量𝑋 的方差也称为它的二阶矩．√var(𝑋)则称为𝑋 的根方差或标准差．

协方差两个连续随机变量 𝑋 和 𝑌 的协方差（Covariance）用来衡量两个随机变量的分布之间的总体变化性，定义为

协方差经常也用来衡量两个随机变量之间的线性相关性．如果两个随机变量的协方差为 0，那么称这两个随机变量是线性不相关．两个随机变量之间没有线性相关性，并非表示它们之间是独立的，可能存在某种非线性的函数关系．反之，如果𝑋 与𝑌 是统计独立的，那么它们之间的协方差一定为0．

协方差矩阵两个 𝑀 和 𝑁 维的连续随机向量 𝑿 和 𝒀，它们的协方差（Covariance）为𝑀 × 𝑁 的矩阵，定义为

协方差矩阵 cov(𝑿, 𝒀 ) 的第 (𝑚, 𝑛) 个元素等于随机变量 𝑋𝑚 和 𝑌𝑛 的协方差．两个随机向量的协方差cov(𝑿, 𝒀 )与cov(𝒀, 𝑿)互为转置关系．

如果两个随机向量的协方差矩阵为对角矩阵，那么称这两个随机向量是无关的．

单个随机向量𝑿 的协方差矩阵定义为

2.7.1 Jensen不等式

如果𝑋 是随机变量，𝑔是凸函数，则

等式当且仅当 𝑋 是一个常数或𝑔是线性时成立，这个性质称为Jensen不等式．

特别地，对于凸函数𝑔定义域上的任意两点𝑥1、𝑥2 和一个标量𝜆 ∈ [0, 1]，有

即凸函数𝑔上的任意两点的连线位于这两点之间函数曲线的上方．

2.7.2 大数定律

大数定律（Law of Large Numbers）是指 𝑁 个样本 𝑋1 , ⋯ , 𝑋𝑁 是独立同分布的，即𝔼[𝑋1 ] = ⋯ = 𝔼[𝑋𝑁 ] = 𝜇，那么其均值

收敛于期望值𝜇，即

3. 随机过程

随机过程（Stochastic Process）是一组随机变量𝑋𝑡 的集合，其中𝑡 属于一个索引（index）集合 𝒯．索引集合 𝒯 可以定义在时间域或者空间域，但一般为时间域，以实数或正数表示．当 𝑡 为实数时，随机过程为连续随机过程；当 𝑡 为整数时，为离散随机过程．日常生活中的很多例子包括股票的波动、语音信号、身高的变化等都可以看作随机过程．常见的和时间相关的随机过程模型包括伯努利过程、随机游走（Random Walk）、马尔可夫过程等．和空间相关的随机过程通常称为随机场（Random Field）．比如一张二维的图片，每个像素点（变量）通过空间的位置进行索引，这些像素就组成了一个随机过程．

3.1 马尔可夫过程

马尔可夫性质在随机过程中，马尔可夫性质（Markov Property）是指一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态．以离散随机过程为例，假设随机变量𝑋0 , 𝑋1 , ⋯ , 𝑋𝑇 构成一个随机过程．这些随机变量的所有可能取值的集合被称为状态空间（State Space）．如果𝑋𝑡+1 对于过去状态的条件概率分布仅是𝑋𝑡 的一个函数，则

其中𝑋0∶𝑡 表示变量集合𝑋0 , 𝑋1 , ⋯ , 𝑋𝑡，𝑥0∶𝑡 为在状态空间中的状态序列．马尔可夫性质也可以描述为给定当前状态时，将来的状态与过去状态是条件独立的．

3.1.1 马尔可夫链

离散时间的马尔可夫过程也称为马尔可夫链（Markov Chain）．如果一个马尔可夫链的条件概率

只和状态 𝑠 和 𝑠′ 相关，和时间 𝑡 无关，则称为时间同质的马尔可夫链（Time Homogeneous Markov Chain），其中 𝑚𝑠𝑠′ 称为状态转移概率．如果状态空间大小𝐾 是有限的，状态转移概率可以用一个矩阵𝑴 ∈ ℝ𝐾×𝐾 表示，称为状态转移矩阵（Transition Matrix），其中元素𝑚𝑖𝑗 表示状态𝑠𝑖 转移到状态𝑠𝑗 的概率．

平稳分布假设状态空间大小为𝐾，向量𝝅 = [𝜋1, ⋯ , 𝜋𝐾]T 为状态空间中的一个分布，满足0 ≤ 𝜋𝑘 ≤ 1和∑𝐾𝑘=1 𝜋𝑘 = 1．

对于状态转移矩阵为𝑴 的时间同质的马尔可夫链，若存在一个分布𝝅满足

则称分布𝝅为该马尔可夫链的平稳分布（Stationary Distribution）．根据特征向量的定义可知，𝝅为矩阵𝑴 的（归一化）的对应特征值为1的特征向量．

如果一个马尔可夫链的状态转移矩阵 𝑴 满足所有状态可遍历性以及非周期性，那么对于任意一个初始状态分布 𝝅 (0)，在经过一定时间的状态转移之后，都会收敛到平稳分布，即

3.2 高斯过程

高斯过程（Gaussian Process）也是一种应用广泛的随机过程模型．假设有一组连续随机变量𝑋0 , 𝑋1 , ⋯ , 𝑋𝑇，如果由这组随机变量构成的任一有限集合

𝑋𝑡1 ,⋯,𝑡𝑁 = [𝑋𝑡1 , ⋯ , 𝑋𝑡𝑁 ]T , 1 ≤ 𝑁 ≤ T

都服从一个多元正态分布，那么这组随机变量为一个随机过程．高斯过程也可以定义为：如果 𝑋𝑡1 ,⋯,𝑡𝑁 的任一线性组合都服从一元正态分布，那么这组随机变量为一个随机过程．

高斯过程回归高斯过程回归（Gaussian Process Regression）是利用高斯过程来对一个函数分布进行建模．和机器学习中参数化建模（比如贝叶斯线性回归）相比，高斯过程是一种非参数模型，可以拟合一个黑盒函数，并给出拟合结果的置信度[Rasmussen, 2003]．

假设一个未知函数𝑓(𝒙)服从高斯过程，且为平滑函数．如果两个样本𝒙1 , 𝒙2比较接近，那么对应的 𝑓(𝒙1 ), 𝑓(𝒙2) 也比较接近．假设从函数 𝑓(𝒙) 中采样有限个样本𝑿 = [𝒙1 , 𝒙2 , ⋯ , 𝒙𝑁 ]，这𝑁 个点服从一个多元正态分布，

其中 𝝁(𝑿) = [𝝁(𝒙1 ), 𝝁(𝒙2), ⋯ , 𝝁(𝒙𝑁 )]T 是均值向量，𝑲(𝑿, 𝑿) = [𝑘(𝒙𝑖 , 𝒙𝑗 )]𝑁×𝑁是协方差矩阵，𝑘(𝒙𝑖, 𝒙𝑗)为核函数，可以衡量两个样本的相似度．

在高斯过程回归中，一个常用的核函数是平方指数（Squared Exponential）核函数：

其中𝑙 为超参数．当𝒙𝑖 和𝒙𝑗 越接近，其函数值越大，表明𝑓(𝒙𝑖)和𝑓(𝒙𝑗)越相关．

假设 𝑓(𝒙) 的一组带噪声的观测值为 {(𝒙𝑛, 𝑦𝑛)}𝑁𝑛=1，其中 𝑦𝑛 ∼ 𝒩(𝑓(𝒙𝑛), 𝜎2) 为𝑓(𝑥𝑛)的观测值，服从正态分布，𝜎为噪声方差．

对于一个新的样本点 𝒙∗，我们希望预测 𝑓(𝒙∗) 的观测值 𝑦∗．令向量 𝒚 =[𝑦1 , 𝑦2 , ⋯ , 𝑦𝑁 ]T 为已有的观测值，根据高斯过程的假设，[𝒚; 𝑦∗]满足

其中𝑲(𝒙∗ , 𝑿) = [𝑘(𝒙∗ , 𝒙1 ), ⋯ , 𝑘(𝒙∗ , 𝒙𝑛)]．

根据上面的联合分布，𝑦∗ 的后验分布为

其中均值 ̂𝝁和方差 ̂𝜎为

从公式 (D.54) 可以看出，均值函数 𝝁(𝒙) 可以近似地互相抵消．在实际应用中，一般假设𝝁(𝒙) = 0，均值 ̂𝝁可以简化为

高斯过程回归可以认为是一种有效的贝叶斯优化方法，广泛地应用于机器学习中．

【人工智能数学基础(四)】概率论

概率论

1. 样本空间

2. 事件和概率

2.1.1 离散随机变量

2.1.2 连续随机变量

2.1.3 累积分布函数

2.2 随机向量

2.2.1 离散随机向量

2.2.2 连续随机向量

2.3 边际分布

2.4 条件概率分布

2.6 独立与条件独立

2.7 期望和方差

2.7.1 Jensen不等式

2.7.2 大数定律

3. 随机过程

3.1 马尔可夫过程

3.1.1 马尔可夫链

3.2 高斯过程

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【人工智能数学基础(四)】概率论

概率论

1. 样本空间

2. 事件和概率

2.1.1 离散随机变量

2.1.2 连续随机变量

2.1.3 累积分布函数

2.2 随机向量

2.2.1 离散随机向量

2.2.2 连续随机向量

2.3 边际分布

2.4 条件概率分布

2.6 独立与条件独立

2.7 期望和方差

2.7.1 Jensen不等式

2.7.2 大数定律

3. 随机过程

3.1 马尔可夫过程

3.1.1 马尔可夫链

3.2 高斯过程

热门文章

最新文章

相关课程

相关电子书

相关实验场景