实例复习机器学习数学 - 2. 几种典型离散随机变量分布

简介: 实例复习机器学习数学 - 2. 几种典型离散随机变量分布

随机变量的引入


上一节我们讨论的都是随机事件,某一个随机事件可能包含若干个随机试验样本空间中的随机结果,如果对于每一个可能的实验结果都关联一个特定的值,这样就形成了一个随机变量

例如抛一个骰子,将抛出的骰子的值作为随机变量的值;足球比赛,将某一只球队进球的个数作为随机变量的值;抛一根标枪,抛出的距离作为随机变量的值;今年一年的降水量作为随机变量等等。


离散型随机变量相关概念


随机变量的取值并不是连续的,而是有限个数值,或者是可以计数的无限个数值,这样的随机变量被称为离散随机变量。回顾一下上面提出的四个例子,投一个骰子,将抛出的骰子的值作为随机变量的值,这些值只可能是 1,2,3,4,5,6,所以是离散随机变量分布;足球比赛,将某一只球队进球的个数作为随机变量的值,这个进球数可能是无限个,只不过数值很大的时候概率很低而已,这也是离散随机变量分布。但是对于抛一根标枪,抛出的距离作为随机变量的值和今年一年的降水量作为随机变量这些是无法计数的,被称为连续随机变量

对于离散随机变量,搞清楚每个值的概率也是很重要的,将随机变量的每个值映射到其概率上,这就是概率质量函数(PMF).记随机变量为 X,PMF 为 P(X=k)。接下来,我们就来详细说明几种典型的随机变量以及其概率质量函数。


只有两种可能的多次实验分布 - 二项分布


我们有如下几个例子:

  • 射门 n 次,假设进球概率为p,每次射门彼此之间都是相互独立的,随机变量 X 对应 n 次射门进球的次数。
  • 投一个硬币 n 次,假设正面朝上的概率为 p,每次抛掷彼此之间都是相互独立的,随机变量 X 对应 n 次抛掷得到的是正面的次数。
  • 坐某个航班的飞机,假设准点到达的概率为p,每次这个航班到达彼此之间都是相互独立的,随机变量 X 对应 n 次航班准点的次数。

以上这些例子中,都可以理解为在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能:发生或者不发生。我们假设该项试验独立重复地进行了 n 次,那么就称这一系列重复独立的随机试验为 n 重伯努利试验。n 重伯努利试验结果的分布就是二项分布

二项分布的 PMF为:


image.png

,则有:

image.png

image.png


接下来我们通过一个小程序来直观感受下二项分布:

from scipy.stats import binom
import matplotlib.pyplot as plt
import numpy as np
import seaborn
#我个人比较喜欢这个主题
seaborn.set_style("whitegrid")
#使用内置库 binom 模拟 n = 10, p = 0.3 的情况,随机 100000 次
binom_sim = data = binom.rvs(n=10, p=0.3, size=100000)
#计算本次平均值以及标准差
print ("Mean: %g" % np.mean(binom_sim))
print ("Std: %g" % np.std(binom_sim, ddof=1))
#绘图,利用归一化的直方图,这样展示的很接近概率质量函数
plt.hist(binom_sim, bins=10, density=True, stacked=True)
plt.show()

可以看到输出为:


image.png


可以看到平均值很接近期望,标准差也是很接近我们用公式算出来的方差开根。


发生概率与试验次数相比很小的二项分布 - 泊松分布


当 n 比较大, p 比较小的时候,二项分布可以近似为 泊松分布

由此可以推导出,泊松分布的期望方差为:


image.png

image.png


为何要近似为泊松分布呢?在生活中我们会根据历史数据来预测结果,同时有很多事件可以抽象为泊松分布,例如:

  • 预测两只球队的胜平负结果,可以通过预测两只球队的进球情况。可以将两只球队进球概率设为 p,每次射门就是一次独立重复随机试验,那么这个试验结果应该符合二项分布。但是,预测进球概率是很难的,但是,我们可以通过历史数据来算出来这个球队的平均进球数,也就是 λ。同时,进球概率相对于射门次数来说,也是比较小的,可以近似为泊松分布。这样,我们就能通过泊松分布以及 λ 来计算出进 k 个球的概率。取两个球队进球数的概率分布列,计算胜平负结果的概率。
  • 预测当天飞机晚点的次数。同样的,晚点概率相对于航班次数来说,是很小的,并且,晚点概率我们很难预测,但是可以通过历史数据得出平均晚点次数,抽象为泊松分布就可以算出晚点次数为 k 的概率。

对于这种,推测概率很难,但是可以通过历史数据描述其期望的,我们一般通过抽象为泊松分布来计算它的先验概率。

接下来我们继续通过程序模拟:

from scipy.stats import poisson
import matplotlib.pyplot as plt
import numpy as np
import seaborn
#我个人比较喜欢这个主题
seaborn.set_style("whitegrid")
#使用内置库 poisson 模拟 λ=5 的情况,随机 10000 次
poisson_sim = poisson.rvs(mu=5, size=10000)
#计算本次平均值以及标准差
print ("Mean: %g" % np.mean(poisson_sim))
print ("Std: %g" % np.std(poisson_sim, ddof=1))
#绘图,利用归一化的直方图,这样展示的很接近概率质量函数
plt.hist(poisson_sim, density=True, stacked=True)
plt.gca().axes.set_xticks(range(0, 11))
plt.show()

输出为:


image.png


直到事件发生为止的分布 - 几何分布


类比二项分布的例子,我们稍微做下修改:

  • 射门 n 次,假设进球概率为p,每次射门彼此之间都是相互独立的,直到射门射进为止,随机变量 X 对应射门进球是第几次。
  • 投一个硬币 n 次,假设正面朝上的概率为 p,每次抛掷彼此之间都是相互独立的,直到抛出的硬币是正面为止,随机变量 X 对应抛掷得到的是正面是第几次。
  • 坐某个航班的飞机,假设准点到达的概率为p,每次这个航班到达彼此之间都是相互独立的,随机变量 X 对应 n 次航班准点的次数。

这些随机变量的分布就是几何分布,其 PMF 为:


image.png

image.png

image.png


接下来我们继续通过程序模拟:

from scipy.stats import geom
import matplotlib.pyplot as plt
import numpy as np
import seaborn
#我个人比较喜欢这个主题
seaborn.set_style("whitegrid")
#使用内置库 geom 模拟 p = 0.5 的情况,随机 100000 次
geom_rv = geom(p=0.5)
geom_sim = geom_rv.rvs(size=100000)
#计算本次平均值以及标准差
print ("Mean: %g" % np.mean(geom_sim))
print ("Std: %g" % np.std(geom_sim, ddof=1))
#绘图,利用归一化的直方图,这样展示的很接近概率质量函数
plt.hist(geom_sim, bins=20, density=True, stacked=True)
#设置要显示的坐标值
plt.gca().axes.set_xticks(range(1,11))
plt.show()



image.png


image.png

相关文章
|
5月前
|
人工智能
一键生成视频!用 PAI-EAS 部署 AI 视频生成模型 SVD 工作流(清晰的实例)
用 PAI-EAS 部署 AI 视频生成模型 SVD 工作流(清晰的实例)
219 2
|
4月前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI产品使用合集之PAI-DSW实例服务器ping不通google.com,该如何排查
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
机器学习/深度学习 算法 Python
【机器学习】集成学习在信用评分领域实例
【机器学习】集成学习在信用评分领域实例
98 1
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】贝叶斯算法在机器学习中的应用与实例分析
【机器学习】贝叶斯算法在机器学习中的应用与实例分析
324 1
|
4月前
|
人工智能 网络架构 异构计算
以LLaMa 65B模型训练实例来计算AI/HPC算力光模块数量
本文介绍了如何根据LLaMa 65B模型训练需求计算所需的AI/HPC光模块数量。在案例中,使用2048个A100 GPU,单GPU算力为156 TFLOPS。模型算力需求为546*10^21 FLOPS,预计训练时间为20天。采用两层Fat-Tree网络架构,需1024个400G网卡,48台交换机,若全用400G光模块则需4096个,交换机间2048个,网卡间1024个。大成鹏通信提供200G至800G的解决方案,并提供咨询与支持服务。
以LLaMa 65B模型训练实例来计算AI/HPC算力光模块数量
|
4月前
|
机器学习/深度学习
技术心得:机器学习的数学基础
技术心得:机器学习的数学基础
31 0
|
4月前
|
机器学习/深度学习 安全 算法
【机器学习】信息安全实例
【机器学习】信息安全实例
55 0
|
4月前
|
机器学习/深度学习 数据采集 自然语言处理
【机器学习】逻辑回归:智能垃圾邮件分类实例
【机器学习】逻辑回归:智能垃圾邮件分类实例
140 0
|
4月前
|
机器学习/深度学习
【机器学习】特征筛选实例与代码详解
【机器学习】特征筛选实例与代码详解
206 0
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【机器学习】重塑汽车设计与制造:实例与代码探索
【机器学习】重塑汽车设计与制造:实例与代码探索
149 0
下一篇
无影云桌面