概率分布
概率分布是描述获得事件可能值的数学函数。概率分布可以是离散的,也可以是连续的。离散分布是指数据只能取某些值,而连续分布是指数据可以取特定范围内的任何值(可能是无限的)。
离散概率分布有很多种。离散概率分布的使用取决于数据的属性。例如,使用:
- 二项分布,计算在每次试验中只有两种可能结果之一的过程的概率,例如掷硬币。
- 超几何分布,以找出在n次不替换的抽取中k次成功的概率。
- 泊松分布,测量给定时间内发生给定事件数的概率,例如每小时图书馆借书的计数。
- 几何分布,确定在第一次成功之前一定数量的试验发生的概率。
二项分布
二项分布可能是所有离散分布中最广为人知的。它是一种有两种可能结果的分布。使用二项分布的一个典型例子是抛硬币。抛硬币只有两种可能的结果:正面或反面,每种结果的概率都是1/2。让我们看看什么时候可以使用二项分布!
二项分布的主要特征:
- 这个实验包括n次相同的试验。
- 每次试验只有两种可能的结果,即成功或失败。
- 试验是相互独立的。
- p表示为成功的概率,在两次试验之间保持不变,q = (1 - p)为每次试验失败的概率。
例子
问:一家仓库运送了10台印刷机,其中4台有缺陷。本公司随机挑选5台机器,如果全部5台机器都没有缺陷,则接受发货。
找出公司在抽样和替换时接受货物的概率。
我将使用以下公式:试验次数n是5,机器出现故障的概率p是4/10,所以q是6/10,x = 5。
超几何分布
超几何分布与二项分布非常相似。超几何分布和二项分布都描述了一个事件在固定次数的试验中发生的次数。二项分布每次试验的概率都是一样的。相比之下,在超几何分布中,每次试验都会改变每次后续试验的概率,因为没有替代。
超几何分布的主要特征:
- 考虑N= N1 + N2个相似对象的集合,其中N1个属于两个二分类中的一个,N2个属于第二类。
- 从这n个对象中随机选择的n个对象的集合,不进行替换。
例子
问:让我们稍微改变一下之前的问题。如果我们现在不更换样品,公司接受这批货的概率是多少?
我们知道机器的总数N是10台,随机选择要测试的机器数N是5台。设N1为无缺陷,N2为缺陷,即N1 =6, N2= 10- N1 =4。为了让公司接受这批货,我们不能有任何有缺陷的机器。所有不合格机的选择方法为6C5, 0个不合格机的选择方法为4C0。
泊松分布
泊松分布可以帮助我们预测特定事件在一段时间内发生的概率。
泊松分布的主要特征:
- 在不重叠间隔中发生的变化数量是独立的。
- 在足够短的时间间隔h内发生一次变化的概率大约为λh,,其中λ>0。
- 在足够短的时间内发生两次或两次以上变化的概率本质上是零。
注意泊松是二项分布的极限形式。对于较大的n,我们有p= λ /n。
例子
问:假设某种流感疫苗产生副作用的概率为0.005。假如1000人接种,找到至多一个人患病的近似概率。
由于n=1000是一个很大的数,我们可以使用泊松近似二项分布来解决这个问题,其中λ =pn = 0.005 * 1000 =5。P(x≤1) = P(x=0)+P(x=1)
问:在某一住所接收电话是一种泊松过程,参数为每小时2次。如果某人洗了10分钟的澡,在这段时间里电话响的概率是多少?
假设每60分钟有两次电话,我们首先计算预期每10分钟电话响的次数,即:现在我们要计算在这10分钟内至少接到一次电话的概率,本质上我们要计算P(X≥1)它可以写成1 - P(X=0)
几何分布
几何分布表示在第一次成功之前,一定数量的试验将发生的概率。遵循几何分布的一个典型问题是,确定一枚抛出去的硬币在第一次出现正面之前出现反面的次数。
几何分布的主要特征:
- 考虑一系列独立的试验,每个试验都有两种可能的结果,成功或失败。设p是成功的概率。定义随机变量X为第一次成功的试验。
- 理论上,试验的次数可以永远持续下去。至少要进行一次成功试验。
例子
问:机器生产出有缺陷产品的概率是0.01。每一项都在生产时进行检查。假设这些是独立的试验,并计算必须检查至少100个项目才能找到一个有缺陷的概率。
由公式可知,P(X≥100)→P(X>99)
结论
概率分布是统计学的基础,就像数据结构是计算机科学的基础一样。在本文中,我总结了几个最常见的离散概率分布的用例。这只是概率分布的基础。
想要了解更多的概率分布知识,请查看这张无比详细的单变量分布地图!