通过实例理解如何选择正确的概率分布

简介: 通过实例理解如何选择正确的概率分布

640.png


概率分布

概率分布是描述获得事件可能值的数学函数。概率分布可以是离散的,也可以是连续的。离散分布是指数据只能取某些值,而连续分布是指数据可以取特定范围内的任何值(可能是无限的)。

离散概率分布有很多种。离散概率分布的使用取决于数据的属性。例如,使用:

  • 二项分布,计算在每次试验中只有两种可能结果之一的过程的概率,例如掷硬币。
  • 超几何分布,以找出在n次不替换的抽取中k次成功的概率。
  • 泊松分布,测量给定时间内发生给定事件数的概率,例如每小时图书馆借书的计数。
  • 几何分布,确定在第一次成功之前一定数量的试验发生的概率。

二项分布

二项分布可能是所有离散分布中最广为人知的。它是一种有两种可能结果的分布。使用二项分布的一个典型例子是抛硬币。抛硬币只有两种可能的结果:正面或反面,每种结果的概率都是1/2。让我们看看什么时候可以使用二项分布!

二项分布的主要特征:

  • 这个实验包括n次相同的试验。
  • 每次试验只有两种可能的结果,即成功或失败。
  • 试验是相互独立的。
  • p表示为成功的概率,在两次试验之间保持不变,q = (1 - p)为每次试验失败的概率。

640.png


例子

问:一家仓库运送了10台印刷机,其中4台有缺陷。本公司随机挑选5台机器,如果全部5台机器都没有缺陷,则接受发货。

找出公司在抽样和替换时接受货物的概率。

我将使用以下公式:试验次数n是5,机器出现故障的概率p是4/10,所以q是6/10,x = 5。

640.png


超几何分布

超几何分布与二项分布非常相似。超几何分布和二项分布都描述了一个事件在固定次数的试验中发生的次数。二项分布每次试验的概率都是一样的。相比之下,在超几何分布中,每次试验都会改变每次后续试验的概率,因为没有替代。

超几何分布的主要特征:

  • 考虑N= N1 + N2个相似对象的集合,其中N1个属于两个二分类中的一个,N2个属于第二类。
  • 从这n个对象中随机选择的n个对象的集合,不进行替换。


640.png

例子

问:让我们稍微改变一下之前的问题。如果我们现在不更换样品,公司接受这批货的概率是多少?

我们知道机器的总数N是10台,随机选择要测试的机器数N是5台。设N1为无缺陷,N2为缺陷,即N1 =6, N2= 10- N1 =4。为了让公司接受这批货,我们不能有任何有缺陷的机器。所有不合格机的选择方法为6C5, 0个不合格机的选择方法为4C0。

640.png


泊松分布

泊松分布可以帮助我们预测特定事件在一段时间内发生的概率。

泊松分布的主要特征:

  • 在不重叠间隔中发生的变化数量是独立的。
  • 在足够短的时间间隔h内发生一次变化的概率大约为λh,,其中λ>0。
  • 在足够短的时间内发生两次或两次以上变化的概率本质上是零。

640.png


注意泊松是二项分布的极限形式。对于较大的n,我们有p= λ /n。

例子

问:假设某种流感疫苗产生副作用的概率为0.005。假如1000人接种,找到至多一个人患病的近似概率。

由于n=1000是一个很大的数,我们可以使用泊松近似二项分布来解决这个问题,其中λ =pn = 0.005 * 1000 =5。P(x≤1) = P(x=0)+P(x=1)

640.png


问:在某一住所接收电话是一种泊松过程,参数为每小时2次。如果某人洗了10分钟的澡,在这段时间里电话响的概率是多少?

假设每60分钟有两次电话,我们首先计算预期每10分钟电话响的次数,即:现在我们要计算在这10分钟内至少接到一次电话的概率,本质上我们要计算P(X≥1)它可以写成1 - P(X=0)

640.png


几何分布

几何分布表示在第一次成功之前,一定数量的试验将发生的概率。遵循几何分布的一个典型问题是,确定一枚抛出去的硬币在第一次出现正面之前出现反面的次数。

几何分布的主要特征:

  1. 考虑一系列独立的试验,每个试验都有两种可能的结果,成功或失败。设p是成功的概率。定义随机变量X为第一次成功的试验。
  2. 理论上,试验的次数可以永远持续下去。至少要进行一次成功试验。

640.png


例子

问:机器生产出有缺陷产品的概率是0.01。每一项都在生产时进行检查。假设这些是独立的试验,并计算必须检查至少100个项目才能找到一个有缺陷的概率。

由公式可知,P(X≥100)→P(X>99)

640.png


结论

概率分布是统计学的基础,就像数据结构是计算机科学的基础一样。在本文中,我总结了几个最常见的离散概率分布的用例。这只是概率分布的基础。

想要了解更多的概率分布知识,请查看这张无比详细的单变量分布地图!

http://www.math.wm.edu/~leemis/chart/UDR/UDR.html

目录
相关文章
|
算法 Python
k-近邻算法介绍及实例
欢迎关注我的微信公众号:Python学习杂记
87 1
k-近邻算法介绍及实例
|
机器学习/深度学习 算法 Python
逻辑回归模型及算法实例
欢迎关注我的微信公众号:Python学习杂记
232 1
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
数据集中存在大量重复值时,如何选择合适的分析方法?
总之,当数据集中存在大量重复值时,需要综合考虑各种分析方法的特点和适用范围,根据具体的分析目标和数据情况选择合适的方法,或者结合多种方法进行综合分析,以获得准确、可靠的分析结果。
53 9
构建一个分类模型,如何选择合适的损失函数和评估指标
构建一个分类模型,如何选择合适的损失函数和评估指标
|
8月前
|
资源调度 Serverless
一元线性回归模型及诊断(原理+实例+代码)
一元线性回归模型及诊断(原理+实例+代码)
|
5月前
|
机器学习/深度学习 数据可视化 前端开发
|
6月前
|
人工智能 算法 调度
优化问题之如何选择合适的优化求解器
优化问题之如何选择合适的优化求解器
|
8月前
|
机器学习/深度学习 算法 C++
如何选择适合的SVM模型进行分类任务?
挑选适合的SVM模型需考虑:数据线性可分性(线性或使用核函数),问题类型(二分类或多分类,如OVO、OVA、DAG),优化算法(SVM的凸优化特性)及性能(准确率、召回率,通过交叉验证评估)。需综合分析多种因素。
68 4
|
8月前
R语言参数检验 :需要多少样本?如何选择样本数量
R语言参数检验 :需要多少样本?如何选择样本数量
|
算法 Java 决策智能
模拟退火算法及实例解析
同遗传算法一样,模拟退火算法也是现代优化算法的一种。他对于解决组合优化问题,如TSP,JSP等问题效果较好。关于模拟退火算法的详细介绍,可以参考这里模拟退火算法。

热门文章

最新文章