开发者学堂课程【人工智能必备基础:概率论与数理统计:泊松分布】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/545/detail/7424
泊松分布
内容介绍
一、定义
二、公式
一、定义
现实生活多数服从于泊松分布
假设你在一个呼叫中心工作,一天里你大概会接到多少个电话?它可以是任何一个数字。现在,呼叫中心一天的呼叫总数可以用泊松分布来建模。这里有一些例子:
1. 医院在一天内录制的紧急电话的数量。
2. 某个地区在一天内报告的失窃的数量。
3. 在一小时内抵达沙龙的客户人数。
4. 在特定城市上报的自杀人数。
5. 书中每一页打印错误的数量。
泊松分布适用于在随机时间和空间上发事件的情况,其中,我们只关注事件发生的次数。
当以下假设有效时,则称为泊松分布
1.任何一个成功的事件都不应该影响另一个成功的事件。
2.在短时间内成功的概率必须等于在更长的时间范围内成功的概率。
3.时间间隔很小时,在给间隔时间内成功的概率趋向于零。
泊松分布中使用了这些符号:
1. λ 是事件发生的速率。
2. t 是时间间隔的长
3.X 是该时间间隔内的事件数
其中,X 称为泊松随机变量,X 的概率分布称为泊松分布。
令 μ 表示长度为t的间隔中的平均事件数。那么,μ=λt
例如说一个医院中,每个病人来看病都是随机并独立的概率,则该国的一天(或不其他特定时间段,一小时,一周等等】接纳的病人总数可以看作泊松分布的随机变量,但是为什么可以这样处理呢?
通俗定义:假定一个事件在一段时间内随机发生,且符合以下条件:
(1) 将该时间段无限分隔成若干个小的时间段,在这个接近于零的小时间段里, 该事件发生一次的概率与这个极小时间段的长度成正比。
(2)在每一个极小时间段内,该事件发生两次及以上的概率恒等于零。(3)该事件在不同的小时间段里,发生与否相互独立。
则该事件称为 poisson process。这个第二定义就更加利于大家理解了,回到医院的例子之中,如果我们把一天分成 24 个小时,或者 24x60 分钟,或者 24x3600秒。时间分的越短。这个时间段里来病人的概率就越小(比如说医院在正午12点到下午 12 点又一毫秒之间来病人的概率是不是很接近于零?)。
条件一符合,另外如果我们把时间分的很细很细,是不是同时来两个病人(或者两个以上的病人)就是不可能的事件?即使两个病人同时来,也总有一个人先迈步子跨进医院大门吧。条件二也符合。倒是条件三的要求比较苛刻。应用到实际例子中就是说病人们来医院的概率必须是相互独立的,如果不是,则不能看作是 poison 分布。
二、公式
已知平均每小时出生 3 个婴儿,请问下一个小时,会出生几个?
有可能一下了出生 6 个,也有可能一个都不出生。这是我们没法知道的。
泊松分布就是描述某段时间内,事件具体的发生概率。
上面就是泊松分布的公式。
等号的左边、P 表示概率,N 表示某种函数关系,表示时间,n 表示数量,1 小时内出生 3 个婴儿的概率,就表示为 P(N(1)=3)。
等号右边,λ 表示事件的频率。
接下来两个小时。 一个婴儿都不出生的概率是 0.25%,基本不可能发生。
接下来一小时,至少出生两个婴儿的概率是 80%
泊松分布的图形大概是下面的样子
在 Python 中指定好泊松分布的函数查看图像
调动 λ 的值
PMF
绘制 λ
指定分布的λ值,求出均值,画图
指定 λ=7,得出结果 λ=6.923