实例复习机器学习数学 - 1. 事件与概率

简介: 实例复习机器学习数学 - 1. 事件与概率

从骰子实验引出的各种概率概念

1.投骰子,出现点数为 6 的概率 image.png. 投骰子,已知出现点数为偶数,出现点数为 6 的概率则是 image.png,这个概率即 条件概率

2.条件概率为:假设我们知道 A 事件已经发生,在此基础上我们想知道 B 事件发生的概率,这个概率为条件概率,记作 image.png

3.古典概率模型:假设一个实验,有 \OmegaΩ个等可能性的结果,事件 A 包含其中 X 个结果,事件 B 包含其中 Y 个结果,Z 代表其中交叉的事件:


image.png


事件 A 发生的概率:image.png;事件 B 发生的概率: image.png;事件 A、B 都发生的概率: image.png 如果事件 A 已经发生,那么事件 B 也发生的概率是 image.png ,将公式展开: 这个公式就是条件概率公式


image.png


4.如果条件概率 image.png,代表事件 A 的发生会促进事件 B 的发生,例如上面投骰子的例子。还有可以看下图,本身 image.png的概率是比较小的,在事件 A 已发生的情况下,由于相交部分较多,事件 B 发生的概率也提升了:


image.png


5.如果条件概率 image.png,代表事件 A 不会促进事件 B 的发生,例如事件 A 为投骰子点数为偶数,事件 B 为投骰子点数小于 < 4,事件 A 和 事件 B 发生的概率都为image.png ,事件 A、B 同时发生的概率是image.png ,条件概率image.png。还有可以看下图,本身 image.png的概率是比较大的,在事件 A 已发生的情况下,由于相交部分较少,事件 B 发生的概率被降低了:


image.png


6.如果条件概率 image.png 等于 0,代表事件 A 与事件 B 完全不相交,即事件 A 发生则事件 B 一定不会发生,事件 A 与事件 B 是不相容事件,或者是互斥事件。如下图所示:


image.png


7.还有可能条件概率 image.png ,在这种情况下其实就是事件 A、B 的发生互不相关,例如有两个骰子,事件 A 为骰子 1 投出点数 6,事件 B 为骰子 2 投出点数 2,事件 A 和 事件 B 发生的概率都为 image.png ,那么事件 A、B 同时发生的概率是 image.png ,条件概率image.png 等于 image.png,我们一般称这种为独立事件。如下图所示:


image.png


全概率公式与骰子实验验证


假设有 image.png这些互斥事件,包含了实验所有可能的结果:


image.png


即有 image.png 。拿刚刚的骰子举例,其实就是抛一次骰子,点数分别为 1,2,3,4,5,6.

假设再有一个事件 B,用古典概率表示如图:


image.png


事件 B 的概率,可以通过事件 B 在image.png这些互斥事件上的条件概率以及这些事件的概率进行计算,即全概率公式:

条件:image.png


结果:


image.png


全概率公式的使用:足球预测


全概率公式的意义在于:在大多数情况下,我们是很难像骰子实验一样直接得出事件 B 的概率的,我们需要限定事件的样本空间,根据现有样本抽象出事件 image.png,同时统计这些事件上 B 发生的概率,最后得出事件 B 的概率。


举个例子即推测本次欧洲杯英国队对阵德国队,英国队胜利的概率,我们可以通过历史比赛数据(例如近几届欧洲杯比赛数据,以及两队对阵比赛数据)估算出英国队进球数为 0,1,2,3,4,5... 的概率,德国队进球数为 0,1,2,3,4,5... 的概率,其中英国队进球数大于德国队即英国队胜利的概率。这就是全概率公式的一种应用。


由因推果与由果推因


全概率公式就是由因推果,一个典型的例子就是上面提到本次欧洲杯英国队对阵德国队,英国队胜利的概率的推测。我们根据以往比赛数据,可以算出英国队还有德国队的平均进球,进球概率一般符合泊松分布(这个我们之后还会提到,还会用这个例子详细分析),根据泊松分布,我们可以可以得出英国队还有德国队进球数 n 的概率,假设英国队平均进球为 1.67,德国队平均进球为 1.52 则(我们这里只考虑到进球数为 4 的情况):

球队 进球数为 0 进球数为 1 进球数为 2 进球数为 3 进球数为 4
英国队 0.1882 0.3144 0.2625 0.1461 0.061
德国队 0.2187 0.3324 0.2527 0.128 0.0486

假设 image.png为英国队进球数为 0 的概率并以此类推:


image.png


假设 image.png为英国队胜利的概率,则根据全概率公式有:


image.png


但是,现实问题中,我们经常还会遇到由果推因的问题,例如我们体检,检测出来了胆囊息肉,那它究竟是否是肿瘤形成的还是胆固醇形成的或者是其他原因呢?这就需要我们从这个结果推测形成的原因。这就引出了贝叶斯公式


从足球预测例子理解先验概率与后验概率


在提到贝叶斯公式之前,我们先搞清楚两个概念,先验概率后验概率

先验概率一般是通过经验得出,即根据历史采集到的数据,没有做任何限制,得出的经验概率。上面的例子提到的通过历史比赛数据推测出来的两队进球数的概率,就是先验概率。这时候假设比赛开始,然后发生了一个事件,德国队后卫失误被英国队凯恩先进了一球,这时候我们需要在这个前提下重新计算两队进球数的概率,这个就是后验概率


先验概率即完全根据历史数据推测出的经验概率,没有任何已发生前提情况下的概率。后验概率即观察到某个现象需要对先验概率进行修正的概率。可以这样简单理解,比赛开始前,估计的概率一般就是先验概率,比赛开始后,发生红黄牌,点球,进球,换人等等这些事件后,对概率进行修正后得出的就是后验概率。


贝叶斯公式与胆囊息肉形成原因推测


假设有事件 A、B,则:


image.png


image.png

相关文章
|
8月前
|
人工智能
一键生成视频!用 PAI-EAS 部署 AI 视频生成模型 SVD 工作流(清晰的实例)
用 PAI-EAS 部署 AI 视频生成模型 SVD 工作流(清晰的实例)
255 2
|
5天前
|
机器学习/深度学习 资源调度 算法
机器学习领域必知数学符号与概念(一)
本文介绍了一些数学符号以及这些符号的含义。
105 65
|
3月前
|
机器学习/深度学习 程序员
【机器学习】朴素贝叶斯原理------迅速了解常见概率的计算
【机器学习】朴素贝叶斯原理------迅速了解常见概率的计算
|
4月前
|
机器学习/深度学习 数据采集 存储
一文读懂蒙特卡洛算法:从概率模拟到机器学习模型优化的全方位解析
蒙特卡洛方法起源于1945年科学家斯坦尼斯劳·乌拉姆对纸牌游戏中概率问题的思考,与约翰·冯·诺依曼共同奠定了该方法的理论基础。该方法通过模拟大量随机场景来近似复杂问题的解,因命名灵感源自蒙特卡洛赌场。如今,蒙特卡洛方法广泛应用于机器学习领域,尤其在超参数调优、贝叶斯滤波等方面表现出色。通过随机采样超参数空间,蒙特卡洛方法能够高效地找到优质组合,适用于处理高维度、非线性问题。本文通过实例展示了蒙特卡洛方法在估算圆周率π和优化机器学习模型中的应用,并对比了其与网格搜索方法的性能。
423 1
|
7月前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI产品使用合集之PAI-DSW实例服务器ping不通google.com,该如何排查
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
7月前
|
机器学习/深度学习 数据挖掘 Python
机器学习之pandas基础——pandas与概率论的简短碰面
机器学习之pandas基础——pandas与概率论的简短碰面
57 4
|
7月前
|
机器学习/深度学习 算法 Python
【机器学习】集成学习在信用评分领域实例
【机器学习】集成学习在信用评分领域实例
148 1
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】贝叶斯算法在机器学习中的应用与实例分析
【机器学习】贝叶斯算法在机器学习中的应用与实例分析
605 1
|
7月前
|
人工智能 网络架构 异构计算
以LLaMa 65B模型训练实例来计算AI/HPC算力光模块数量
本文介绍了如何根据LLaMa 65B模型训练需求计算所需的AI/HPC光模块数量。在案例中,使用2048个A100 GPU,单GPU算力为156 TFLOPS。模型算力需求为546*10^21 FLOPS,预计训练时间为20天。采用两层Fat-Tree网络架构,需1024个400G网卡,48台交换机,若全用400G光模块则需4096个,交换机间2048个,网卡间1024个。大成鹏通信提供200G至800G的解决方案,并提供咨询与支持服务。
138 0
以LLaMa 65B模型训练实例来计算AI/HPC算力光模块数量
|
7月前
|
机器学习/深度学习
技术心得:机器学习的数学基础
技术心得:机器学习的数学基础
46 0