机器学习中常用的数据定律

2022-06-08 119

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 机器学习中常用的数据定律

假设检验

假设检验就是通过抽取样本数据，并且通过小概率反证法去验证整体情况的方法。假设检验的核心思想是小概率反证法（首先假设想推翻的命题是成立的，然后试图找出矛盾，找出不合理的地方来证明命题为假命题），即在原假设（零假设，null hypothesis）的前提下，估算某事件发生的可能性，如果该事件是小概率事件，在一次研究中本来是不可能发生的，现在却发生了，这时候就可以推翻原假设，接受备择假设（alternative hypothesis）。如果该事件不是小概率事件，我们就找不到理由来推翻之前的假设，实际中可引申为接受所做的无效假设。

假设检验会存在两种错误情况，一种称为“拒真”，一种称为“取伪”。如果原假设是对的，但你拒绝了原假设，这种错误就叫作“拒真”，这个错误的概率也叫作显著性水平α\alphaα，或称为容忍度；如果原假设是错的，但你承认了原假设，这种错误就叫作“取伪”，这个错误的概率我们记为β\betaβ。

条件概率和贝叶斯定理

条件概率是指事件A在事件B发生的条件下发生的概率，通常记为P(A∣B)P(A|B)P(A∣B)。设A与B为样本空间Ω\OmegaΩ中的两个事件，其中P(B)>0P(B) \gt 0P(B)>0。那么在事件B发生的条件下，事件A发生的条件概率为：P(A∣B)=P(A∩B)P(B)P(A|B)=\frac{P(A \cap B)}{P(B)}P(A∣B)=P(B)P(A∩B)，其中P(A∩B)P(A \cap B)P(A∩B)是联合概率，即A和B两个事件共同发生的概率。

事件A在事件B已发生的条件下发生的概率，与事件B在事件A已发生的条件下发生的概率是不一样的。然而，这两者是有确定的关系的，贝叶斯定理就是对这种关系的陈述，即：P(A∣B)=P(A)P(B∣A)P(B)P(A|B)=\frac{P(A)P(B|A)}{P(B)}P(A∣B)=P(B)P(A)P(B∣A)，其中：

- P(A∣B)P(A|B)P(A∣B)是已知B发生后，A的条件概率，也称为A的后验概率。

- P(A)P(A)P(A)是A的先验概率（也称为边缘概率），是不考虑B时A发生的概率。

- P(B∣A)P(B|A)P(B∣A)是已知A发生后，B的条件概率，称为B的似然性。

- P(B)P(B)P(B)是B的先验概率。

按照上面的描述，贝叶斯定理可以表述为：后验概率 = (似然性 * 先验概率) / 标准化常量，简单的说就是后验概率与先验概率和相似度的乘积成正比。

描述性统计通常用于研究表象，将现象用数据的方式描述出来（用整体的数据来描述整体的特征）；推理性统计通常用于推测本质（通过样本数据特征去推理总体数据特征），也就是你看到的表象的东西有多大概率符合你对隐藏在表象后的本质的猜测。

大数定律

在随机事件的大量重复出现中，往往呈现几乎必然的规律，这个规律就是大数定律。通俗地说，这个定理就是，在试验不变的条件下，重复试验多次，随机事件的频率近似于它的概率。偶然中包含着某种必然。

例如在目标检测中的数据集的设定，正负样本的比例，各类别样本的比例要求都是尽可能的均衡。

模型训练的本质就是最小化损失函数，当损失函数固定的时候，影响结果走向的就是样本的均衡性和适应性。当样本中某个类别占比很大的时候，此时的损失函数大部分将被大样本指向的类别所影响，其结果也必然倾向大样本。

采用模型中样本的均衡举例显的不足不够全面的解释大数定律，那么在评价目标检测结果的的MAP值，便可充当有效的佐证。当样本过少的时候，得出来的结果（MAP值）不足以证实训练模型的优劣，只有当样本充足且具有多元性时，得到的结果趋向于“大数”得到的结果

机器学习中常用的数据定律

假设检验

条件概率和贝叶斯定理

大数定律

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

机器学习中常用的数据定律

假设检验

条件概率和贝叶斯定理

大数定律

热门文章

最新文章

相关课程

相关电子书

相关实验场景