比较检验| 学习笔记

简介: 快速学习比较检验。

开发者学堂课程【机器学习算法 :比较检验】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7178


比较检验

 

内容介绍

一、模型比较

二、掷硬币

三、假设检验

 

一、模型比较

选择合适的评估方法和相应的性能度量,计算出性能度量后直接比较。

如果是直接比较,会出现以下问题:

1、模型评估得到的是测试集上的性能,并非严格意义上的泛化性能(有一个数据全集,模型作用于数据全集,然后看在数据全集上的误差),实际上测试集不能代表数据全集,两者并不完全相同。

2、测试集上的性能与样本选取关系不大,不同的划分(某些样本被指定到训练集,某些样本被指定到测试集,每次划分都会不一样),测试结果会不同,比较缺乏稳定性

3、很多模型本身有随机性,即使参数和数据集相同,其运行结果也存在差异,模型内部会有一些随机的处理。

把上述问题按照统计学的知识描述以下:

已知两个模型f1和f2,两者的泛化性能在测试集上的表现不同,f1 好于 f2,请检验在统计意义上 f1 是否好于 f2?这个把握有多大?

 

二、掷硬币

统计学家 Fisher 先生和一位女士玩掷硬市猜正反面的游戏。女士号称每次都能掷出正面,Fisher 先生根据白己的知识认为不可能。然而女士拿出一枚准备好的硬币开始投掷后,果然连续 n 次的结果都是正面。Fisher 先生觉得有两种可能,第一,这位女士运气非常好,能连续掷出正面;第三,硬币被做过手脚,无论谁掷都有很大的可能得到正面。到底是哪种原因呢?

在硬币没有问题的情况下,投掷结果符合 p=0.5 的二项分布:图片1.png

第一次掷,连续1次出现正面的概率为 b(1:1,0.5)=0.5

第二次投掷,连续两次出现正面的概率为 b=(2;2,0.5)=0.25

第三次投掷,连续三次出现正面的概率为 b=(3;3,0.5)=0.125

第四次投掷,连续4次出现正面的概率为 b=(4;4,0.5)=0.0625

第十次投掷,连续10次出现正面的概率为 b=(10;10,0.5)=0.000977

我们需要做一个判断,低于多少的时候,这个概率就不太可能发生了,通常3%发生的概率就是小概率事件了。

 

三、假设检验

统计假设检验(Hypothesis Test):事先对总体的参数或者分布做一个假设(刚才的例子我们就假设 p=0.5 的二项式分布),然后基于已有的样本数据去判断这个假设是否合理。即样本和总体假设之间的不同是纯属机会变异(因为随机性误差导致的不同),还是两者确实不同。常用的假设检验方法有 t- 检验法、x2 检验法(卡方检验)、F- 检验法等

基本思想:

1、从样本推断整体

2、通过反证法推断假设是否成立(假设整体满足分布,出现这个样本分布的概率大不大,如果概率非常小,那么假设不成立)

3、小概率事件在一次实验中基本不会发生(低于50%就不会发生,那么50%是我们选择的值,如果比较严格的话,可以把这个值降到1%)

4、不轻易拒绝原假设

5、通过显著性水平定义小概率事件不可能发生的概率

6、全称命题只能被否定而不能被证明(通过当前的样本我希望做一个假设,用分布的情况来推翻这个假设不成立,但是很难证明它成立)

相关文章
|
6月前
信效度检验(SPSS
信效度检验(SPSS
360 0
|
机器学习/深度学习 算法 大数据
机器学习:Friedman检验与Nemenyi后续检验,Python实现
机器学习:Friedman检验与Nemenyi后续检验,Python实现
1195 0
机器学习:Friedman检验与Nemenyi后续检验,Python实现
|
6月前
|
算法
正态性检验方法汇总
正态性检验方法汇总
|
6月前
|
C++
R语言Wald检验 vs 似然比检验
R语言Wald检验 vs 似然比检验
|
6月前
信效度检验2(SPSS
信效度检验2(SPSS
40 0
|
6月前
狄克逊(Dixon)检验
狄克逊(Dixon)检验
494 0
|
6月前
|
数据挖掘
SPSS游程检验
SPSS游程检验
99 0
|
数据挖掘 Python
python数据分析 - T检验与F检验:二组数据那个更好?(一)
python数据分析 - T检验与F检验:二组数据那个更好?(一)
228 0
|
机器学习/深度学习 算法 开发者
比较检验-3| 学习笔记
快速学习比较检验-3。
比较检验-3| 学习笔记