开发者学堂课程【机器学习算法 :比较检验】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7178
比较检验
内容介绍
一、模型比较
二、掷硬币
三、假设检验
一、模型比较
选择合适的评估方法和相应的性能度量,计算出性能度量后直接比较。
如果是直接比较,会出现以下问题:
1、模型评估得到的是测试集上的性能,并非严格意义上的泛化性能(有一个数据全集,模型作用于数据全集,然后看在数据全集上的误差),实际上测试集不能代表数据全集,两者并不完全相同。
2、测试集上的性能与样本选取关系不大,不同的划分(某些样本被指定到训练集,某些样本被指定到测试集,每次划分都会不一样),测试结果会不同,比较缺乏稳定性
3、很多模型本身有随机性,即使参数和数据集相同,其运行结果也存在差异,模型内部会有一些随机的处理。
把上述问题按照统计学的知识描述以下:
已知两个模型f1和f2,两者的泛化性能在测试集上的表现不同,f1 好于 f2,请检验在统计意义上 f1 是否好于 f2?这个把握有多大?
二、掷硬币
统计学家 Fisher 先生和一位女士玩掷硬市猜正反面的游戏。女士号称每次都能掷出正面,Fisher 先生根据白己的知识认为不可能。然而女士拿出一枚准备好的硬币开始投掷后,果然连续 n 次的结果都是正面。Fisher 先生觉得有两种可能,第一,这位女士运气非常好,能连续掷出正面;第三,硬币被做过手脚,无论谁掷都有很大的可能得到正面。到底是哪种原因呢?
在硬币没有问题的情况下,投掷结果符合 p=0.5 的二项分布:
第一次掷,连续1次出现正面的概率为 b(1:1,0.5)=0.5
第二次投掷,连续两次出现正面的概率为 b=(2;2,0.5)=0.25
第三次投掷,连续三次出现正面的概率为 b=(3;3,0.5)=0.125
第四次投掷,连续4次出现正面的概率为 b=(4;4,0.5)=0.0625
第十次投掷,连续10次出现正面的概率为 b=(10;10,0.5)=0.000977
我们需要做一个判断,低于多少的时候,这个概率就不太可能发生了,通常3%发生的概率就是小概率事件了。
三、假设检验
统计假设检验(Hypothesis Test):事先对总体的参数或者分布做一个假设(刚才的例子我们就假设 p=0.5 的二项式分布),然后基于已有的样本数据去判断这个假设是否合理。即样本和总体假设之间的不同是纯属机会变异(因为随机性误差导致的不同),还是两者确实不同。常用的假设检验方法有 t- 检验法、x2 检验法(卡方检验)、F- 检验法等
基本思想:
1、从样本推断整体
2、通过反证法推断假设是否成立(假设整体满足分布,出现这个样本分布的概率大不大,如果概率非常小,那么假设不成立)
3、小概率事件在一次实验中基本不会发生(低于50%就不会发生,那么50%是我们选择的值,如果比较严格的话,可以把这个值降到1%)
4、不轻易拒绝原假设
5、通过显著性水平定义小概率事件不可能发生的概率
6、全称命题只能被否定而不能被证明(通过当前的样本我希望做一个假设,用分布的情况来推翻这个假设不成立,但是很难证明它成立)