在特征选择的过程中通过计算检验统计量值,比较特征之间的统计量的大小,并降序排列,选取统计值较高的特征,从而起到去除差别小的特征(此差别小的特征难以区分不同的额类别)的目的。
以t检验(Student's t test)为例:
假设检验
通过比较两类样本的随机变化,通过计算其p值决定是否拒绝零假设,也即是说:通过计算p值,若p值小于某一阈值则认为两个样本具有显著差异,两个样本是不同的,此时拒绝零假设。
1、建立假设
H0:μ = μ0 (零假设null hypothesis)也即是假设样本无差别
H1:μ ≠ μ0(备择假设alternative hypothesis)
2、计算统计量
单总体:检验一个样本平均数和已知的总体平均数的差异是否具有显著性,
双总体:检验两个样本平均数和它各自所表示的总体的差异是否具有显著性
- 独立样本t检验:实验组之间无相关存在
- 配对样本t检验:匹配成的两组数据或者同组被试在不同条件下获得数据的差异性,例如:人体的不同活动状态,走路、卧、下楼梯等。
- 依据t值的大小确定p值或者h值,若t值越大则差别越显著,此时若p值表现为小于0.05,则差别显著,反之亦然
除t检验外还有:
参考文献:
【1】https://baike.baidu.com/item/t%E6%A3%80%E9%AA%8C
【2】What is a test statistic? https://support.minitab.com/en-us/minitab-express/1/help-and-how-to/basic-statistics/inference/supporting-topics/basics/what-is-a-test-statistic/