机器学习特征选择-t检验

简介: 在特征选择的过程中通过计算检验统计量值,比较特征之间的统计量的大小,并降序排列,选取统计值较高的特征,从而起到去除差别小的特征(此差别小的特征难以区分不同的额类别)的目的。

特征选择的过程中通过计算检验统计量值,比较特征之间的统计量的大小,并降序排列,选取统计值较高的特征,从而起到去除差别小的特征(此差别小的特征难以区分不同的额类别)的目的。

t检验(Student's t test)为例:

假设检验

通过比较两类样本的随机变化,通过计算其p值决定是否拒绝零假设,也即是说:通过计算p值,若p值小于某一阈值则认为两个样本具有显著差异,两个样本是不同的,此时拒绝零假设。

1、建立假设

H0:μ = μ0 (零假设null hypothesis)也即是假设样本无差别

H1:μ ≠ μ0(备择假设alternative hypothesis)

2、计算统计量

单总体:检验一个样本平均数已知的总体平均数的差异是否具有显著性,

1f232d87d94e906e70bb40b83cdf6766_20190714220019908.png

双总体:检验两个样本平均数和它各自所表示的总体的差异是否具有显著性

  •    独立样本t检验:实验组之间无相关存在
  • 6323aa1ddbfb96a22286c4c3e33ad1ca_20190714220351914.png
  • 配对样本t检验:匹配成的两组数据或者同组被试在不同条件下获得数据的差异性,例如:人体的不同活动状态,走路、卧、下楼梯等。
  • ea6e930615a7b07948834dc9f0144de3_20190714220455948.png
  • 依据t值的大小确定p值或者h值,若t值越大则差别越显著,此时若p值表现为小于0.05,则差别显著,反之亦然

除t检验外还有:

d254d06f3533af4208af3938c4171646_20190714221741200.png

参考文献:


【1】https://baike.baidu.com/item/t%E6%A3%80%E9%AA%8C


【2】What is a test statistic? https://support.minitab.com/en-us/minitab-express/1/help-and-how-to/basic-statistics/inference/supporting-topics/basics/what-is-a-test-statistic/



目录
相关文章
|
8月前
|
机器学习/深度学习 自然语言处理 算法
机器学习-特征选择:如何用信息增益提升模型性能?
机器学习-特征选择:如何用信息增益提升模型性能?
376 1
|
8月前
|
机器学习/深度学习 数据采集 监控
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
1088 0
|
2月前
|
机器学习/深度学习 数据可视化 算法
机器学习中的特征选择与降维技术
机器学习中的特征选择与降维技术
103 0
|
8月前
|
机器学习/深度学习 数据采集 算法
【Python机器学习专栏】自动化特征选择与优化的实践
【4月更文挑战第30天】特征选择在机器学习中至关重要,能降低模型复杂度,提高泛化能力和避免过拟合。本文介绍了自动化特征选择的三种方法:过滤法(如SelectKBest)、包装法(如RFE)和嵌入法(如随机森林)。通过结合这些方法,可实现特征优化,包括数据预处理、初步筛选、模型训练与评估、特征优化和结果验证。自动化特征选择能提升模型性能,适应不同数据集和任务需求,为机器学习项目提供坚实基础。
301 0
|
8月前
|
机器学习/深度学习 算法 Python
【Python机器学习专栏】Python中的特征选择方法
【4月更文挑战第30天】本文介绍了机器学习中特征选择的重要性,包括提高模型性能、减少计算成本和增强可解释性。特征选择方法主要包括过滤法(如相关系数、卡方检验和互信息)、包装法(如递归特征消除和顺序特征选择)和嵌入法(如L1正则化和决策树)。在Python中,可利用`sklearn`库的`feature_selection`模块实现这些方法。通过有效的特征选择,能构建更优的模型并深入理解数据。
177 0
|
8月前
|
机器学习/深度学习 算法 Python
【Python机器学习专栏】数据特征选择与降维技术
【4月更文挑战第30天】本文探讨了Python中数据特征选择与降维技术在机器学习和数据分析中的应用。特征选择包括单变量选择、递归特征消除(RFE)、树模型的特征重要性和相关性分析,有助于去除冗余和无关特征。降维技术涵盖PCA、LDA以及非线性方法如KPCA和ISOMAP,用于在低维空间保留信息。这些技术能简化数据、提升模型性能及可解释性。
152 0
|
8月前
|
机器学习/深度学习 算法 数据挖掘
【机器学习】包裹式特征选择之递归特征添加法
【机器学习】包裹式特征选择之递归特征添加法
233 5
|
8月前
|
机器学习/深度学习 数据挖掘 Python
机器学习-特征选择:如何使用互信息特征选择挑选出最佳特征?
机器学习-特征选择:如何使用互信息特征选择挑选出最佳特征?
929 1
|
8月前
|
机器学习/深度学习 自然语言处理 算法
【机器学习】包裹式特征选择之拉斯维加斯包装器(LVW)算法
【机器学习】包裹式特征选择之拉斯维加斯包装器(LVW)算法
298 0
|
8月前
|
机器学习/深度学习 数据采集 Python
【机器学习】包裹式特征选择之基于模型的特征选择法
【机器学习】包裹式特征选择之基于模型的特征选择法
205 0