ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤(特征分析与特征处理)+分类模型设计)

简介: ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤(特征分析与特征处理)+分类模型设计)

目录


一、总体思路框架


二、特征工程详细步骤(特征分析与特征处理)


1、获取数据集,并确定新数据集的规模


2、确定数据集每个属性的类型


3、对数据集统计特征


4、利用python工具包输出


5、对整个数据集各个特征(属性)PCP(平行坐标图)可视化分析


6、属性之间关系的关系SP可视化


7、特殊属性和标签的关系SP可视化


8、利用皮尔逊相关系数计算任意两个特征(属性)之间相关程度


9、Heat Map热图:利用皮尔森相关系数矩阵,且使用HM可视化变量之间的相关性


三、测试该数据集上度量分类器性能


T1、OLS构建分类器


T2、RiR构建分类器+AUC度量分离器性能




一、总体思路框架

image.png



二、特征工程详细步骤(特征分析与特征处理)


1、获取数据集,并确定新数据集的规模

image.png


2、确定数据集每个属性的类型


image.png


3、对数据集统计特征


Mean =  0.053892307692307684  Standard Deviation =   0.04641598322260027

Boundaries for 4 Equal Percentiles

[0.0058, 0.024375, 0.04405, 0.0645, 0.4264]

Boundaries for 10 Equal Percentiles

[0.0058, 0.0141, 0.022740000000000003, 0.027869999999999995, 0.03622, 0.04405, 0.05071999999999999, 0.059959999999999986, 0.07794000000000001, 0.10836, 0.4264]

Unique Label Values

{'M', 'R'}

Counts for Each Value of Categorical Label

['M', 'R']

[111, 97]


相关文章
|
1天前
|
机器学习/深度学习 数据可视化
数据分享|R语言逻辑回归Logisitc逐步回归训练与验证样本估计分析心脏病数据参数可视化
数据分享|R语言逻辑回归Logisitc逐步回归训练与验证样本估计分析心脏病数据参数可视化
33 18
|
7天前
|
数据可视化 数据挖掘
R语言混合线性模型、多层次模型、回归模型分析学生平均成绩GPA和可视化
R语言混合线性模型、多层次模型、回归模型分析学生平均成绩GPA和可视化
28 0
|
1月前
|
机器学习/深度学习 算法
机器学习-特征选择:如何使用交叉验证精准选择最优特征?
机器学习-特征选择:如何使用交叉验证精准选择最优特征?
38 0
|
8月前
|
机器学习/深度学习 算法 数据可视化
机器学习-特征选择:如何使用相关性分析精确选择最佳特征?
本文致力于利用相关性分析来辅助特征选择过程。相关性分析作为一种用于量化特征之间关系的方法,可以帮助我们理解数据中的潜在模式和相互作用。通过分析特征之间的相关性,我们可以更加准确地选择具有高预测能力和独立性的特征,从而提高特征选择的效果和结果。
888 0
|
8月前
|
机器学习/深度学习 数据采集 算法
机器学习-特征选择:如何使用Lassco回归精确选择最佳特征?
本文旨在介绍Lasso回归在精确特征选择中的应用。首先,我们将探讨特征选择的重要性,包括如何提高模型性能和降低计算成本。接着,我们将深入解析Lasso回归的原理和算法,并说明其在特征选择中的优势。为了支撑我们的观点,我们将引用相关文献提供的实证结果和案例分析。
1362 1
|
11月前
|
机器学习/深度学习 算法
【机器学习】分类模型评价指标(混淆矩阵、ROC)(已修改,放心看)
【机器学习】分类模型评价指标(混淆矩阵、ROC)(已修改,放心看)
146 0
|
机器学习/深度学习
【机器学习】多标签分类的评价指标与代码实现
【机器学习】多标签分类的评价指标与代码实现
424 1
【机器学习】多标签分类的评价指标与代码实现
|
机器学习/深度学习 算法 数据挖掘
使用图进行特征提取:最有用的图特征机器学习模型介绍
使用图进行特征提取:最有用的图特征机器学习模型介绍
343 0
使用图进行特征提取:最有用的图特征机器学习模型介绍
|
机器学习/深度学习 算法 计算机视觉
机器学习中不平衡数据集分类模型示例:乳腺钼靶微钙化摄影数据集(一)
机器学习中不平衡数据集分类模型示例:乳腺钼靶微钙化摄影数据集(一)
194 0
机器学习中不平衡数据集分类模型示例:乳腺钼靶微钙化摄影数据集(一)
|
机器学习/深度学习 存储 算法
机器学习中不平衡数据集分类模型示例:乳腺钼靶微钙化摄影数据集(二)
机器学习中不平衡数据集分类模型示例:乳腺钼靶微钙化摄影数据集(二)
157 0
机器学习中不平衡数据集分类模型示例:乳腺钼靶微钙化摄影数据集(二)