【kaggle】特征工程 trick

简介: 可以先利用统计值筛选特征,比如缺失比例大于99%,或者信息量较少的特征;然后再做特征编码,在编码后也可以利用模型去筛选特征。

一、特征工程流程

结构化比赛中,做特征工程时:

可以先利用统计值筛选特征,比如缺失比例大于99%,或者信息量较少的特征;

然后再做特征编码,在编码后也可以利用模型去筛选特征。

如果原始数据的特征足够有效,就可以不做特征筛选;

利用统计值筛选,比模型筛选靠谱点。

二、类别编码方法

对于类别字段,是one hot、标签编码、频率编码和目标编码都要做吗:

先看类别字段的取值空间,如果不大,可以one hot独热编码。

通过EDA分析频率编码和目标编码是否足够有区分性,再决定做不做。

三、特征交叉

根据特征A和特征B,构造新的特征:A+B、A-B、A*B、group(A)[B]等

可以从EDA先分析,能分析新特征,和标签存在相关性,则可以做。

四、特征筛选

基于模型如何筛选特征:排列重要性、shap value、null importance

如果筛选后分数下降:考虑保留下来,好的筛选方法筛选结果一般不会对精度有很大影响。


相关文章
|
机器学习/深度学习 运维 安全
多分类机器学习中数据不平衡的处理(NSL-KDD 数据集+LightGBM)
多分类机器学习中数据不平衡的处理(NSL-KDD 数据集+LightGBM)
多分类机器学习中数据不平衡的处理(NSL-KDD 数据集+LightGBM)
|
5月前
|
机器学习/深度学习 算法 数据处理
【阿旭机器学习实战】【33】中文文本分类之情感分析--朴素贝叶斯、KNN、逻辑回归
【阿旭机器学习实战】【33】中文文本分类之情感分析--朴素贝叶斯、KNN、逻辑回归
|
6月前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习】决策树、K近邻、神经网络等模型对Kaggle房价预测实战(附源码和数据集)
【Python机器学习】决策树、K近邻、神经网络等模型对Kaggle房价预测实战(附源码和数据集)
181 0
|
机器学习/深度学习 算法 搜索推荐
【机器学习】十大算法之一 “KNN”
KNN(k-nearest neighbors)算法是一种监督学习算法,也是机器学习中比较基础的算法之一。它主要应用于分类和回归。KNN算法的基本思想是在训练集中搜索k个距离测试样本最近的样本,并对这些邻居样本中的大多数进行分类或回归。KNN算法是一种非参数算法,不需要对数据分布进行任何假设,具有很强的鲁棒性和普适性。KNN算法可以用于图像识别、语音识别、推荐系统等常见的机器学习应用领域。KNN算法在实际应用中具有很高的可扩展性,几乎可以应用于任何领域。
606 0
【机器学习】十大算法之一 “KNN”
|
机器学习/深度学习 算法 Python
12 机器学习 - KNN实现手写数字识别
12 机器学习 - KNN实现手写数字识别
160 0
|
机器学习/深度学习 算法
瞎聊机器学习——LR(Logistic Regression)逻辑斯蒂回归(一)
瞎聊机器学习——LR(Logistic Regression)逻辑斯蒂回归(一)
瞎聊机器学习——LR(Logistic Regression)逻辑斯蒂回归(一)
|
资源调度
数据科学与统计学之使用JAGS训练贝叶斯回归模型
使用JAGS训练贝叶斯回归模型
117 0
|
机器学习/深度学习 资源调度 算法
学习笔记: 机器学习经典算法-逻辑回归(Logistic Regression)
机器学习经典算法-个人笔记和学习心得分享
157 0
|
机器学习/深度学习 算法 Python
学习笔记: 机器学习经典算法-决策树(Decision Tress)
机器学习经典算法-个人笔记和学习心得分享
196 0
|
机器学习/深度学习 算法
阿旭机器学习实战【5】KNN算法实战练习2:利用KNN模型进行手写体数字识别
阿旭机器学习实战【5】KNN算法实战练习2:利用KNN模型进行手写体数字识别
阿旭机器学习实战【5】KNN算法实战练习2:利用KNN模型进行手写体数字识别