【kaggle】特征工程 trick

简介: 可以先利用统计值筛选特征,比如缺失比例大于99%,或者信息量较少的特征;然后再做特征编码,在编码后也可以利用模型去筛选特征。

一、特征工程流程

结构化比赛中,做特征工程时:

可以先利用统计值筛选特征,比如缺失比例大于99%,或者信息量较少的特征;

然后再做特征编码,在编码后也可以利用模型去筛选特征。

如果原始数据的特征足够有效,就可以不做特征筛选;

利用统计值筛选,比模型筛选靠谱点。

二、类别编码方法

对于类别字段,是one hot、标签编码、频率编码和目标编码都要做吗:

先看类别字段的取值空间,如果不大,可以one hot独热编码。

通过EDA分析频率编码和目标编码是否足够有区分性,再决定做不做。

三、特征交叉

根据特征A和特征B,构造新的特征:A+B、A-B、A*B、group(A)[B]等

可以从EDA先分析,能分析新特征,和标签存在相关性,则可以做。

四、特征筛选

基于模型如何筛选特征:排列重要性、shap value、null importance

如果筛选后分数下降:考虑保留下来,好的筛选方法筛选结果一般不会对精度有很大影响。


相关文章
|
机器学习/深度学习 运维 安全
多分类机器学习中数据不平衡的处理(NSL-KDD 数据集+LightGBM)
多分类机器学习中数据不平衡的处理(NSL-KDD 数据集+LightGBM)
多分类机器学习中数据不平衡的处理(NSL-KDD 数据集+LightGBM)
|
1月前
|
机器学习/深度学习 算法
【机器学习】Boosting 和 AdaBoost
【机器学习】Boosting 和 AdaBoost
|
3月前
|
机器学习/深度学习 存储 缓存
【机器学习】随机森林、AdaBoost、GBDT、XGBoost从零开始理解
介绍了机器学习中的几种集成学习算法,包括随机森林、AdaBoost、梯度提升决策树(GBDT)和XGBoost,解释了它们的概念、优缺点、算法过程以及系统设计。
144 5
【机器学习】随机森林、AdaBoost、GBDT、XGBoost从零开始理解
|
5月前
|
机器学习/深度学习 算法 数据处理
【阿旭机器学习实战】【33】中文文本分类之情感分析--朴素贝叶斯、KNN、逻辑回归
【阿旭机器学习实战】【33】中文文本分类之情感分析--朴素贝叶斯、KNN、逻辑回归
|
6月前
|
机器学习/深度学习 数据采集 存储
【机器学习】K-近邻算法(KNN)全面解析
K-近邻算法(K-Nearest Neighbors, KNN)是一种基于实例的学习方法,属于监督学习范畴。它的工作原理简单直观:给定一个训练数据集,对新的输入实例,KNN算法通过计算其与训练集中每个实例的距离,找出距离最近的K个邻居,然后根据这些邻居的类别(对于分类任务)或值(对于回归任务)来预测新实例的类别或值。KNN因其简单高效和无需训练过程的特点,在众多领域中得到广泛应用,如模式识别、推荐系统、图像分类等。
284 0
|
机器学习/深度学习 算法 搜索推荐
【机器学习】十大算法之一 “KNN”
KNN(k-nearest neighbors)算法是一种监督学习算法,也是机器学习中比较基础的算法之一。它主要应用于分类和回归。KNN算法的基本思想是在训练集中搜索k个距离测试样本最近的样本,并对这些邻居样本中的大多数进行分类或回归。KNN算法是一种非参数算法,不需要对数据分布进行任何假设,具有很强的鲁棒性和普适性。KNN算法可以用于图像识别、语音识别、推荐系统等常见的机器学习应用领域。KNN算法在实际应用中具有很高的可扩展性,几乎可以应用于任何领域。
606 0
【机器学习】十大算法之一 “KNN”
|
机器学习/深度学习 算法 Python
12 机器学习 - KNN实现手写数字识别
12 机器学习 - KNN实现手写数字识别
157 0
|
资源调度
数据科学与统计学之使用JAGS训练贝叶斯回归模型
使用JAGS训练贝叶斯回归模型
116 0
|
机器学习/深度学习 算法 Python
学习笔记: 机器学习经典算法-决策树(Decision Tress)
机器学习经典算法-个人笔记和学习心得分享
194 0
|
机器学习/深度学习 算法