【kaggle】特征工程 trick

简介: 可以先利用统计值筛选特征,比如缺失比例大于99%,或者信息量较少的特征;然后再做特征编码,在编码后也可以利用模型去筛选特征。

一、特征工程流程

结构化比赛中,做特征工程时:

可以先利用统计值筛选特征,比如缺失比例大于99%,或者信息量较少的特征;

然后再做特征编码,在编码后也可以利用模型去筛选特征。

如果原始数据的特征足够有效,就可以不做特征筛选;

利用统计值筛选,比模型筛选靠谱点。

二、类别编码方法

对于类别字段,是one hot、标签编码、频率编码和目标编码都要做吗:

先看类别字段的取值空间,如果不大,可以one hot独热编码。

通过EDA分析频率编码和目标编码是否足够有区分性,再决定做不做。

三、特征交叉

根据特征A和特征B,构造新的特征:A+B、A-B、A*B、group(A)[B]等

可以从EDA先分析,能分析新特征,和标签存在相关性,则可以做。

四、特征筛选

基于模型如何筛选特征:排列重要性、shap value、null importance

如果筛选后分数下降:考虑保留下来,好的筛选方法筛选结果一般不会对精度有很大影响。


相关文章
|
3月前
|
机器学习/深度学习 算法 数据挖掘
深度学习调参tricks总结
深度学习调参tricks总结
70 1
深度学习调参tricks总结
|
2月前
|
机器学习/深度学习 算法 数据处理
【阿旭机器学习实战】【33】中文文本分类之情感分析--朴素贝叶斯、KNN、逻辑回归
【阿旭机器学习实战】【33】中文文本分类之情感分析--朴素贝叶斯、KNN、逻辑回归
|
机器学习/深度学习 数据采集 自然语言处理
【Deep Learning A情感文本分类实战】2023 Pytorch+Bert、Roberta+TextCNN、BiLstm、Lstm等实现IMDB情感文本分类完整项目(项目已开源)
亮点:代码开源+结构清晰+准确率高+保姆级解析 🍊本项目使用Pytorch框架,使用上游语言模型+下游网络模型的结构实现IMDB情感分析 🍊语言模型可选择Bert、Roberta 🍊神经网络模型可选择BiLstm、LSTM、TextCNN、Rnn、Gru、Fnn共6种 🍊语言模型和网络模型扩展性较好,方便读者自己对模型进行修改
528 0
|
3月前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习】决策树、K近邻、神经网络等模型对Kaggle房价预测实战(附源码和数据集)
【Python机器学习】决策树、K近邻、神经网络等模型对Kaggle房价预测实战(附源码和数据集)
156 0
|
机器学习/深度学习 算法 搜索推荐
【机器学习】十大算法之一 “KNN”
KNN(k-nearest neighbors)算法是一种监督学习算法,也是机器学习中比较基础的算法之一。它主要应用于分类和回归。KNN算法的基本思想是在训练集中搜索k个距离测试样本最近的样本,并对这些邻居样本中的大多数进行分类或回归。KNN算法是一种非参数算法,不需要对数据分布进行任何假设,具有很强的鲁棒性和普适性。KNN算法可以用于图像识别、语音识别、推荐系统等常见的机器学习应用领域。KNN算法在实际应用中具有很高的可扩展性,几乎可以应用于任何领域。
559 0
【机器学习】十大算法之一 “KNN”
|
9月前
|
机器学习/深度学习 算法 Python
12 机器学习 - KNN实现手写数字识别
12 机器学习 - KNN实现手写数字识别
126 0
|
资源调度
数据科学与统计学之使用JAGS训练贝叶斯回归模型
使用JAGS训练贝叶斯回归模型
100 0
|
机器学习/深度学习 自然语言处理 算法
【论文解读】文本分类上分利器:Bert微调trick大全
【论文解读】文本分类上分利器:Bert微调trick大全
854 0
【论文解读】文本分类上分利器:Bert微调trick大全
|
机器学习/深度学习 存储 缓存
深度学习实战 fashion-mnist数据集预处理技术分析
深度学习实战 fashion-mnist数据集预处理技术分析
122 0
|
机器学习/深度学习 算法
阿旭机器学习实战【5】KNN算法实战练习2:利用KNN模型进行手写体数字识别
阿旭机器学习实战【5】KNN算法实战练习2:利用KNN模型进行手写体数字识别
阿旭机器学习实战【5】KNN算法实战练习2:利用KNN模型进行手写体数字识别