【kaggle】特征工程 trick

简介: 可以先利用统计值筛选特征,比如缺失比例大于99%,或者信息量较少的特征;然后再做特征编码,在编码后也可以利用模型去筛选特征。

一、特征工程流程

结构化比赛中,做特征工程时:

可以先利用统计值筛选特征,比如缺失比例大于99%,或者信息量较少的特征;

然后再做特征编码,在编码后也可以利用模型去筛选特征。

如果原始数据的特征足够有效,就可以不做特征筛选;

利用统计值筛选,比模型筛选靠谱点。

二、类别编码方法

对于类别字段,是one hot、标签编码、频率编码和目标编码都要做吗:

先看类别字段的取值空间,如果不大,可以one hot独热编码。

通过EDA分析频率编码和目标编码是否足够有区分性,再决定做不做。

三、特征交叉

根据特征A和特征B,构造新的特征:A+B、A-B、A*B、group(A)[B]等

可以从EDA先分析,能分析新特征,和标签存在相关性,则可以做。

四、特征筛选

基于模型如何筛选特征:排列重要性、shap value、null importance

如果筛选后分数下降:考虑保留下来,好的筛选方法筛选结果一般不会对精度有很大影响。


相关文章
|
12月前
|
大数据 Linux 数据库
openEuler操作系统介绍
openEuler是一款开源免费的操作系统,由openEuler社区运作,支持多种处理器,适用于数据库、大数据、云计算等场景。它源自华为EulerOS,现分为创新版和LTS版,分别每半年和每两年发布一次。本课程以openEuler 20.03 LTS版为例,介绍其安装流程和环境准备。
1004 3
|
数据可视化
IQR法的缺点
IQR法的缺点
352 1
|
机器学习/深度学习 数据采集 搜索推荐
打造个性化新闻推荐系统
【8月更文挑战第31天】在这个信息爆炸的时代,个性化新闻推荐系统成为了连接用户与海量资讯的桥梁。本文将引导你通过Python编程语言和机器学习技术,搭建一个简单的新闻推荐模型。我们将从数据预处理开始,逐步深入到模型的训练与评估,最终实现一个能够根据用户兴趣推荐新闻的系统。无论你是编程新手还是有一定基础的学习者,这篇文章都将为你打开一扇通往智能推荐世界的大门。
|
消息中间件 存储 关系型数据库
实时计算 Flink版产品使用问题之同步时,上游批量删除大量数据(如20万条),如何提高删除效率
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
人工智能 算法 物联网
求解三维装箱问题的启发式深度优先搜索算法(python)
求解三维装箱问题的启发式深度优先搜索算法(python)
357 0
|
SQL 关系型数据库 MySQL
MySQL:Access denied for user 'root'@'localhost'
mysql数据库对权限校验也是特别的严格的,毕竟数据安全是很重要的,那么,像我这种小白用户就会遇到很多像权限不足,或者无法连接数据库的尴尬境遇,那么,假如遇到题中所述的问题如何解决呢?下面请看小白的解决方案!
1495 0
|
存储 算法 Java
【内存】Android C/C++ 内存泄漏分析 unreachable
【内存】Android C/C++ 内存泄漏分析 unreachable
1026 0
|
存储 缓存 安全
11-FreeRTOS配置函数 FreeRTOSConfig.h(下)
11-FreeRTOS配置函数 FreeRTOSConfig.h
|
传感器 机器学习/深度学习 存储
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022
语义分割在大规模室外场景理解中起着至关重要的作用,在自动驾驶和机器人技术中有着广泛的应用[1-3]。在过去几年中,研究界投入了大量精力,使用相机图像[4-7]或激光雷达点云[2,8-12]作为输入来理解自然场景。
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022
|
JSON 负载均衡 Oracle
微服务框架:如果不用 Spring Boot,还可以选择谁?(1)
微服务框架:如果不用 Spring Boot,还可以选择谁?
377 0
微服务框架:如果不用 Spring Boot,还可以选择谁?(1)