《R语言数据挖掘:实用项目解析》——第2章,第2.6节变量分段

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介:

本节书摘来自华章出版社《R语言数据挖掘:实用项目解析》一书中的第2章,第2.6节变量分段,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.6 变量分段
在将连续变量纳入模型之前,需要对其进行处理。以Cars93数据集中的油箱容量为例,基于油箱容量,我们可以创建一个分类变量,值为高、中和低、低中:


f024e627d9d635b087ee479caaa1f45c0a799220

油箱容量的值域为9.2~27。根据逻辑,使用分类差4(也即每个分类之间相差4)完成分类。这些分类定义了变量中的每一个值被分配到每一组的方式。最后的输出表显示有4个组,最高的油箱容量组只有4辆车。
变量分段或离散化不仅有助于建立决策树,在做logistic回归和其他形式的机器学习模型时也会用到。

相关文章
|
29天前
|
SQL 存储 Oracle
南大通用GBase 8s数据库游标变量解析:提升数据库操作效率
南大通用GBase 8s 数据库游标变量解析:提升数据库操作效率
|
3月前
|
数据采集
基于R语言的GD库实现地理探测器并自动将连续变量转为类别变量
【9月更文挑战第9天】在R语言中,可通过`gd`包实现地理探测器。首先,安装并加载`gd`包;其次,准备包含地理与因变量的数据框;然后,使用`cut`函数将连续变量转换为分类变量;最后,通过`gd`函数运行地理探测器,并打印结果以获取q值等统计信息。实际应用时需根据数据特点调整参数。
167 8
|
4月前
|
存储 Java 索引
32 位和 64 位 JVM 中 int 变量的大小解析
【8月更文挑战第21天】
259 0
|
7月前
|
存储 Java 程序员
【Python 的内存管理机制专栏】深入解析 Python 的内存管理机制:从变量到垃圾回收
【5月更文挑战第18天】Python内存管理关乎程序性能与稳定性,包括变量存储和垃圾回收。变量存储时,如`x = 10`,`x`指向内存中值的引用。垃圾回收通过引用计数自动回收无引用对象,防止内存泄漏。了解此机制可优化内存使用,避免循环引用等问题,提升程序效率和稳定性。深入学习内存管理对成为优秀Python程序员至关重要。
69 5
【Python 的内存管理机制专栏】深入解析 Python 的内存管理机制:从变量到垃圾回收
|
6月前
|
Java
Java 基础深度解析:变量与常量的声明、赋值与初始化的权威指南
【6月更文挑战第14天】Java编程中的变量和常量是基础关键。声明变量如`int age;`,赋值与初始化可在声明时或后续代码中完成。常量用`final`修饰,如`public static final double PI = 3.14159;`,且只能赋值一次。变量命名应具描述性,常量值设定后尽量不变,注重代码的可读性和可维护性。熟练掌握这些将有助于编写高质量Java程序。
90 4
|
7月前
|
存储 Java
JAVA中的变量:深入解析与实例
JAVA中的变量:深入解析与实例
104 3
|
7月前
|
程序员 Python
Python中的变量作用域:深入解析与示例
Python中的变量作用域:深入解析与示例
84 1
|
7月前
|
机器学习/深度学习 前端开发 数据可视化
R语言缺失数据变量选择LASSO回归:Bootstrap重(再)抽样插补和推算
R语言缺失数据变量选择LASSO回归:Bootstrap重(再)抽样插补和推算
|
7月前
|
数据挖掘 数据建模
R语言指数加权模型EWMA预测股市多变量波动率
R语言指数加权模型EWMA预测股市多变量波动率
R语言指数加权模型EWMA预测股市多变量波动率
|
7月前
|
存储 Java 容器
Java中的常量和变量:深入解析与应用
Java中的常量和变量:深入解析与应用
92 0

热门文章

最新文章

推荐镜像

更多