开发者社区> 华章计算机> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

《R语言数据挖掘》----1.14 数据变换与离散化

简介:
+关注继续查看

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.14节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.14 数据变换与离散化

根据前面的内容,我们可以知道总有一些数据格式最适合特定的数据挖掘算法。数据变换是一种将原始数据变换成较好数据格式的方法,以便作为数据处理前特定数据挖掘算法的输入。

1.14.1 数据变换

数据变换程序将数据变换成可用于挖掘的恰当形式。它们如下所述:

平滑:使用分箱、回归和聚类去除数据中的噪声。

属性构造:根据给定的属性集,构造和添加新的属性。

聚合:在汇总或者聚合中,对数据执行操作。

标准化:这里,对属性数据进行缩放以便落入一个较小的范围。

离散化:数值属性的原始值被区间标签或者概念标签所取代。

对名义数据进行概念分层:这里,属性可以被推广到更高层次的概念中。

1.14.2 标准化数据的变换方法

为了避免依赖数据属性的测量单位的选择,数据需要标准化。这意味着将数据变换或者映射到一个较小的或者共同的范围内。在这个过程后,所有的属性获得相同的权重。有许多标准化的方法,我们看看其中的一些办法。

最小-最大标准化:该方法保留了原始数据值之间的关系,对原始数据进行线性变换。当一个属性的实际最大值和最小值可用时,该属性将被标准化。

z分数标准化:这里,属性值的标准化是基于属性的均值和标准差。当对一个属性进行标准化时,如果其实际最大值和最小值是未知的,则该方法仍然是有效的。

十进制标准化:该方法通过移动属性值的小数点将其标准化。

1.14.3 数据离散化

数据离散化通过值映射将数值数据变换成区间标签或者概念标签。离散化技术包括:

通过分箱将数据离散化:这是一个根据指定数目的、分段的、自上而下的无监督分割技术。

根据直方图分析将数据离散化:在该技术中,直方图将属性值分割在不相交的范围内,称为桶或者箱,同样为无监督的方法。

通过聚类分析将数据离散化:在该技术中,应用聚类算法离散化数值属性,它通过将该属性的值分割到不同的类或者组中。

通过决策树分析将数据离散化:这里,决策树采用自上而下的分割方法,它是一个有监督的方法。为了离散化数值属性,该方法选择具有最小熵的属性值作为分割点,并递归地划分所得的区间以实现分层离散化。

通过相关分析将数据离散化:该技术采用自下而上的方法,通过发现最佳近邻区间,然后递归地将它们合并成更大的区间,这是一个有监督的方法。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
《R语言游戏数据分析与挖掘》一第1章 什么是游戏数据分析
本节书摘来华章计算机《R语言游戏数据分析与挖掘》一书中的第1章 ,第1.1节,谢佳标 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1054 0
10057
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载