《R语言数据挖掘》----1.14 数据变换与离散化-阿里云开发者社区

《R语言数据挖掘》----1.14 数据变换与离散化

2017-05-02 2348

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章，第1.14节，作者［哈萨克斯坦］贝特·麦克哈贝尔（Bater Makhabel），李洪成许金炜段力辉译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.14　数据变换与离散化

根据前面的内容，我们可以知道总有一些数据格式最适合特定的数据挖掘算法。数据变换是一种将原始数据变换成较好数据格式的方法，以便作为数据处理前特定数据挖掘算法的输入。

1.14.1　数据变换

数据变换程序将数据变换成可用于挖掘的恰当形式。它们如下所述：

平滑：使用分箱、回归和聚类去除数据中的噪声。

属性构造：根据给定的属性集，构造和添加新的属性。

聚合：在汇总或者聚合中，对数据执行操作。

标准化：这里，对属性数据进行缩放以便落入一个较小的范围。

离散化：数值属性的原始值被区间标签或者概念标签所取代。

对名义数据进行概念分层：这里，属性可以被推广到更高层次的概念中。

1.14.2　标准化数据的变换方法

为了避免依赖数据属性的测量单位的选择，数据需要标准化。这意味着将数据变换或者映射到一个较小的或者共同的范围内。在这个过程后，所有的属性获得相同的权重。有许多标准化的方法，我们看看其中的一些办法。

最小-最大标准化：该方法保留了原始数据值之间的关系，对原始数据进行线性变换。当一个属性的实际最大值和最小值可用时，该属性将被标准化。

z分数标准化：这里，属性值的标准化是基于属性的均值和标准差。当对一个属性进行标准化时，如果其实际最大值和最小值是未知的，则该方法仍然是有效的。

十进制标准化：该方法通过移动属性值的小数点将其标准化。

1.14.3　数据离散化

数据离散化通过值映射将数值数据变换成区间标签或者概念标签。离散化技术包括：

通过分箱将数据离散化：这是一个根据指定数目的、分段的、自上而下的无监督分割技术。

根据直方图分析将数据离散化：在该技术中，直方图将属性值分割在不相交的范围内，称为桶或者箱，同样为无监督的方法。

通过聚类分析将数据离散化：在该技术中，应用聚类算法离散化数值属性，它通过将该属性的值分割到不同的类或者组中。

通过决策树分析将数据离散化：这里，决策树采用自上而下的分割方法，它是一个有监督的方法。为了离散化数值属性，该方法选择具有最小熵的属性值作为分割点，并递归地划分所得的区间以实现分层离散化。

通过相关分析将数据离散化：该技术采用自下而上的方法，通过发现最佳近邻区间，然后递归地将它们合并成更大的区间，这是一个有监督的方法。

《R语言数据挖掘》----1.14 数据变换与离散化

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章，第1.14节，作者［哈萨克斯坦］贝特·麦克哈贝尔（Bater Makhabel），李洪成许金炜段力辉译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.14　数据变换与离散化

1.14.1　数据变换

1.14.2　标准化数据的变换方法

1.14.3　数据离散化

华章出版社

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《R语言数据挖掘》----1.14 数据变换与离散化

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章，第1.14节，作者［哈萨克斯坦］贝特·麦克哈贝尔（Bater Makhabel），李洪成 许金炜 段力辉 译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.14 数据变换与离散化

1.14.1 数据变换

1.14.2 标准化数据的变换方法

1.14.3 数据离散化

华章出版社

热门文章

最新文章

相关课程

相关电子书

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章，第1.14节，作者［哈萨克斯坦］贝特·麦克哈贝尔（Bater Makhabel），李洪成许金炜段力辉译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.14　数据变换与离散化

1.14.1　数据变换

1.14.2　标准化数据的变换方法

1.14.3　数据离散化