开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):概述】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/921/detail/15629
概述
内容介绍
一、数据清理
二、数据集成
三、数据转换
四、数据约简
在这一章中,我们将向大家介绍预处理的主要步骤。数据清理。数据集成,数据转换和数据约简。
我们首先来看一下数据预处理的主要步骤。数据预处理的主要步骤包括数据清理,数据集成,数据转换和数据约简。
一、数据清理
数据清理主要是因为我们现实世界中的数据是将数据。在张数据上面进行数据挖掘。
会得到一些错误的数据挖掘结果。因此我们要通过数据清理。将数据变成干净的数据。数据清理主要是。处理错误数据。平滑噪音识别,或者是移除噪音点。并且解决数据的不一致问题。
二、数据集成
数据集成是将来源于多个不同数据源的易购,不同特点性质的数据集中在一起。
三、数据转换
数据转换主要是将数据转换成适合数据挖掘任务的数据。数据转换主要是包括数据的规范化和数据的离散化。数据约简主要是通过原始数据集得到一个规模较小的数据集。使得在这个规模较小的数据集上,得到的数据挖掘结果和在原始数据集上得到的数据挖掘结果几乎相同。
四、数据约简
数据约简的策略主要包括维度,越结数量约简和数据压缩。关于数据预处理的主要步骤,介绍到这里。