最初为数据挖掘准备的所有原始数据集通常很大,它们中的许多都和人有关,且比较杂乱。
初始数据集应包含丢失值,失真,误记录和不正当样本等。要得到高质量的数据,必须在分析者看到它们之前,先整理和预处理数据,使其就像设计合理,准备充分的数据仓库中的数据一样。
杂乱数据的来源和含义。数据杂乱的原因如下:
1、数据丢失的原因包括测量或者记录出错,有时候都无法获得数据值。在数据建模处理此问题时,必须能根据已有的数据甚至丢失的数据来建模。
2、数据的误记录,这在大数据集中非常常见。我们必须有能发现这些“异常”值的机制,某些情况下,甚至要用这些机制消除“异常”值对最终结果的影响
3、数据可能并不来自假定的样本母体。这里异常点就是典型的例子,分析人员要对它们进行仔细的分析,才能决定是将它们作为异常,从数据挖掘中剔除,还是将它们保留为所研究的样本母体的不寻常样本。
对于现代的大型数据集来说,必须依赖计算机程序来自动检查数据。
失真数据,方法上错误的步骤选择,滥用数据挖掘工具,模型过于理想化,未考虑数据中各种不确定性和模糊性的模型-所有这些都可能在数据挖掘过程中导致方向错误。因此,数据挖掘不只是简单地对已知问题应用一系列工具,而是一个批判性的鉴定,考查,检验和评估过程。数据在本质上应该是定义明确的,一致的和非易失性的。数据量要足够大,以支持数据分析,查询,汇报以及与长期历史数据进行比较。
数据挖掘过程中一个最关键的步骤是初始数据集的准备和转换。
原始数据并不总是能进行数据挖掘的最佳数据集,要对其进行许多转换,才能产生对所选的数据挖掘方法更有用的特征。
用不同的方式计算,采用不同的样本大小,选择重要的比率,针对时间相关数据改变数据窗口的大小,包活移动平均数的变化——所有这些都可能有助于获得更好的数据挖掘结果。
在数据挖掘应用的现实世界中,形势恰恰相反。数据准备比应用数据挖掘方法更加的耗时耗力。
数据准备阶段有两个中心任务:
1、把数据组织成一种标准形式,以便于数据挖掘工具和其他基于计算机的工具处理
2、准备数据集,使其能得到最佳的数据挖掘效果。