数据挖掘之数据准备——原始数据的特性

简介: 最初为数据挖掘准备的所有原始数据集通常很大,它们中的许多都和人有关,且比较杂乱。

最初为数据挖掘准备的所有原始数据集通常很大,它们中的许多都和人有关,且比较杂乱。


初始数据集应包含丢失值,失真,误记录和不正当样本等。要得到高质量的数据,必须在分析者看到它们之前,先整理和预处理数据,使其就像设计合理,准备充分的数据仓库中的数据一样。


杂乱数据的来源和含义。数据杂乱的原因如下:

    1、数据丢失的原因包括测量或者记录出错,有时候都无法获得数据值。在数据建模处理此问题时,必须能根据已有的数据甚至丢失的数据来建模。

    2、数据的误记录,这在大数据集中非常常见。我们必须有能发现这些“异常”值的机制,某些情况下,甚至要用这些机制消除“异常”值对最终结果的影响

    3、数据可能并不来自假定的样本母体。这里异常点就是典型的例子,分析人员要对它们进行仔细的分析,才能决定是将它们作为异常,从数据挖掘中剔除,还是将它们保留为所研究的样本母体的不寻常样本。


对于现代的大型数据集来说,必须依赖计算机程序来自动检查数据。


失真数据,方法上错误的步骤选择,滥用数据挖掘工具,模型过于理想化,未考虑数据中各种不确定性和模糊性的模型-所有这些都可能在数据挖掘过程中导致方向错误。因此,数据挖掘不只是简单地对已知问题应用一系列工具,而是一个批判性的鉴定,考查,检验和评估过程。数据在本质上应该是定义明确的,一致的和非易失性的。数据量要足够大,以支持数据分析,查询,汇报以及与长期历史数据进行比较。


数据挖掘过程中一个最关键的步骤是初始数据集的准备和转换。


原始数据并不总是能进行数据挖掘的最佳数据集,要对其进行许多转换,才能产生对所选的数据挖掘方法更有用的特征。


用不同的方式计算,采用不同的样本大小,选择重要的比率,针对时间相关数据改变数据窗口的大小,包活移动平均数的变化——所有这些都可能有助于获得更好的数据挖掘结果。



在数据挖掘应用的现实世界中,形势恰恰相反。数据准备比应用数据挖掘方法更加的耗时耗力。


数据准备阶段有两个中心任务:

 1、把数据组织成一种标准形式,以便于数据挖掘工具和其他基于计算机的工具处理

 2、准备数据集,使其能得到最佳的数据挖掘效果。


目录
相关文章
|
4月前
|
数据采集 算法 数据挖掘
【数据挖掘】数据变换与离散化讲解与实战(超详细 附源码)
【数据挖掘】数据变换与离散化讲解与实战(超详细 附源码)
76 0
|
4月前
|
数据可视化 数据挖掘 大数据
【数据挖掘】数据规约中维归约、小波变换、主成分分析的讲解及实战(超详细 附源码)
【数据挖掘】数据规约中维归约、小波变换、主成分分析的讲解及实战(超详细 附源码)
65 0
|
4月前
|
数据可视化 算法 JavaScript
【Python数据挖掘】数据可视化及数据对象的相似性度量算法详解(超详细 附源码)
【Python数据挖掘】数据可视化及数据对象的相似性度量算法详解(超详细 附源码)
80 0
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】逻辑Logistic回归在鸢尾花数据集中讲解及实战(超详细 附源码)
【数据挖掘】逻辑Logistic回归在鸢尾花数据集中讲解及实战(超详细 附源码)
55 0
|
4月前
|
数据挖掘
【数据挖掘】一元线性回归在鸢尾花数据集中实战预测(超详细 附源码)
【数据挖掘】一元线性回归在鸢尾花数据集中实战预测(超详细 附源码)
74 0
|
4月前
|
数据采集 存储 自然语言处理
【数据挖掘】数据清洗、数据集成、数据标准化的详解(超详细 附源码)
【数据挖掘】数据清洗、数据集成、数据标准化的详解(超详细 附源码)
91 0
|
4月前
|
数据采集 安全 数据挖掘
【数据挖掘】属性及其类型和数据的统计描述四分位数等详解(图文解释 超详细)
【数据挖掘】属性及其类型和数据的统计描述四分位数等详解(图文解释 超详细)
74 0
|
5月前
|
机器学习/深度学习 数据可视化 数据挖掘
Python数据分析与数据挖掘:解析数据的力量
Python数据分析与数据挖掘:解析数据的力量
|
5月前
|
机器学习/深度学习 算法 数据挖掘
【大数据】数据挖掘工具:发现数据中的宝藏
【大数据】数据挖掘工具:发现数据中的宝藏
67 0
|
5月前
|
自然语言处理 数据可视化 搜索推荐
数据挖掘2.2——认识数据 知识点整理
数据挖掘2.2——认识数据 知识点整理
85 0