数据挖掘之数据准备——原始数据的特性

简介: 最初为数据挖掘准备的所有原始数据集通常很大,它们中的许多都和人有关,且比较杂乱。

最初为数据挖掘准备的所有原始数据集通常很大,它们中的许多都和人有关,且比较杂乱。


初始数据集应包含丢失值,失真,误记录和不正当样本等。要得到高质量的数据,必须在分析者看到它们之前,先整理和预处理数据,使其就像设计合理,准备充分的数据仓库中的数据一样。


杂乱数据的来源和含义。数据杂乱的原因如下:

    1、数据丢失的原因包括测量或者记录出错,有时候都无法获得数据值。在数据建模处理此问题时,必须能根据已有的数据甚至丢失的数据来建模。

    2、数据的误记录,这在大数据集中非常常见。我们必须有能发现这些“异常”值的机制,某些情况下,甚至要用这些机制消除“异常”值对最终结果的影响

    3、数据可能并不来自假定的样本母体。这里异常点就是典型的例子,分析人员要对它们进行仔细的分析,才能决定是将它们作为异常,从数据挖掘中剔除,还是将它们保留为所研究的样本母体的不寻常样本。


对于现代的大型数据集来说,必须依赖计算机程序来自动检查数据。


失真数据,方法上错误的步骤选择,滥用数据挖掘工具,模型过于理想化,未考虑数据中各种不确定性和模糊性的模型-所有这些都可能在数据挖掘过程中导致方向错误。因此,数据挖掘不只是简单地对已知问题应用一系列工具,而是一个批判性的鉴定,考查,检验和评估过程。数据在本质上应该是定义明确的,一致的和非易失性的。数据量要足够大,以支持数据分析,查询,汇报以及与长期历史数据进行比较。


数据挖掘过程中一个最关键的步骤是初始数据集的准备和转换。


原始数据并不总是能进行数据挖掘的最佳数据集,要对其进行许多转换,才能产生对所选的数据挖掘方法更有用的特征。


用不同的方式计算,采用不同的样本大小,选择重要的比率,针对时间相关数据改变数据窗口的大小,包活移动平均数的变化——所有这些都可能有助于获得更好的数据挖掘结果。



在数据挖掘应用的现实世界中,形势恰恰相反。数据准备比应用数据挖掘方法更加的耗时耗力。


数据准备阶段有两个中心任务:

 1、把数据组织成一种标准形式,以便于数据挖掘工具和其他基于计算机的工具处理

 2、准备数据集,使其能得到最佳的数据挖掘效果。


目录
相关文章
|
5月前
|
SQL 存储 算法
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
恒生科技2022年9月24号数据ETL工程师岗位的笔试题目及答案汇总,包括了SQL选择题、SQL编程题和业务应用SQL编程题,涵盖了数据库基础知识、SQL语句编写以及数据仓库概念等多个方面。
80 2
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
|
5月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
98 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
5月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
95 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
|
8月前
|
数据采集 存储 算法
数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据
数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据
|
8月前
|
算法 数据挖掘 数据库
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
|
8月前
|
数据可视化 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
|
8月前
|
数据可视化 算法 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分