数据挖掘之数据准备——丢失数据

简介: 对数据挖掘的实际应用而言,即使数据量很大,具有完整数据的案例子集可能相对较小。可用的样本和将来的事件都可能有丢失值。一些数据挖掘方法可以接受丢失值,并能进行圆满的处理,得到最终结论。一个明显的问题是,在应用数据挖掘方法之前的数据准备阶段,能否把这些丢失值补上。

45ad929d1f3820a968f27288bed64a395746cbcd

对数据挖掘的实际应用而言,即使数据量很大,具有完整数据的案例子集可能相对较小。可用的样本和将来的事件都可能有丢失值。一些数据挖掘方法可以接受丢失值,并能进行圆满的处理,得到最终结论。一个明显的问题是,在应用数据挖掘方法之前的数据准备阶段,能否把这些丢失值补上。最简单的解决办法是减少数据集,去除包含丢失值的所有样本。若大型数据集是可用的,且只有一小部分样本包含丢失值,则这是可行的。


如果不去除丢失值的样本,如何找到他们的丢失值呢?


首先,数据挖掘者和领域内专家可手动检查缺失值样本,再根据姜堰加入一个合理的,可能的,预期的值。对丢失值较小的数据集合来说,这种方法简单明了。但是如果每个样本的值都不明显或似是而非,挖掘者就要手动生成一个值,从而把噪点引入数据集


第二种方法消除丢失值的一个更简单的解决方案,这种方法基于一种形式,常常用一些常量自动替换丢失值 如

1) 用一个全局常量替换所有的丢失值

2)用特征平均值替换丢失值

3)用给定种类的特征平均值替换丢失值

这些方法简单具有诱惑力,但是主要缺点是替代之并不准确。用常量替换丢失值或改变少数不同特征的值,数据就会有误差。替代值会均话带有丢失值的样本,给丢失值最多的类别生成一致的子集。如果所有特征的丢失值都用一个全局变量来替代,一个未知值可能会暗中形成一个未经客观证明的正因数


最后一种方法是,数据挖掘者可以生成一个预测模型,来预测每个丢失值。如果丢失值与其他已知特征高度有关,这样的处理就可以为特征生成最合适的值。


一般来讲,用简单的人工数据准备模式来替代丢失值是有风险的,常常有误导作用。最好对带有和不带有丢失值的特征生成多种数据挖掘解决方案,然后对他们进行分析和解释

目录
相关文章
从数据海洋中“淘金”——数据挖掘的魔法与实践
从数据海洋中“淘金”——数据挖掘的魔法与实践
53 13
从数据中挖掘洞见:初探数据挖掘的艺术与科学
从数据中挖掘洞见:初探数据挖掘的艺术与科学
82 11
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
恒生科技2022年9月24号数据ETL工程师岗位的笔试题目及答案汇总,包括了SQL选择题、SQL编程题和业务应用SQL编程题,涵盖了数据库基础知识、SQL语句编写以及数据仓库概念等多个方面。
125 2
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
161 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
157 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据
数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
SQL Server Analysis Services数据挖掘聚类分析职业、地区、餐饮消费水平数据
SQL Server Analysis Services数据挖掘聚类分析职业、地区、餐饮消费水平数据

热门文章

最新文章

下一篇
oss创建bucket
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等