《R语言数据挖掘:实用项目解析》——第1章,第1.13节缺失值(NA)的处理

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介:

本节书摘来自华章出版社《R语言数据挖掘:实用项目解析》一书中的第1章,第1.13节缺失值(NA)的处理,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.13 缺失值(NA)的处理
缺失值处理在标准数据挖掘场景中是一个重要的任务。在R语言中,缺失值显示为NA。NA既不是字符串也不是数值型变量,它们被当作缺失值的标识。在将数据集导入R语言平台之后,必须检查所有变量,看是否存在缺失值——可使用is.na()函数。示例如下:


264ef08ac24d5ee486b7c968ec49cb9c54333b99

在上面的代码中,对象x是一个数值型向量,其中包含了一些NA值。is.na()可用于验证是否存在缺失值,如存在,则输出结果为TRUE。如果在存在NA值的情况下做计算,最终会出错或者无结果。我们可以通过修改NA值来替换数据集,或者可以在执行计算时移除那些NA值。如上面的代码所示,在计算对象x的平均值时通过na.rm=TRUE移除NA值。
可以使用na.omit()删除数据集中的缺失值。即使数据集只缺失了一个变量,它也会删除那一整行。缺失值的处理方法有很多种:
平均值替换:对于数据向量中的缺失值,可以用该向量的平均值或中位数替代(不包括NA值)。
局部平均法:取缺失值的局部平均值,通过3或5个周期移动取平均,即取3个周期的缺失数据的平均值作为先验值,根据后验值可确定缺失值应该是多少。
分隔保留:有时替换法无法完成,客户也许会有意将缺失值分隔保留下来,从而隔离地考虑缺失行为。
基于模型:有一些基于模型的缺失值替换法,例如基于回归模型预测缺失值的方法。
聚类法:可使用和回归预测相类似的方法来替换缺失值,可以采用K均值聚类法替换数据集中的缺失值。

相关文章
|
6月前
|
存储 机器学习/深度学习 缓存
【数据挖掘】XGBoost面试题:与GBDT的区别?为什么使用泰勒二阶展开?为什么可以并行训练?为什么快?防止过拟合的方法?如何处理缺失值?
XGBoost与GBDT的区别、XGBoost使用泰勒二阶展开的原因、并行训练的原理、速度优势、防止过拟合的策略以及处理缺失值的方法,突出了XGBoost在提升模型性能和训练效率方面的一系列优化。
245 1
|
9月前
|
SQL 数据可视化 算法
R语言公交地铁路线进出站数据挖掘网络图可视化
R语言公交地铁路线进出站数据挖掘网络图可视化
|
9月前
|
算法 数据挖掘 数据库
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
|
9月前
|
数据可视化 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
|
9月前
|
数据可视化 算法 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
《R语言编程艺术》——2.7 NA与NULL值
本节书摘来自华章计算机《R语言编程艺术》一书中的第2章,第2.7节,作者:(美)麦特洛夫(Matloff,N.)著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1654 0
|
5月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
4月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
79 3