R语言：用R语言填补缺失的数据

2024-04-16 201

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： R语言：用R语言填补缺失的数据

缺少数据在分析数据集时可能不是一个微不足道的问题。

如果缺失数据的量相对于数据集的大小非常小，那么为了不偏离分析而忽略缺少特征的少数样本可能是最好的策略，但是留下可用的数据点会剥夺某些数据的特征。

尽管某些快速修正如均值替代在某些情况下可能很好，但这种简单的方法通常会向数据中引入偏差。

在这篇文章中，我们将使用airquality数据集（在R中提供）来推测缺失值。

为了本文的目的，我将从数据集中删除一些数据点。

快速分类缺失数据

有两种类型的缺失数据：

MCAR：随意丢失。

MNAR：不是随意丢失的。随机数据丢失是一个更严重的问题，在这种情况下，进一步检查数据收集过程并尝试理解信息丢失的原因可能是明智的。例如，如果调查中的大多数人没有回答某个问题，他们为什么这样做？这个问题不清楚吗？

假设数据是MCAR，太多丢失的数据也可能成为一个问题。


pMiss < - function（x）{sum（is.na（x））/ length（x）* 100}

我们发现臭氧几乎失去了25％的数据点，因此我们可能会考虑将其从分析中删除或收集更多的测量数据。

其他变量低于5％的阈值，所以我们可以保留它们。就样本而言，仅缺少一个特征会导致每个样本缺失25％的数据。如果可能，应丢弃缺少2个或更多特征（> 50％）的样本。

查看缺失的数据模式

该mice软件包提供了一个很好的功能md.pattern()，可以更好地理解丢失数据的模式

输出结果告诉我们，104个样本是完整的，34个样本只错过臭氧测量，4个样本只错过了Solar.R值，等等。

一个可能更有用的视觉表示可以使用下面的VIM包得到

该图有助于我们理解几乎70％的样本没有遗漏任何信息，22％的人缺少臭氧值，剩余的样本显示其他遗漏的模式。通过这种方法，我认为情况看起来更清楚一些。

marginplot

左边的红色方块图显示Solar.R的分布与臭氧缺失，而蓝色方块图显示剩余数据点的分布。

如果我们假设MCAR数据是正确的，那么我们预计红色和蓝色方块图非常相似。

输入缺失的数据

现在我们可以使用该complete()函数返回已完成的数据集。

completedData < - complete（tempData，1）

首先，我们可以使用散点图并将臭氧对所有其他变量进行绘图

xyplot（tempData，Ozone_Wind + Temp + Solar.R，pch = 18，cex = 1）

密度图：

densityplot


stripplot（tempData，pch = 20，cex = 1.2）

R语言：用R语言填补缺失的数据

快速分类缺失数据

查看缺失的数据模式

输入缺失的数据

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

R语言：用R语言填补缺失的数据

快速分类缺失数据

查看缺失的数据模式

输入缺失的数据

热门文章

最新文章

相关课程

相关电子书