R数据科学|5.4内容介绍及习题解答

简介: R数据科学|5.4内容介绍及习题解答

5.4 缺失值


处理异常值有2种方法:


1.将带有可疑值的行全部丢弃

diamonds2 <- diamonds %>%  
  filter(between(y, 3, 20))

我们不建议使用这种方式,因为一个无效测量不代表所有测量都是无效的。此外,如果数据质量不高,若对每个变量都采取这种做法,那么你最后可能会发现数据已经所剩无几!


2. 缺失值代替

最简单的做法就是使用mutate()函数创建一个新变量来代替原来的变量。你可以使用ifelse()函数将异常值替换为 NA:

diamonds2 <- diamonds %>%  
  mutate(y = ifelse(y < 3 | y > 20, NA, y))

上面ifelse()函数含义为:如果y小于3或y大于20,则y=NA,反之,y还是为原来值。

注意:和 R 一样,ggplot2也遵循不能无视缺失值的原则。因为无法明确地绘制出缺失值,所以ggplot2 在绘图时会忽略缺失值,但会提出警告以通知缺失值被丢弃了:

ggplot(data = diamonds2, mapping = aes(x = x, y = y)) +  
  geom_point()  
#> Warning: Removed 9 rows containing missing values  
#> (geom_point).

image.gif

要想不显示这条警告,可以在geom_point()中设置na.rm = TRUE


比较有无缺失值的区别

有时你会想弄清楚造成有缺失值的观测和没有缺失值的观测间的区别的原因。例如,在nycflights13::flights中,dep_time 变量中的缺失值表示航班取消了。因此,你应该比较一下已取消航班和未取消航班的计划出发时间。可以使用 is.na() 函数创建一个新变量来完成这个操作:

nycflights13::flights %>%  
  mutate(  
     cancelled = is.na(dep_time),  
     sched_hour = sched_dep_time %/% 100,  
     sched_min = sched_dep_time %% 100,  
     sched_dep_time = sched_hour + sched_min / 60  
 ) %>%  
ggplot(mapping = aes(sched_dep_time)) +  
  geom_freqpoly(  
    mapping = aes(color = cancelled),  
    binwidth = 1/4  
 )

5G39}2J(E$0NG59Z}(6VJ7W.png


5.4 习题解答


该节的作业习题较少,就直接在内容后面附上了。


问题一

直方图如何处理缺失值?条形图如何处理缺失值?为什么会有这种区别?

解答

  • 直方图:当计算每个箱中的观察数时,丢失的值被删除。请参阅警告信息。在直方图中x需要是数值型的,stat_bin()按范围将观察结果分组到各个箱中。由于NA观测值的数值是未知的,它们不能被放置在特定的容器中,因此被丢弃。
diamonds2 <- diamonds %>%  
  mutate(y = ifelse(y < 3 | y > 20, NA, y))  
ggplot(diamonds2, aes(x = y)) +  
  geom_histogram()  
#> `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.  
#> Warning: Removed 9 rows containing non-finite values (stat_bin).
  • 条形图:在geom_bar()函数中NA被视为单独一类的数据,此函数要求x是一个离散的(分类的)变量,缺失的值类似于另一个类别。
diamonds %>%  
  mutate(cut = if_else(runif(n()) < 0.1, NA_character_, as.character(cut))) %>%  
  ggplot() +  
  geom_bar(mapping = aes(x = cut))


问题二

na.rm = TRUEmean()sum()函数中的作用是什么?

解答

该命令在计算平均值和总和之前从原数据中删除NA值。

mean(c(0, 1, 2, NA), na.rm = TRUE)  
#> [1] 1  
sum(c(0, 1, 2, NA), na.rm = TRUE)  
#> [1] 3


目录
相关文章
|
索引 Python
【数据科学导论】实验五:循环
【数据科学导论】实验五:循环
70 0
|
存储 索引
【数据科学导论】实验四:列表
【数据科学导论】实验四:列表
68 0
|
数据可视化 大数据
|
数据可视化
R数据科学|5.5.2内容介绍及课后习题解答
要想对两个分类变量间的相关变动进行可视化表示,需要计算出每个变量组合中的观测数量。常用的两种方法有
512 0
R数据科学|5.5.2内容介绍及课后习题解答
R数据科学|第十一章内容介绍
因子在 R 中用于处理分类变量。从历史上看,因子远比字符串更容易处理。因此,R 基础包中的很多函数都自动将字符串转换为因子。
198 0
R数据科学|第十一章内容介绍
|
SQL
R数据科学|第九章内容介绍
在实际应用中,我们常会涉及到多个数据表,必须综合使用它们才能找到关键信息。存在于多个表中的这种数据统称为关系数据。本章中的很多概念都和SQL中的相似,只是在dplyr中的表达形式略微不同。一般来说,dplyr 要比 SQL 更容易使用
163 0
R数据科学|第十章内容介绍(二)
本章通过学习字符串的处理,再结合正则表达式进行正确的模式匹配。
324 0
R数据科学|第十章内容介绍(二)
|
数据可视化
R数据科学|5.5.3内容介绍
对于两个连续变量间的相关变动的可视化表示有一下两种方法: 1. 使用geom_point()画出散点图 2. 使用分箱处理
218 0
R数据科学|5.5.3内容介绍
|
数据可视化
R数据科学|5.5.1 内容介绍
如果变动描述的是一个变量内部的行为,那么相关变动描述的就是多个变量之间的行为。相关变动是两个或多个变量以相关的方式共同变化所表现出的趋势。查看相关变动的最好 方式是将两个或多个变量间的关系以可视化的方式表现出来。如何进行这种可视化表示同 样取决于相关变量的类型。
212 0
R数据科学|3.4内容介绍及习题解答
通过基于变量名的操作,select()函数可以让你生成一个有用的变量子集。
425 0

相关实验场景

更多