6.1简介
tibble 是一种简单数据框,它对传统数据框的功能进 行了一些修改,以便更易于使用。本章会介绍 tibble 包,其所提供的简单数据框更易于在 tidyverse 中使用。多数情况下,我们会交替使用 tibble 和数据框这两个术语;如果想要特别强调 R 内置的传统数据框,我们会使用 data.frame 来表示。如果读完本章后你还想学习有关 tibble 的更多知识,可以使用 vignette("tibble") 命令。
6.2创建tibble
本书中使用的所有函数几乎都可以创建 tibble,因为 tibble 是 tidyverse 的标准功能之一。由于多数其他 R 包使用的是标准数据框,因此你可能想要将数据框转换为 tibble。可以使 用 as_tibble() 函数来完成转换:
library(tidyverse)#同样先加载tidyverse as_tibble(iris)
> as_tibble(iris) # A tibble: 150 x 5 Sepal.Length Sepal.Width Petal.Length Petal.Width Species <dbl> <dbl> <dbl> <dbl> <fct> 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa 7 4.6 3.4 1.4 0.3 setosa 8 5 3.4 1.5 0.2 setosa 9 4.4 2.9 1.4 0.2 setosa 10 4.9 3.1 1.5 0.1 setosa # ... with 140 more rows
可以通过 tibble() 函数使用一个向量来创建新 tibble。tibble() 会自动重复长度为 1 的输 入,并可以使用刚刚创建的新变量,如下所示:
tibble( x = 1:5, y = 1, z = x ^ 2 + y )
> tibble( + x = 1:5, + y = 1, + z = x ^ 2 + y + ) # A tibble: 5 x 3 x y z <int> <dbl> <dbl> 1 1 1 2 2 2 1 5 3 3 1 10 4 4 1 17 5 5 1 26
创建 tibble 的另一种方法是使用 tribble() 函数,tribble 是 transposed tibble(转置 tibble) 的缩写。tribble() 是定制化的,可以对数据按行进行编码:列标题由公式(以 ~ 开头) 定义,数据条目以逗号分隔,这样就可以用易读的方式对少量数据进行布局:
tribble( ~x, ~y, ~z, "a", 2, 3.6, "b", 1, 8.5 )
> tribble( + ~x, ~y, ~z, + "a", 2, 3.6, + "b", 1, 8.5 + ) # A tibble: 2 x 3 x y z <chr> <dbl> <dbl> 1 a 2 3.6 2 b 1 8.5
6.3对比 tibble 与data.frame
tibble 和传统 data.frame 的使用方法主要有两处不同:打印和取子集。
6.3.1打印
tibble 的打印方法进行了优化,只显示前 10 行结果,并且列也是适合屏幕的,这种方式非 常适合大数据集。除了打印列名,tibble 还会打印出列的类型。
tibble( a = lubridate::now() + runif(1e3) * 86400, #lubridate::now() 当前时间 #runif()函数用于生成从0到1区间范围内的服从正态分布的随机数。 b = lubridate::today() + runif(1e3) * 30, #lubridate::today()当前日期 c = 1:1e3, d = runif(1e3), e = sample(letters, 1e3, replace = TRUE) ) #sample(x, size, replace = FALSE) #具体参数说明: #x 整体数据,以向量形式给出 #size 抽取样本的数目 #replace 如果为F(默认),则是不重复抽样,此时size不能大于x的长度; #如果为T,则是重复抽样,此时size允许大于x的长度
> tibble( + a = lubridate::now() + runif(1e3) * 86400, + #runif()函数用于生成从0到1区间范围内的服从正态分布的随机数 + b = lubridate::today() + runif(1e3) * 30, + c = 1:1e3, + d = runif(1e3), + e = sample(letters, 1e3, replace = TRUE) + ) # A tibble: 1,000 x 5 a b c d e <dttm> <date> <int> <dbl> <chr> 1 2021-02-27 05:14:50 2021-03-22 1 0.604 c 2 2021-02-26 16:27:32 2021-03-07 2 0.745 p 3 2021-02-26 17:47:30 2021-03-19 3 0.999 g 4 2021-02-27 05:24:29 2021-03-01 4 0.758 a 5 2021-02-26 14:02:13 2021-03-04 5 0.211 u 6 2021-02-27 05:40:53 2021-03-14 6 0.850 r 7 2021-02-26 21:34:07 2021-03-09 7 0.152 o 8 2021-02-27 06:28:12 2021-03-11 8 0.548 f 9 2021-02-26 17:22:06 2021-03-24 9 0.655 d 10 2021-02-26 21:26:52 2021-03-17 10 0.656 h # ... with 990 more rows
在打印大数据框时,tibble 的这种设计避免了输出占满整个控制台。但有时需要比默认显示更多的输出,这时就要设置几个选项。首先,可以明确使用 print() 函数来打印数据框,并控制打印的行数(n)和显示的宽度(width)。width = Inf 可以显示出所有列:
nycflights13::flights %>% print(n = 10, width = Inf)
还可以通过设置以下选项来控制默认的打印方式。
• options(tibble.print_max = n, tibble.pring_min = m):如果多于 m 行,则只打印出 n 行。options(tibble.print_min = Inf) 表示总是打印所有行。
• options(tibble.width = Inf) 表示总是打印所有列,不考虑屏幕的宽度。
最后一种方式是使用 RStudio 内置的数据查看器,以滚动方式查看整个数据集。进行一长串数据处理操作后,经常会使用这种查看方式:
nycflights13::flights %>% View()
或者直接点击右上区域相应的数据名进行查看。当数据量小时,这个方法比较简单,但当数据比较大时,如要处理转录组数据或单细胞数据,则需加载一定时间。这个时候我个人倾向于直接查看数据部分内容,节省时间。
6.3.2取子集
迄今为止,你学到的所有工具都是作用于整个数据框。如果想要提取单个变量,那么就需 要一些新工具,如 $ 和 [[。[[ 可以按名称或位置提取变量;$ 只能按名称提取变量,但可以减少一些输入:
df <- tibble( x = runif(5), y = rnorm(5) ) # 按名称提取 df$x > [1] 0.434 0.395 0.548 0.762 0.254 df[["x"]] > [1] 0.434 0.395 0.548 0.762 0.254 # 按位置提取 df[[1]] > [1] 0.434 0.395 0.548 0.762 0.254
要想在管道中使用这些提取操作,需要使用特殊的占位符 .:
df %>% .$x > [1] 0.434 0.395 0.548 0.762 0.254 df %>% .[["x"]] > [1] 0.434 0.395 0.548 0.762 0.254
6.4与旧代码进行交互
有些比较旧的函数不支持 tibble。如果遇到这种函数,可以使用 as.data.frame() 函数将tibble 转换回 data.frame:
> class(as.data.frame(df)) [1] "data.frame"
有些旧函数不支持 tibble 的主要原因在于 [ 的功能。本书没有使用太多的 [,因为dplyr::filter() 和 dplyr::select() 可以通过更加清晰的代码解决同样的问题。对于 R 基础包中的数据框,[ 有时返回一个数据框,有时返回一个向量。对于 tibble,[ 则总是返回另一个 tibble。
6.5练习
本章内容较少,放个练习。如果对本章内容或者练习有疑问的小伙伴,可以后台私信或者评论区留言。欢迎互相交流。