Tidyverse| XX_join :多个数据表(文件)之间的各种连接

简介: Tidyverse| XX_join :多个数据表(文件)之间的各种连接

本文首发于“生信补给站”公众号  https://mp.weixin.qq.com/s/jng4waGPz0wNiy9sqok4IA


前面分享了单个文件中的select列filter行列拆分等,实际中经常是多个数据表,综合使用才能回答你所感兴趣的问题。

本次简单的介绍多个表(文件)连接的方法。

一 载入数据,R包

library(tidyverse)
x <- tribble(
 ~key, ~val_x,
    1, "x1",
    2, "x2",
    3, "x3"
)
y <- tribble(
 ~key, ~val_y,
    1, "y1",
    2, "y2",
    4, "y3"
)


二 join 数据

 

向数据框中加入新变量,新变量的值是另一个数据框中的匹配观测。

1 连接方式

1) 内连接 inner_join

内连接是最简单的一种连接,只要两个观测的键是相等的,即可匹配。


注释:匹配在实际的连接操作中是用圆点表示的。圆点的数量 = 匹配的数量 = 结果中行的数量。下同  

x %>%
 inner_join(y, by = "key")
# A tibble: 2 x 3
    key val_x val_y
  <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2

内连接最重要的性质是,没有匹配的行不会包含在结果中容易丢失观测,慎用


2) 外连接

外连接则保留至少存在于一个表中的观测。外连接有 3 种类型:

左连接 left_join:保留 x 中的所有观测;

右连接 right_join:保留 y 中的所有观测;

全连接 full_join:保留 x 和 y 中的所有观测。




x %>%
left_join(y, by = "key")
# A tibble: 3 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     3 x3    <NA>
x %>%
right_join(y, by = "key")
# A tibble: 3 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     4 <NA>  y3
x %>%
full_join(y, by = "key")
# A tibble: 4 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     3 x3    <NA>
4     4 <NA>  y3


2 重复键

以上均假设键具有唯一性,但情况并非总是如此。

如果x中的key变量,在y中有多个同样的key,那么所有的结合可能都会罗列出来



x1 <- tribble(
 ~key, ~val_x,
    1, "x1",
    2, "x2",
    2, "x3",
    1, "x4"
)
y1 <- tribble(
 ~key, ~val_y,
    1, "y1",
    2, "y2"
)
left_join(x1, y1, by = "key")
# A tibble: 4 x 3
    key val_x val_y
  <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     2 x3    y2  
4     1 x4    y1


3 定义连接键  

1) 默认值 by = NULL  

使用存在于两个表中的所有变量,这种方式称为自然连接。

left_join(x, y)
Joining, by = "key"
# A tibble: 3 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     3 x3    <NA>


2)   定义匹配键 by = c("a" = "b")

匹配 x 表中的 a 变量和 y 表中的 b 变量,输出结果中使用的是 x 表中的变量。

y_1 <- tribble(
 ~key2, ~val_y,
    1, "y1",
    2, "y2"
)
left_join(x, y_1, by = c("key" = "key2"))
# A tibble: 3 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     3 x3    <NA>

 

3) 多个匹配键

x2 <- tribble(
 ~key,~key1, ~val_x,
    1, 2018,"x1",
    2, 2019,"x2",
    3, 2019,"x3"
)
y2 <- tribble(
 ~key, ~key1,~val_y,
    1, 2018,"y1",
    2, 2018,"y2",
    4, 2019,"y3"
)
inner_join(x2,y2,by = c("key","key1"))
# A tibble: 1 x 4
   key  key1 val_x val_y
 <dbl> <dbl> <chr> <chr>
1     1  2018 x1    y1

三 筛选连接


筛选连接匹配观测的方式与合并连接相同,但前者影响的是观测,而不是变量。筛选连接有两种类型。

semi_join函数
  • 保留 x 表中与 y 表中的观测相匹配的所有观测

semi_join(x, y, by = "key")
# A tibble: 2 x 2
   key val_x
 <dbl> <chr>
1     1 x1  
2     2 x2


anti_join函数
  • 丢弃 x 表中与 y 表中的观测相匹配的所有观测。

anti_join(x, y, by = "key")
# A tibble: 1 x 2
   key val_x
 <dbl> <chr>
1     3 x3


参考资料:

https://r4ds.had.co.nz/  ,文中图的来源

《R数据科学》

相关文章
|
6月前
|
存储 并行计算 数据处理
用Python替代Mapinfo更快查找两张表中距离最近的点
用Python替代Mapinfo更快查找两张表中距离最近的点
80 0
(PD)PowerDesigner如何将一个包里的表拷贝到另一个表以后在视图中也可以显示?
(PD)PowerDesigner如何将一个包里的表拷贝到另一个表以后在视图中也可以显示?
177 0
在powerdesigner中,一个table,怎么在diagram中创建多个symbol(多个模块都和同一个表相关联)
在powerdesigner中,一个table,怎么在diagram中创建多个symbol(多个模块都和同一个表相关联)
159 0
在powerdesigner中,一个table,怎么在diagram中创建多个symbol(多个模块都和同一个表相关联)
|
物联网 Shell 开发者
SQLite 中的分组操作 | 学习笔记
快速学习 SQLite 中的分组操作
|
SQL C++ Python
SQL高级查询技巧(两次JOIN同一个表,自包含JOIN,不等JOIN)
掌握了这些,就比较高级啦 Using the Same Table Twice 如下面查询中的branch字段 SELECT a.account_id, e.emp_id, b_a.name open_branch, b_e.
4642 0
【TP5.1】关联与载入 多表连查
【TP5.1】关联与载入 多表连查
240 0
【TP5.1】关联与载入 多表连查
|
Oracle 关系型数据库 OLAP
[20171212]EXPDP如何导出两表关联后的数据
[20171212]EXPDP如何导出两表关联后的数据.txt https://blogs.oracle.com/database4cn/expdp%e5%a6%82%e4%bd%95%e5%af%bc%e5%87%ba%e4%b8%a4%e8%a1...
1528 0