R语言-数据处理：dplyr包的distinct 条件去重用法-阿里云开发者社区

R语言-数据处理：dplyr包的distinct 条件去重用法

2023-06-14 3207

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： dplyr中的distinct函数是一种非常实用的数据清洗函数，它可以帮助我们快速、方便地去除数据框中的重复行。本文简单分享了在R语言中进行数据框条件去重的一些较为常用的操作方法，以供参考

在实际数据分析中，数据框中可能存在重复的行，这些重复的行可能是由于数据采集、录入等环节出现的错误，也可能是由于数据本身的特性导致的。如果不去除这些重复行，可能会对数据分析结果产生误导，影响数据分析的准确性和可靠性。因此，有必要去除数据框中重复行的有助于保证数据的准确性和可靠性。dplyr 中的distinct函数是一种用于去除数据框中重复行的函数，它可以帮助我们快速、方便地去除重复行进行数据清洗和分析。除了 distinct函数，本文还介绍了其它一些更条件话的去重方法。

1、`distinct()` 方法

Note： dplyr::distinct()函数对数据框去重，默认保留重复记录的第一条记录

1.1 通过指定一列或多列进行去重

df %>% distinct( `column1` , `column2` ,  `···`, .keep_all = T) #.keep_all表示去重后返回数据框的所有列向量

1.2 通过基于所有列向量去除重复行记录

df %>% distinct()

2、`group_by-slice()` 方法

除了使用distinct函数处理重复行记录外，在dplyr管道中，还推荐使用group_by配合使用 slice实现更多样化的去重操作，如：

随机保留1条重复行记录

df %>% group_by(`column1` ,  `···`)  %>% slice_sample(n = 1) %>% data.frame()

保留第1个重复行记录

df %>% group_by(`column1` ,  `···`)  %>% slice(1) %>% data.frame()

保留最后1个重复行记录

df %>% group_by(`column1` ,  `···`)  %>% slice( n() ) %>% data.frame()

根据一列向量进行分组排序再去重保留符合要求的记录

df %>% group_by(`column1`) %>% arrange(desc(`column3`)) %>% slice(1) %>% data.frame()

Reference

https://dplyr.tidyverse.org/reference/distinct.html

R语言-数据处理：dplyr包的distinct 条件去重用法

1、`distinct()` 方法

1.1 通过指定一列或多列进行去重

1.2 通过基于所有列向量去除重复行记录

2、`group_by-slice()` 方法

Reference

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

R语言-数据处理：dplyr包的distinct 条件去重用法

1、distinct() 方法

1.1 通过指定一列或多列进行去重

1.2 通过基于所有列向量去除重复行记录

2、group_by-slice() 方法

Reference

热门文章

最新文章

相关课程

相关电子书

1、`distinct()` 方法

2、`group_by-slice()` 方法