数据处理|数据查重怎么办？去重，就这么办！-阿里云开发者社区

数据处理|数据查重怎么办？去重，就这么办！

2023-06-20 206 发布于吉林

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据处理|数据查重怎么办？去重，就这么办！

本文首发于“生信补给站”公众号 https://mp.weixin.qq.com/s/oxOSaVxQNPDxFDq5Wu9WjQ

论文查重怎么办？就那么办！OK！

数据查重怎么办？就这么办！KO！

数据清洗过程中的典型问题：数据分析|R-缺失值处理、数据分析|R-异常值处理和重复值处理，本次简单介绍一些R处理重复值的用法：

将符合目标的重复行全部删掉；
存在重复的行，根据需求保留一行

数据准备

使用GEO数据库的表达数据，抽取一些并稍加处理（为方便展示）

data<-read.csv("A.csv",header=TRUE)

可以明显看到ID_REF存在重复，那要怎么处理呢？

一个不留

对于重复的行，一个不留！

1. unique 直接去重

data1<-unique(data)

data1

简单，直接，可以看到第9行完全重复的已经被删除。

如果我还想去掉ID_REF重复的行，怎么办？

2. duplicated 可选去重

1）删除数据集中完全重复的行，同unique

data2<-data[!duplicated(data),]

2）选择性删除

A：删除某一列存在重复的行

data2<-data[!duplicated(data$ID_REF),]

删除了ID_REF列存在重复的行，搞定！

B：删除某几列重复的行

#等价
data2 <- data[!duplicated(data[,c("ID_REF","GSM74876")]),]
data2 <- data[!duplicated(data[,c(1,3)]),]

删除了ID_REF列和GSM74876列均重复的行，Done！

择“优”录取

存在重复，但是不想完全删除，根据数据处理的目的保留一行。

1. aggregate函数

A : ID_REF重复行，保留其均值

data3<-aggregate( .~ID_REF,data=data, mean)

保留其最大值如下即可：

data3<-aggregate( .~ID_REF,data=data, max)

2 dplyr函数

A : ID_REF重复行，保留其均值，同aggregate函数结果一致。

library(dplyr)data4 <- data %>% group_by(ID_REF) %>% summarise_all(mean)

表达量去重

芯片表达数据中，会存在一个基因多个探针的情况，此处选择在所有样本中表达量之和最大的探针。

library(tibble)
data5 <- data %>%
 #计算每个探针（行）的表达量均值
 mutate(rowMean =rowMeans(.[grep("GSM", names(.))])) %>%
 #表达量均值从大到小排序
 arrange(desc(rowMean)) %>%
 # 选择第一个，即为表达量最大值
 distinct(ID_REF,.keep_all = T) %>%
 #去除rowMean这一列
 select(-rowMean) %>%
 # 将ID_REF列变成行名
 column_to_rownames(var = "ID_REF")