数据处理|数据查重怎么办?去重,就这么办!

简介: 数据处理|数据查重怎么办?去重,就这么办!

本文首发于“生信补给站”公众号  https://mp.weixin.qq.com/s/oxOSaVxQNPDxFDq5Wu9WjQ


论文查重怎么办?就那么办!OK!

数据查重怎么办?就这么办!KO!

数据清洗过程中的典型问题:数据分析|R-缺失值处理数据分析|R-异常值处理和重复值处理,本次简单介绍一些R处理重复值的用法:

  • 将符合目标的重复行全部删掉;
  • 存在重复的行,根据需求保留一行

数据准备

使用GEO数据库的表达数据,抽取一些并稍加处理(为方便展示)

data<-read.csv("A.csv",header=TRUE)

可以明显看到ID_REF存在重复,那要怎么处理呢?

一个不留


对于重复的行,一个不留!

1. unique 直接去重

data1<-unique(data)

data1

简单,直接,可以看到第9行完全重复的已经被删除。

如果我还想去掉ID_REF重复的行,怎么办?


2. duplicated 可选去重

1)删除数据集中完全重复的行,同unique

data2<-data[!duplicated(data),]

2)选择性删除

A:删除某一列存在重复的行

data2<-data[!duplicated(data$ID_REF),]  

删除了ID_REF列存在重复的行,搞定!

B:删除某几列重复的行

#等价
data2 <- data[!duplicated(data[,c("ID_REF","GSM74876")]),]
data2 <- data[!duplicated(data[,c(1,3)]),]

删除了ID_REF列和GSM74876列均重复的行,Done!

择“优”录取


存在重复,但是不想完全删除,根据数据处理的目的保留一行。

1. aggregate函数

A : ID_REF重复行,保留其均值

data3<-aggregate( .~ID_REF,data=data, mean)

保留其最大值如下即可:

data3<-aggregate( .~ID_REF,data=data, max)

2 dplyr函数

A : ID_REF重复行,保留其均值,同aggregate函数结果一致。



library(dplyr)data4 <- data %>% group_by(ID_REF) %>% summarise_all(mean)

表达量去重

芯片表达数据中,会存在一个基因多个探针的情况,此处选择在所有样本中表达量之和最大的探针。

library(tibble)
data5 <- data %>%
 #计算每个探针(行)的表达量均值
 mutate(rowMean =rowMeans(.[grep("GSM", names(.))])) %>%
 #表达量均值从大到小排序
 arrange(desc(rowMean)) %>%
 # 选择第一个,即为表达量最大值
 distinct(ID_REF,.keep_all = T) %>%
 #去除rowMean这一列
 select(-rowMean) %>%
 # 将ID_REF列变成行名
 column_to_rownames(var = "ID_REF")


好了,常用的数据去重方法先介绍这些,绝对比论文查重简单多了!


◆  

数据分析相关:

R|批量循环处理同一格式文件-csv,txt,excel

R In Action |基本数据管理

数据分析|R-缺失值处理

数据分析|R-异常值处理

数据分析|R-描述性统计

小数据| 描述性统计(Python/R 实现)

数据挖掘|R-相关性分析及检验

数据处理 | R-tidyr包

数据处理|R-dplyr

R|apply,tapply

数据处理|数据框重铸

R|ML_code-入门(1)

R|ML_code-线性回归(2)

R|机器学习入门-多元线性回归(3)

目录
打赏
0
0
0
0
21
分享
相关文章
用户画像系列——在一些中小型公司数据不全的情况下做画像怎么做呢?
用户画像系列——在一些中小型公司数据不全的情况下做画像怎么做呢?
125 0
数据分析案例-航空公司客户价值分析(聚类)
数据分析案例-航空公司客户价值分析(聚类)
780 0
数据分析案例-航空公司客户价值分析(聚类)
数据分析案例-航班准点分析
数据分析案例-航班准点分析
288 0
数据分析案例-航班准点分析
【硬着头皮】 去重确实可以这么去,但是
【硬着头皮】 去重确实可以这么去,但是
100 0
【硬着头皮】 去重确实可以这么去,但是
亿级视频内容如何实时更新?
优酷视频内容数据天然呈现巨大的网络结构,各类数据实体连接形成了数十亿顶点和百亿条边的数据量,面对巨大的数据量,传统关系型数据库往往难以处理和管理,图数据结构更加贴合优酷的业务场景,图组织使用包括顶点和边及丰富属性图来展现,随着年轻化互动数据和内容数据结合,在更新场景形成单类型顶点达到日更新上亿的消息量。本文将分享阿里文娱开发专家遨翔、玄甫在视频内容实时更新上的实践,从图谱化的全新视角,重新组织内容数据的更新,诠释图谱化在业务更新场景的应用。
1309 0
亿级视频内容如何实时更新?
带你读《广告数据定量分析:如何成为一位厉害的广告优化师》之二:广告数据分析中的统计学原理
这是一部面向初级广告优化师、渠道运营人员的广告数据分析和效果优化的实战指南。数据分析功底的深浅,决定了广告优化师能力水平的高低。这本书一方面告诉读者成为一名厉害的广告优化师需要掌握的数据分析技能,以及如何快速掌握这些技能;一方面又为读者总结了SEM广告、信息流广告、应用商店广告数据的分析方法论和效果优化的方法,以及多广告推广渠道的统筹优化。书中提供大量真实数据案例,助你提升广告数据分析的理论深度和业务水平。
带你读《广告数据定量分析:如何成为一位厉害的广告优化师》之三:广告数据的描述:图表
这是一部面向初级广告优化师、渠道运营人员的广告数据分析和效果优化的实战指南。数据分析功底的深浅,决定了广告优化师能力水平的高低。这本书一方面告诉读者成为一名厉害的广告优化师需要掌握的数据分析技能,以及如何快速掌握这些技能;一方面又为读者总结了SEM广告、信息流广告、应用商店广告数据的分析方法论和效果优化的方法,以及多广告推广渠道的统筹优化。书中提供大量真实数据案例,助你提升广告数据分析的理论深度和业务水平。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等