基于R筛选过滤低丰度物种的几种方式

简介: 基于R筛选过滤低丰度物种的几种方式

首先导入输入文件物种某水平的分类表

gene <- read.delim('../nr/Phylum.txt',row.names = 1, sep = '\t', stringsAsFactors = FALSE, check.names = FALSE)

8e100f7a3494aee6a99cc6d52f26c43.png

百分比转化

方式一

gene_precent1 <- as.data.frame(apply(gene, 2, function(x){x/sum(x)}))

方式二

gene_precent2 <-  as.data.frame(t(t(gene)/colSums(gene,na=T))*100)
colSums(gene_precent2)

37f360aa0305b5065ab1e3f58718797.png

在微生物组数据分析中,样品分析之前我们经常需要对微生物组的丰度进行筛选,

  1. 过滤在任何样本中百分比小于1%的物种

gene_filter <-data.frame(gene_precent1[apply(gene_precent1,1,max)>0.01,])
  1. 保留在任何样品中百分比大于 1%的物种

gene_filter <-data.frame(gene_precent1[apply(gene_precent1,1,min)>0.001,])
  1. 过滤样品平均相对丰度小于1%的物种

gene_filter2 <- data.frame(gene_precent1[which(apply(gene_precent1, 1, function(x){mean(x)})
                                >0.01),], check.names=F)

另一种方法

gene_filter <- gene_precent1[which(rowMeans(gene_precent1) >= 0.01), ]
  1. 只保留相对丰度总和高于 0.005 的属,换成rowSums即可

gene_filter <- gene_precent1[which(rowSums(gene_precent1) >= 0.005), ]
  1. 过滤在一半或者大于一半样品中丰度为0的物种

cutoff = .5
gene_filter <- data.frame(gene_precent1[which(apply(gene_precent1, 1, function(x){length(which
                                                                (x!= 0))/length(x)}) >= cutoff),])

提一点, 代码中x!=0其实可以换为x大于等于某个值,就代表过滤在一半或者大于一半样品中丰度大于等于多少的物种,注意变通~~~

2fcd9c2c03d8ba635c6e53aef658e41.png

另外,在有的文献中还有是过滤每组中至少一半的样品丰度丰度大于0.1%,也就是说当你有俩组每组6个样品的情况下,你得保证每组都是至少有3个样品的丰度大于0.1%。其实也很简单,我们分别在各组中去执行上述代码,最后筛选到的物种再合并一下就OK了,用到了union函数,它的功能是会整合出现在x数据框中或y数据框中的数据,同时去除了两个数据框中重复的部分。

cutoff = 0.5
gene1 <- data.frame(gene_precent1[,1:6][which(apply(gene_precent1[,1:6], 1, function(x){length(which
                                                                                             (x>=0.001))/length(x)}) > cutoff),])
gene2 <- data.frame(gene_precent1[,7:12][which(apply(gene_precent1[,7:12], 1, function(x){length(which
                                                                                               (x>=0.001))/length(x)}) > cutoff),])
gene_filter1 <- gene_precent1[union(rownames(gene1),rownames(gene2)),]

提供另一种方法过滤在一半或者大于一半样品中丰度为0的物种

gene_filter <- gene_precent1
gene_filter[gene_filter >0] <- 1
gene_filter <- gene_precent1[which(rowSums(gene) >= ncol(gene_precent1)/2), ]


相关文章
模糊搜索:在不确定性中寻找精确结果
模糊搜索作为搜索技术的基础部分,凭借其较强的容错性和高效性,广泛应用于各类场景。然而,在需求越来越复杂的今天,模糊搜索的局限性也逐渐显现,尤其在深层语义理解和复杂查询中。因此,模糊搜索在与语义搜索等新型搜索方式结合的过程中展现了更大的潜力。希望本文对你理解模糊搜索的背景、原理及应用有所帮助,助力你在实际项目中灵活运用这一工具。 只有锻炼思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
模糊搜索:在不确定性中寻找精确结果
|
11月前
|
1066 图像过滤 (15 分)
1066 图像过滤 (15 分)
|
11月前
|
条件筛选大作战:解析Where与Having的区别与应用
条件筛选大作战:解析Where与Having的区别与应用
139 0
偏好类标签支持自定义统计方式,标签场景覆盖更广
在个性化营销场景,零售商必须理解顾客的行为才能更准确的预测客户需求,优化库存管理、制定营销策略,并提供个性化的购物体验,然而偏好类标签的加工不仅仅是简单的属性出现频次或最大值的统计,Dataphin V4.0版本新增了自定义统计的方式加工偏好标签,通过简单的配置即可完成复杂的标签加工场景。
166 2
|
12月前
静态时序分析:工艺库的特征化条件和工作条件
静态时序分析:工艺库的特征化条件和工作条件
108 0
如何筛选和过滤ARWU网站上的大学排名数据
ARWU网站(ShanghaiRanking's Academic Ranking of World Universities)是一个公认的全球大学排名的先驱和最值得信赖的大学排名之一。它每年发布世界前1000所研究型大学的排名,基于透明的方法论和客观的第三方数据。ARWU网站上的大学排名数据可以为高考考生、专业选择、就业指导、行业发展等提供有价值的参考信息。
117 0
如何筛选和过滤ARWU网站上的大学排名数据
数仓中指标-标签,维度-度量,自然键-代理键,数据集市等各名词解析及关系
这是在数据分析中常见的概念,下钻可以理解成增加维的层次,从而可以由粗粒度到细粒度来观察数据,比如对产品销售情况分析时,可以沿着时间维从年到月到日更细粒度的观察数据。从年的维度可以下钻到月的维度、日的维度等。
数仓中指标-标签,维度-度量,自然键-代理键,数据集市等各名词解析及关系
如何实现动态内容条件筛选
这两天看了一下后端给的接口文档,每一个都要求筛选,而且这个筛选还是多条件的,还是不能固定的,要求根据用户的输入然后筛选,我之前的实现大概是这样子,当用户想要筛选的时候就去检索条件,并输入相关的内容进行筛选
数仓中指标-标签,维度-度量,自然键-代理键等各名词解析及关系
作为一个数据人,是不是经常被各种名词围绕,是不是对其中很多概念认知模糊。有些词虽然只有一字之差,但是它们意思完全不同,今天我们就来了解下数仓建设及数据分析时常见的一些概念含义及它们之间的关系。
907 0
数仓中指标-标签,维度-度量,自然键-代理键等各名词解析及关系
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等