基于R筛选过滤低丰度物种的几种方式

简介: 基于R筛选过滤低丰度物种的几种方式

首先导入输入文件物种某水平的分类表

gene <- read.delim('../nr/Phylum.txt',row.names = 1, sep = '\t', stringsAsFactors = FALSE, check.names = FALSE)

8e100f7a3494aee6a99cc6d52f26c43.png

百分比转化

方式一

gene_precent1 <- as.data.frame(apply(gene, 2, function(x){x/sum(x)}))

方式二

gene_precent2 <-  as.data.frame(t(t(gene)/colSums(gene,na=T))*100)
colSums(gene_precent2)

37f360aa0305b5065ab1e3f58718797.png

在微生物组数据分析中,样品分析之前我们经常需要对微生物组的丰度进行筛选,

  1. 过滤在任何样本中百分比小于1%的物种

gene_filter <-data.frame(gene_precent1[apply(gene_precent1,1,max)>0.01,])
  1. 保留在任何样品中百分比大于 1%的物种

gene_filter <-data.frame(gene_precent1[apply(gene_precent1,1,min)>0.001,])
  1. 过滤样品平均相对丰度小于1%的物种

gene_filter2 <- data.frame(gene_precent1[which(apply(gene_precent1, 1, function(x){mean(x)})
                                >0.01),], check.names=F)

另一种方法

gene_filter <- gene_precent1[which(rowMeans(gene_precent1) >= 0.01), ]
  1. 只保留相对丰度总和高于 0.005 的属,换成rowSums即可

gene_filter <- gene_precent1[which(rowSums(gene_precent1) >= 0.005), ]
  1. 过滤在一半或者大于一半样品中丰度为0的物种

cutoff = .5
gene_filter <- data.frame(gene_precent1[which(apply(gene_precent1, 1, function(x){length(which
                                                                (x!= 0))/length(x)}) >= cutoff),])

提一点, 代码中x!=0其实可以换为x大于等于某个值,就代表过滤在一半或者大于一半样品中丰度大于等于多少的物种,注意变通~~~

2fcd9c2c03d8ba635c6e53aef658e41.png

另外,在有的文献中还有是过滤每组中至少一半的样品丰度丰度大于0.1%,也就是说当你有俩组每组6个样品的情况下,你得保证每组都是至少有3个样品的丰度大于0.1%。其实也很简单,我们分别在各组中去执行上述代码,最后筛选到的物种再合并一下就OK了,用到了union函数,它的功能是会整合出现在x数据框中或y数据框中的数据,同时去除了两个数据框中重复的部分。

cutoff = 0.5
gene1 <- data.frame(gene_precent1[,1:6][which(apply(gene_precent1[,1:6], 1, function(x){length(which
                                                                                             (x>=0.001))/length(x)}) > cutoff),])
gene2 <- data.frame(gene_precent1[,7:12][which(apply(gene_precent1[,7:12], 1, function(x){length(which
                                                                                               (x>=0.001))/length(x)}) > cutoff),])
gene_filter1 <- gene_precent1[union(rownames(gene1),rownames(gene2)),]

提供另一种方法过滤在一半或者大于一半样品中丰度为0的物种

gene_filter <- gene_precent1
gene_filter[gene_filter >0] <- 1
gene_filter <- gene_precent1[which(rowSums(gene) >= ncol(gene_precent1)/2), ]


相关文章
|
27天前
单细胞分析|映射和注释查询数据集
单细胞分析|映射和注释查询数据集
27 3
|
2月前
|
算法 UED 索引
如何优化因为高亮造成的大文本(大字段)检索缓慢问题
如何优化因为高亮造成的大文本(大字段)检索缓慢问题
53 0
|
2月前
|
人工智能 Python
条件过滤检索
向量检索服务DashVector支持条件过滤和向量相似性检索相结合,在精确满足过滤条件的前提下进行高效的向量检索。
|
4月前
有关筛选条件的问题
有关筛选条件的问题
22 0
|
8月前
|
人工智能 自然语言处理 算法
Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索
Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索
Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索
|
8月前
|
机器学习/深度学习 自然语言处理
【论文速递】ACL 2022 - 查询和抽取:将事件抽取细化为面向类型的二元解码
事件抽取通常被建模为一个多分类问题,其中事件类型和论元角色被视为原子符号。这些方法通常仅限于一组预定义的类型。
86 1
|
9月前
|
数据采集 数据可视化 数据挖掘
如何筛选和过滤ARWU网站上的大学排名数据
ARWU网站(ShanghaiRanking's Academic Ranking of World Universities)是一个公认的全球大学排名的先驱和最值得信赖的大学排名之一。它每年发布世界前1000所研究型大学的排名,基于透明的方法论和客观的第三方数据。ARWU网站上的大学排名数据可以为高考考生、专业选择、就业指导、行业发展等提供有价值的参考信息。
如何筛选和过滤ARWU网站上的大学排名数据
|
10月前
|
数据可视化 Serverless Go
scRNA分析|单细胞GSVA + limma差异分析-celltype分组?样本分组?
scRNA分析|单细胞GSVA + limma差异分析-celltype分组?样本分组?
709 0
|
10月前
|
Linux Windows Perl
没有生物学重复的转录组数据怎么进行差异分析?
设置生物学重复这个环节也是你实验设计很重要的一part,设置的好对你下游分析也有利,通常我们做转录组测序,需要的样本量每组至少为3个生物学重复,这个处理起来就很合理,并且现在流行的差异分析软件DEseq2,limma,edgeR等等都是针对有重复的数据去做的,但有时候会不幸碰到样品测序失败不能用,导致每组就给你剩一个重复时候该怎么办,之前我有批数据就是这样,但是办法总比困难多不能放过任何实验数据,搜了搜其实还是有一些方法可以去解决的,在这里介绍下我搜到的几种方法。
557 0
|
10月前
|
算法
使用scanpy进行高可变基因的筛选
使用scanpy进行高可变基因的筛选