Seurat -> RunPrestoAll 替代FindAllMarkers 加速DE 搜索

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 本文分享了一种在Seurat 流程里面加速大型数据集执行 DE 分析的方法 RunPrestoAll 的用法示例,以供参考学习

$\,\,\,\,\,\,$Seurat 提供了一个 FindAllMarkers 方法用于在单细胞RNA测序数据中寻找差异表达基因。然而,对于大型数据集的DE分析,使用Seurat软件包的FindAllMarkers方法 在数据集的全部细胞上执行DE搜索将变得非常缓慢。即使开启了future并行,速度也并不会显著提升,因为多线程模式只能在某些特定的计算环节中发挥作用,而在其他计算环节中仍然需要使用单线程模式。在加速搜索差异基因, FindAllMarkers 函数本身提供了对基因或细胞进行预过滤的参数,特别是设置 max.cells.per.ident 对每个类别进行降采样,使其中用于比较的细胞数量不超过设置的阈值。虽然通常会出现一定的性能损失,但速度增加会比较显,并且差异表达最高的基因可能仍会排列在最前面。

如果计算平台允许,并不推荐使用 FindAllMarkers(max.cells.per.ident = *) 通过降采样加速来执行DE 搜索,而是推荐基于 Rcpp 实现的 SeuratWrappers::RunPrestoAll 方法,具有与 Seurat::FindAllMarkers 一样的功能,并提供更迅速的搜索。

1、FindAllMarkers 降采样DE搜索 --性能损失评估

降采样DE搜索代码示例

pacman::p_load(Seurat,dplyr,ggplot2,patchwork,future.apply)
plan(multisession(workers = 10));options(future.globals.maxSize = 100 * 1024^4)

### load data
cur_seu <- readRDS("</USER FILE/>")
Idents(cur_seu) <- "</USER CODE/>"

### 提交异步任务 
R_bg.1 <- callr::r_bg(function(obt){FindAllMarkers(obt,only.pos = T)},args = list(cur_seu),package = c("Seurat"))

### 提交并行任务
future_lapply(c(30,50,70,seq(100,1000,by = 100)), function(sm.size){print(sm.size)
    degs <- FindAllMarkers(cur_seu,only.pos = T,max.cells.per.ident = sm.size,verbose = F)
    degs$sm.size = sm.size
    return(degs)
}) %>% bind_rows() %>% saveRDS("downsample.Rds")

### 等待异步任务完成写出数据
while(R_bg.1$is_alive()){Sys.sleep(.2)}; R_bg.1$get_result() %>% saveRDS("sourcedata.Rds")

性能损失评估
将每个细胞身份降采样到500 进行DE分析的时候,大部分细胞类型的 top_10,30,50,100 差异基因开始显示出比较全细胞集的DEs较高的一致性。然而,即使将采样水平提到1k,一些可能受到批次等实验技术影响的细胞类型的 top50和100 差异基因仍会表现出比较全细胞较低的一致性(最差的一致性下探到 $\sim$90%)。因此,对于需要考虑较多差异基因数量的分析中,有必要注意慎用 降采样的DE搜索方式。

#### 汇总
downsample.rslt <- readRDS("downsample.Rds")
sourcedata.rslt <- readRDS("sourcedata.Rds")
lapply(setNames(c(10,30,50,100),c("top.10","top.30","top.50","top.100")), function(top_n){
    temp_dat <- data.frame()
    for (batch in c(30,50,70,seq(100,1000,by = 100))) {
        for (i in as.vector(unique(dat.fullcells$cluster))) {
            y = sourcedata.rslt %>% filter(cluster == i) %>% slice_max(order_by = avg_log2FC,n = top_n,with_ties = F) %>% pull(gene) %>% unique()
            x = downsample.rslt %>% filter(sm.size == batch) %>% filter(cluster == i) %>% slice_max(order_by = avg_log2FC,n = top_n,with_ties = F) %>% pull(gene) %>% unique()
            temp_dat <- rbind(temp_dat,data.frame(cell=i, overlap_score = length(intersect(x,y))/top_n, sample.size = batch))
        }
    }
    return(temp_dat)
}) -> summary_rslt

lapply(1:length(summary_rslt), function(i){
    summary_rslt[[i]] %>% ggplot() + 
        geom_boxplot(aes(x = factor(sample.size), y = overlap_score,group = sample.size,fill = factor(sample.size))) + 
        theme_bw() + labs(title = sprintf("%s consistance",names(summary_rslt)[i]), x = "max.cells.per.ident") + NoLegend()
}) -> plt
(plt[[1]] |plt[[2]])/(plt[[3]] |plt[[4]])

----

2、RunPrestoAll 加速DE 搜索

SeuratWrappers::RunPrestoAllSeurat::FindAllMarkers 基于 Presto 的实现,功能参数和输出与 Seurat::FindAllMarkers 基本一致,由于 Presto 底层是基于 Rcpp 重编译的,可以非常迅速的进行 Wilcoxon 秩和检验。

实测在【Intel Core Processor (Broadwell) Linux】 平台上,6w 细胞量23类细胞类型的数据集上,开启10线程后,Seurat::FindAllMarkers 函数完成搜索耗时约 40min,而 SeuratWrappers::RunPrestoAll 最快可以在 10min 内完成搜索。

推荐代码

pacman::p_load(Seurat,SeuratWrappers,dplyr,future);
plan(multisession(workers = 10));sprintf("FUTURE CURRENT WORKERS = %s", nbrOfWorkers())

### First Load Your Seurat Object : cur_seu
SeuratWrappers::RunPrestoAll(cur_seu,only.pos = T,verbose =0)

![RunPrestoAll输出格式]


Reference

scRNA_workshop_part3_differential_expression (compbiocore.github.io)
How can we speed up FindMarkers · satijalab/seurat · Discussion #4433 (github.com)
RunPresto: A Presto-based implementation of FindMarkers that runs... in satijalab/seurat-wrappers: Community-Provided Methods and Extensions for the Seurat Object (rdrr.io)

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
2月前
|
数据采集 存储 XML
如何从Twitter搜索结果中批量提取视频链接
如何从Twitter搜索结果中批量提取视频链接
|
4月前
|
机器学习/深度学习 算法
R语言超参数调优:深入探索网格搜索与随机搜索
【9月更文挑战第2天】网格搜索和随机搜索是R语言中常用的超参数调优方法。网格搜索通过系统地遍历超参数空间来寻找最优解,适用于超参数空间较小的情况;而随机搜索则通过随机采样超参数空间来寻找接近最优的解,适用于超参数空间较大或计算资源有限的情况。在实际应用中,可以根据具体情况选择适合的方法,并结合交叉验证等技术来进一步提高模型性能。
list转tree,并支持搜索
list转tree,并支持搜索
72 0
|
移动开发 算法
秒懂算法 | A*搜索
本篇内容包括了A*搜索算法的原理精解以及2个例题。
599 1
秒懂算法 | A*搜索
|
机器学习/深度学习 算法 PyTorch
使用scikit-learn为PyTorch 模型进行超参数网格搜索
scikit-learn是Python中最好的机器学习库,而PyTorch又为我们构建模型提供了方便的操作,能否将它们的优点整合起来呢?
511 0
使用scikit-learn为PyTorch 模型进行超参数网格搜索
|
XML JSON 缓存
如何获得JD搜索关键词推荐列表?
如何获得JD搜索关键词推荐列表?
|
SQL 索引
白话Elasticsearch03- 结构化搜索之基于bool组合多个filter条件来搜索数据
白话Elasticsearch03- 结构化搜索之基于bool组合多个filter条件来搜索数据
307 0
|
SQL Java
白话Elasticsearch04- 结构化搜索之使用terms query搜索多个值以及多值搜索结果优化
白话Elasticsearch04- 结构化搜索之使用terms query搜索多个值以及多值搜索结果优化
533 0
|
SQL
白话Elasticsearch05- 结构化搜索之使用range query来进行范围过滤
白话Elasticsearch05- 结构化搜索之使用range query来进行范围过滤
130 0
|
存储 并行计算 算法
秒懂算法 | 搜索基础
本篇介绍了BFS和DFS的概念、性质、模板代码。
174 0
秒懂算法 | 搜索基础