单细胞工具箱|singleR-单细胞类型自动注释

简介: 单细胞工具箱|singleR-单细胞类型自动注释

本文首发于“生信补给站”公众号  https://mp.weixin.qq.com/s/ZJJZjb9MD3_OrQ6BXj1vLg


单细胞研究中细胞类型注释是很重要的环节,大致分为人工注释和软件注释。

(1)人工注释需要借助文献检索marker或者结合常用的注释数据库-

cellMarker(http://biocc.hrbmu.edu.cn/CellMarker/),

PanglaoDB(https://panglaodb.se/),

CancerSEA(http://biocc.hrbmu.edu.cn/CancerSEA/)等,比较考验研究者的相关背景和精力,优点在于准确性相对较好。

(2)软件自动化注释一般是使用软件内置数据集进行注释,操作相对简单。但是准确性会相对稍差,不过可以作为一种很好的辅助注释手段。


自动化注释的软件很多,本次先简单的分享如何使用singleR进行自动注释。

SingleR是一个用于对单细胞RNA-seq测序(scRNA-seq)数据进行细胞类型自动注释的R包(Aran et al.2019)。依据已知类型标签的细胞样本作为参考数据集,对测试数据集中的细胞进行标记注释。

一 内置数据库


使用SingleR的最简单方法是使用内置参考对细胞进行注释。singleR自带的7个参考数据集,其中5个是人类数据,2个是小鼠的数据:

BlueprintEncodeData Blueprint (Martens and Stunnenberg 2013) and Encode (The ENCODE Project Consortium 2012) (人)
DatabaseImmuneCellExpressionData The Database for Immune Cell Expression(/eQTLs/Epigenomics)(Schmiedel et al. 2018)(人)
HumanPrimaryCellAtlasData the Human Primary Cell Atlas (Mabbott et al. 2013)(人)
MonacoImmuneData, Monaco Immune Cell Data - GSE107011 (Monaco et al. 2019)(人)
NovershternHematopoieticData Novershtern Hematopoietic Cell Data - GSE24759(人)
ImmGenData the murine ImmGen (Heng et al. 2008) (鼠)
MouseRNAseqData a collection of mouse data sets downloaded from GEO (Benayoun et al. 2019).鼠)

二 数据库,R包


2.1 singleR包安装

#if (!requireNamespace("BiocManager", quietly = TRUE))
#    install.packages("BiocManager")
BiocManager::install("SingleR")
BiocManager::install("Seurat")

2.2 加载数据集,数据

加载数据库,可能会比较慢。建议下载好数据库后进行保存。

library(SingleR)
library(celldex)
library(Seurat)
library(pheatmap)
##下载注释数据库
hpca.se <- HumanPrimaryCellAtlasData()
hpca.se
#直接load下载好的数据库
load("HumanPrimaryCellAtlas_hpca.se_human.RData")
load("BlueprintEncode_bpe.se_human.RData")


2.3 查看seurat结果

使用单细胞工具箱|Seurat官网标准流程得到的pbmc的seurat的结果,

(1)查看seuret聚类结果


load("pbmc_tutorial.RData")
pbmc
meta=pbmc@meta.data #pbmc的meta文件,包含了seurat的聚类结果
head(meta)
                 orig.ident nCount_RNA nFeature_RNA percent.mt percent.HB RNA_snn_res.0.5 seurat_clusters   labels
AAACATACAACCAC-1     pbmc3k       2419          779  3.0177759          0               0               0  T_cells
AAACATTGAGCTAC-1     pbmc3k       4903         1352  3.7935958          0               3               3   B_cell
AAACATTGATCAGC-1     pbmc3k       3147         1129  0.8897363          0               2               2  T_cells
AAACCGTGCTTCCG-1     pbmc3k       2639          960  1.7430845          0               1               1 Monocyte
AAACCGTGTATGCG-1     pbmc3k        980          521  1.2244898          0               6               6  NK_cell
AAACGCACTGGTAC-1     pbmc3k       2163          781  1.6643551          0               2               2  T_cells


(2)查看umap和tsne图


plot1 <- DimPlot(pbmc, reduction = "umap", label = TRUE)
plot2<-DimPlot(pbmc, reduction = "tsne",
               label = TRUE)
plot1 + plot2


三 singleR注释


3.1 singleR使用内置数据集注释


#进行singleR注释
pbmc_for_SingleR <- GetAssayData(pbmc, slot="data") ##获取标准化矩阵
pbmc.hesc <- SingleR(test = pbmc_for_SingleR, ref = hpca.se, labels = hpca.se$label.main) #
pbmc.hesc
#seurat 和 singleR的table表
table(pbmc.hesc$labels,meta$seurat_clusters)




3.2 绘制umap/tsne图

pbmc@meta.data$labels <-pbmc.hesc$labels
print(DimPlot(pbmc, group.by = c("seurat_clusters", "labels"),reduction = "umap"))



3.3 使用多个数据库注释

使用BP和HPCA两个数据库综合注释,使用list函数读入多个数据库

pbmc3 <- pbmc
pbmc3.hesc <- SingleR(test = pbmc_for_SingleR, ref = list(BP=bpe.se, HPCA=hpca.se), 
                      labels = list(bpe.se$label.main, hpca.se$label.main)) 
table(pbmc3.hesc$labels,meta$seurat_clusters)
pbmc3@meta.data$labels <-pbmc3.hesc$labels
print(DimPlot(pbmc3, group.by = c("seurat_clusters", "labels"),reduction = "umap"))



可以看到多了一些hpca没有注视到的细胞类型。

四 注释结果诊断


4.1 基于scores within cells

print(plotScoreHeatmap(pbmc.hesc))



细胞在一个标签的得分很显著的高于其他标签得分,注释结果比较清晰。


4.2 基于 per-cell “deltas”诊断

plotDeltaDistribution(pbmc.hesc, ncol = 3)


Delta值低,说明注释结果不是很明确。


4.3 与cluster结果比较

tab <- table(label = pbmc.hesc$labels,

            cluster = meta$seurat_clusters)

pheatmap(log10(tab + 10))


相关文章
|
2月前
单细胞分析|映射和注释查询数据集
单细胞分析|映射和注释查询数据集
32 3
|
2月前
|
机器学习/深度学习 算法 数据可视化
一图胜千言:EBImage库分割和标注让你的图像说话
一图胜千言:EBImage库分割和标注让你的图像说话
53 0
|
7月前
|
机器学习/深度学习 运维 算法
基于卷积神经网络和手工特征注入的皮肤损伤图像异常检测:一种绕过皮肤镜图像预处理的方法
基于卷积神经网络和手工特征注入的皮肤损伤图像异常检测:一种绕过皮肤镜图像预处理的方法
67 1
|
1月前
|
前端开发 计算机视觉
InstantStyle,无需训练,风格保留文生图
InstantStyle 是一个通用框架,它采用两种简单但有效的技术来实现风格和内容与参考图像的有效分离。
|
13天前
|
机器学习/深度学习 编解码 图形学
CVPR 2024:全新生成式编辑框架GenN2N,统一NeRF转换任务
【4月更文挑战第29天】CVPR 2024 提出GenN2N框架,统一处理NeRF转换任务,将NeRF编辑转化为图像到图像转换,适用于文本驱动编辑、着色等。通过结合VAE和GAN的生成模型及对比学习正则化,保证三维一致性。虽依赖高质量预训练转换器且计算成本高,但展示了出色性能和通用性,有望广泛应用于图形学和视觉领域。[CVPR 2024, NeRF, GenN2N, 生成式编辑, 图像到图像转换]
23 1
|
4月前
|
机器学习/深度学习 PyTorch 数据处理
零基础入门语义分割-地表建筑物识别 Task2 数据扩增-学习笔记
零基础入门语义分割-地表建筑物识别 Task2 数据扩增-学习笔记
42 1
|
5月前
|
自然语言处理 数据挖掘 Java
20源代码模型的数据增强方法:克隆检测、缺陷检测和修复、代码摘要、代码搜索、代码补全、代码翻译、代码问答、问题分类、方法名称预测和类型预测对论文进行分组【网安AIGC专题11.15】
20源代码模型的数据增强方法:克隆检测、缺陷检测和修复、代码摘要、代码搜索、代码补全、代码翻译、代码问答、问题分类、方法名称预测和类型预测对论文进行分组【网安AIGC专题11.15】
146 0
|
11月前
|
存储 编解码 算法
栅格数据矢量化(附有完整代码)
栅格数据矢量化(附有完整代码)
|
7月前
|
机器学习/深度学习 数据采集 PyTorch
图片风格自动分析模型
图片风格自动分析模型
104 0
|
9月前
|
数据可视化 数据挖掘 Linux
科研绘图丨使用R语言Pheatmap包快速绘制基因表达量热图的方法,支持聚类和配色自定义修改
科研绘图丨使用R语言Pheatmap包快速绘制基因表达量热图的方法,支持聚类和配色自定义修改