分享一篇 Science 里不同批次的单细胞数据整合及批次校正方法

简介: 分享一篇 Science 里不同批次的单细胞数据整合及批次校正方法

处理流程图示


image.png


不同处理后的UMAP图


image.png

LISI指数差异


CD8+T细胞数据整合。


A.UMAP图显示CD8+ T细胞。每个点代表一个单细胞。第一张图显示的是来自所有数据集的细胞,第二张图显示的是黑色素瘤研究中的细胞。这两幅图都由数据集着色。很明显,来自不同数据集的细胞形成了不同的簇,说明批次效应的存在。下面的图显示了所有数据集的细胞,但由5个标记基因的标准化表达着色。


B.对A数据进行z-score标准化后的UMAP图。


C.对B数据应用mini-clusters处理后的UMAP图,也就是说,每个点代表一个小型集群。


D.对C数据应用批次矫正算法Harmony之后的UMAP图。


E.箱线图显示了A、B、C、D数据中的LISI (Local Inverse Simpson’s Index)分布。值得注意的是,在步骤B中,大部分细胞存在LISI > 1,提示未观察到明显的批量效应;在步骤B、C和D中,LISI显著增加,表明改进了数据整合。


数据整合和元集群识别

为了整合来自不同平台和不同研究的异构数据,采用了三个步骤。


对每个细胞进行size-factor normalization,对每个基因进行z-score scaling


为了减少技术噪音,如转录本退出,将单细胞划分为小组(称为微聚类,miniclusters),每个小组包含类似的细胞。这样,原始基因通过细胞表达矩阵转化为微聚类表达矩阵的基因。将所有数据集的矩阵按列组合,只保留所有数据集中存在的基因。合并的矩阵将用于下游分析。


应用批量效应校正算法Harmony对批次效应进行校正。


使用局部逆辛普森指数(local inverse Simpson’s Index,LISI)来评估整合效果。LISI定义了单个细胞附近的数据集的有效数量。LISI值越高,说明邻域的数据集越多,批处理效应越小。从之前的图可以看出z-score scaling 已经消除了由于平台和研究的差异而引起的批量效应,UMAP上数据集的均匀分布和LISI分布表明大多数细胞的LISI大于1证明了这一点。将单个细胞分组成小簇后,某些隐藏的细胞状态变得明显,并显著提高了LISI。使用Harmony进一步显著增加了LISI。


相关文章
|
Python
Python 压缩PDF减小文件大小
【8月更文挑战第6天】介绍了三种用Python压缩PDF文件的方法:1) 使用`pdfcompressor`库,安装后可通过简单命令压缩文件;2) 利用`PyPDF2`库,需手动设置压缩参数;3) 采用`pdfsizeopt`库,一键优化PDF大小。各方法均提供示例代码,便于快速实现文件压缩。
1997 0
|
数据可视化
R语言绘图教程丨Nature论文都在用的多组比较箱线图,自动计算显著性并标注,附带误差线
R语言绘图教程丨Nature论文都在用的多组比较箱线图,自动计算显著性并标注,附带误差线
|
人工智能 数据可视化 Go
R绘图实战|GSEA富集分析图
GSEA(Gene Set EnrichmentAnalysis),即基因集富集分析,它的基本思想是使用预定义的基因,将基因按照在两类样本中的差异表达程度排序,然后检验预先设定的基因集合是否在这个排序表的顶端或者底端富集。
3460 0
R绘图实战|GSEA富集分析图
|
11月前
|
存储 编解码 移动开发
空间转录组:数据格式介绍
空间转录组:数据格式介绍
空间转录组:数据格式介绍
|
9月前
|
存储 数据可视化
单细胞分析: Scanpy 核心绘图 (3)
单细胞分析: Scanpy 核心绘图 (3)
1021 0
单细胞分析: Scanpy 核心绘图 (3)
|
监控 容器
云效构建在线调试来啦!保留构建现场,高效排查构建问题
阿里云云效「构建在线调试」功能全新上线,助您一键开启 Debug 模式,在线高效调试,轻松解决构建难题!
533 110
|
数据可视化 数据库
scRNA分析|使用CellChat完成细胞通讯分析-简单且可视化出众,代码自取
scRNA分析|使用CellChat完成细胞通讯分析-简单且可视化出众,代码自取
3560 1
|
存储 开发框架 缓存
基因组组装:NextDenovo2 使用大全
基因组组装:NextDenovo2 使用大全
|
Ubuntu Linux Docker
Win11彻底卸载WSL2系统(去除导航窗格Linux图标)
Win11彻底卸载WSL2系统(去除导航窗格Linux图标)
19105 51
|
机器学习/深度学习 算法 前端开发
瞄准核心因素:Boruta特征选择算法助力精准决策
瞄准核心因素:Boruta特征选择算法助力精准决策
2366 0